전체 글 19

[ML] Matrix Decomposition - eigen decomposition과 함께 PCA, SVD 이해하기

오늘 내용은 대표적인 matrix decomposition에 해당하는 PCA, SVD을 이해하기 위한 기본 개념과 증명 과정에 대해 깊이 다루고자 한다.관련 기본 개념들은 eigen decomposition, determinant 등이 있고 Eigen decomposition(고유값 분해)를 이해해해야 PCA를 이해 할 수 있기 때문에 꼭 알아야하는 개념 중 하나이다. Matrix decomposition은 왜 사용해야 할까? Matrix decomposition을 하는 이유는 행렬을 더 작은 구성 요소로 분해하여 계산을 더 쉽게 하거나 데이터의 중요한 특성을 추출하기 위해서 사용한다. 행렬 분해를 통해 우리는 데이터 차원을 축소 할 수 있을 뿐만 아니라 clustering, 중요한 feature 정보 ..

카테고리 없음 2024.10.15

[ML] Bayesian Optimization 개념 이해하기 - surrogate model, acquisition function

먼저 Bayesian Optimization은 뭘까? 머신러닝이나 딥러닝모델들의 parameter를 optimize하기 위해 여러 실험을 해야 되는데 이런 귀차니즘을 해결할 수 있는 알고리즘이 bayesian optimization이다. 최적화된 hyperparameter값을 찾아주는 알고리즘으로 최고의 성능을 도출해준다고 보면 된다. (조금 더 구체적인 개념으로는 gaussian process regression 방법을 활용해 사후확률을 가장 잘 예측하도록 최적화하는 방법이다.) 본격적으로 Bayesian optimization을 알아보기 전에 관련된 기본용어 및 개념에 대해 알아보자! 보통 알려진 최적화된 Hyperparameter을 찾는 3가지 방법으로는 Grid Search, Random sear..

카테고리 없음 2024.02.18

[ML] Monte Carlo Markov Chain의 Markov Chain 개념 이해하기

지난 글에선 MCMC에서 Monte Carlo에 해당하는 rejection sampling에 대해서 알아보았다. 이번 글에선 markov chain을 이해하는 시간을 통해 Event들이 발생했을 때 특정 결과로 어떻게 도달하는지 알아보고자 한다. Monte Carlo에 대해서 먼저 이해가 필요하다면 https://blog.naver.com/happip_jh/223356350170 글을 먼저 보고 오면 된다. Marcov chain을 가장 이해하기 쉬운 방법은 그림을 통해서 기본 용어 개념에 대해 익숙해지는 것이다. ■ Basic Marcov Chain 대표사진 삭제 사진 설명을 입력하세요. Marcov chain에서 나타나는 기본 개념 용어 state space, marcov assumption, tra..

카테고리 없음 2024.02.17

[ML] Marcov Chain Monte Carlo의 rejection sampling 쉽게 이해하기

통계 공부를 했던 사람이라면 ' 어제 오늘 비가 올 확률이 70%로 라면 내일 비가 안 올 확률은?' 와 같은 문제를 marcov chain monte carlo방법으로 접근해 푸는 것을 한번쯤은 본 기억이 있을 것이다. 그래서 오늘은 어렴풋이 알았던 MCMC(marcov chain monte carlo)의 rejection sampling의 개념에서부터 MCMC가 문제를 해결하는 과정에 대한 설명을 정리하고자 한다. Monte Carlo methods - rejection sampling MCMC (Markov Chain Monte Carlo) - Marcov chain - Metropolis-Hasting - HMC (Hamiltonian Monte Carlo) 방법 Rejection sampling..

카테고리 없음 2024.02.17

Feedforward Neural Network (AI는 학습은 어떤 과정으로 진행되는가?)

Feedforward Neural Networks formula (activation function) FNN에서 activation function이 필요한 이유 ⇒ Activation function의 기능은 일단 모델을 통과한 결과값을 비선형(0~1)값으로 변형시켜주는 역할을 한다. 그렇다면 왜 비선형 값으로 바꿔야 할까? ⇒ 모델의 layer을 2개를 쌓게 된다고 하는 경우 linear model 한층을 다음 linear model 한층을 또 지나게 되면 결과적으로 linear model이 된다. 최종 모델은 linear model이 되므로 복잡한 모델을 만들기엔 부적합하게 된다. (여러 layer을 쌓아도 딱히 의미가 없게 됨) 따라서 activation function을 통해 비선형 값으로 만..

카테고리 없음 2024.01.21

[AI] 적은 데이터로도 학습 가능한 Meta learning 개념, 장점, algorithm 이해

최근에 machine learning 관련 수업을 들으면서 처음 알게된 meta learning 모델 적은 데이터만으로도 충분히 훈련 가능한 모델로 deep learning과는 또 다른 강점을 가진 모델로 meta learning이 어떤 모델인지, 수학적인 정의, 어떤 데이터에 어떻게 쓰이고 강점이 무엇인지 정리하며 meta learning의 개념에 대해 정리해 보았다. 1. 먼저 meta learning을 왜 써야 되는지 이해하고 넘어가자. Deep learning의 경우 모델을 학습시키고 나면 fine tuning을 통해 최적의 initial parameter과 learning rate값을 찾아야 한다. 그러나 Meta learning의 경우엔 data adaptation 과정을 통해 최적의 init..

카테고리 없음 2024.01.14

graph network 개념 및 생물학에서 graph network 쓰이는 방법

최근에 graph network쪽에 관심이 많았는데 마침AI-BIO 교육 6주차 때 대략적인 graph network의 개념과 더불어 어떻게 연구에 쓰이는지에 대해서 배워서 정리 할겸 이를 정리하고자 한다! 김선 교수님네 박사님 중에 drug, gene, disease간의 network embedding 방식으로 nature communication에 논문 publish하셨는데 너무 멋있고 부러웠따...ㅠ 나도 이런 기회가 언제 올까..? Network analysis [1] network centralities [2] network clustering - K-means, Hierachical [3] Network propagation - PropaNEt, MLDEG Network 분석 관련해서 cent..

카테고리 없음 2023.12.02

siRNA는 신약 개발에 어떻게 활용될 수 있는가? 김빛내리 교수님 초청 세미나

회사에 첫번째 초청 세미나로 김빛내리 교수님께서 방문하시게 되었다. 예전부터 김빛내리 교수님은 워낙 유명하신 분이라 익히 들었지만 어떤 연구를 하시고 있는지는 잘 몰라 이번 기회에 공부하게 되었다! 김빛내리 교수님께서 유명하신 이유는 세계 최초로 miRNA의 생성 과정을 세계 최초로 규명하신 분이자 2020년에는 코로나 전사체 규명으로 Nature에 개제되었다. 교수님 홈페이지에 방문해 봤더니, Nature와 Cell 학술지에만 50편 이상이 개제되어 있었다. 어려운 학술지에 논문을 내신만큼 세미나 내용도 복잡하고 어려울 줄 알았는데, 교수님께서 RNA를 잘 모르는 사람의 눈높이에도 맞출 만큼 쉽게 설명해주셔서 신기하기도 하고 대단하다고 느껴졌다. 교수님의 세미나를 듣기 전까지는 miRNA가 무엇이고, ..

카테고리 없음 2023.05.01

[R코드] 생존분석 - Kaplan meir curve & Cox Proportional Hazard model 개념, 코드, 해석

생존 분석은 암 혹은 의료 통계에서도 많이 쓰이는 분석 법이다. 그 중에서 Kaplan Meir과 Cox Propotional Hazard 분석법을 가장 많이 쓰고, plot으로도 표현을 많이 한다. 두 분석법의 간단한 개념과 R code를 공유해보고자 한다. ▶ Kaplan-Meir curve Kaplan-Meir에서 가장 중요한 개념은 Event(사건), Time(시간), Censored(중도절단) 이 3가지를 이해하는 것이다. Event는 status(상태)로 사망/생존과 같이 사건이 발생 한 것을 말하고, censored는 치료를 받고 follow up을 하다가 중도포기 했는지 알려주는 것이다. Kaplan-Meir은 의료분야에서 특정 수술 방법 혹은 치료 방법에 따른 환자의 생존 기간 분석에 활..

카테고리 없음 2023.04.15

Cancer genome 개념 총정리 somatic mutation (germline mutation와 비교), MuTect, GISTIC을 통한 분석과정 이해

Index Somatic Mutation 개념 Somatic mutation과 Germline mutation의 차이 MuTect: point mutation detect tool GISTIC: Driver gene detect tool [1] What is somatic mutation? 특정 장기나 조직에서만 국한된 체세포 분열 과정에서의 변이 (쉽게 말해 원래 가진 유전자에서 환경이나 분열과정에서 mutation이 일어난 유전자를 말한다) 변이 종류: SNV(Single Nucleotide Variant), 구조 변이(structural variation), 염색체 이수성(aneuploidy) 등 여러 형태의 변이가 존재한다. 구조 변이 deletion insertion inversion Tande..

카테고리 없음 2023.04.05