♣ Keyword:
#Transcription factor : 전사 과정을 도와주게 하는 단백질 complex
#Transcription motif : TF가 부착되는 위치들 (PWM matrix로 표현가능)
#Position Weight Matrix : DNA sequnece의 어느 position에 A/T/C/G가 몇 퍼센트로 오는지 표로 만든 것
#Expectation Maximum : Algorithm으로 E step과 M step으로 구성된 방법
#Gibbs Sampling : 얘도 Algorithm (Markov Chain Monte carlo algorithm 중에 한 종류
(EM과 Gibbs Samping 방법론 중에 하나로 다른 데서도 다양하게 쓰임)
- 간단한 개요 (줄거리)
DNA가 RNA로 전사 발현되는 과정 중에 transcription factor가 dna(enhancer)에 부착하게 되는데 어느 위치에 binding하느냐를 해결해주기 위한 방법으로 Expectation Maximum과 Gibbs Samping 알고리즘을 사용함.
Transcription site가 부착되는 위치를 matrix로 표현한 것이 Transcription Motif이다. 어느 위치에 어떤 염기가 올지 표로 나타낸 것은 PWM(position weight matrix)라 칭함. 이 PWM을 구성요소값을 update해주는 것이 EM & Gibbs sampling 방법
- 전사 발현과 TF, 그리고 Transcription Motif
Epigenomics와 꼭 붙어다니는 내용, gene regulation process.
Transcription factor motif를 찾는 것이 왜 중요한가? TF는 전사발현 조절에 중요한 역할이기 때문에 어느 site에 부착할지 알아내는 것 또한 중요하기 때문
↓ 이 binding site에 어떤 염기로 구성되어 있는지 시각적으로 잘 나타내는 것이 sequence LOGO이다.
- sequence LOGO
sequence logo는 PWM을 시각화한 것으로, 해당 position에 A/C/T/G가 올 확률을 나타낸 것이다. 예로 위에 4번째 position에 A가 올 확률이 큼을 의미 (확률 계산은 shannon entropy로 한다)
- PWM (Position Weight Matrix)
동일하게 해당 position에 염기가 올 확률을 matrix로 나타낸 것. 왼쪽의 10개 염기들을 보고 예를 들어 1 position에서 A가 올 확률 0.9(9/10), T가 올 확률 0.1(1/10) 값을 채운 것
- EM과 Gibbs Sampling이 어디에 쓰이고, 왜 필요한가?
두 방법은 De novo로 어느 위치에 TF가 binding되는지 site를 찾는 알고리즘 방법이다(실험이 아닌 확률로).
여러 다양한 sequence들을 기반으로 TF가 binding하는 site가 어떤 염기의 구성으로 되는지 모른다. 두 방법을 알기 위해선 알아야하는 기본 용어들이 있다.
위 그림의 알아야 하는 기본 용어: (헷갈리다면 motif는 TF가 부착되는 위치라 생각하는 것이 편하다)
θ0: non-motif probability; TF가 부착되지 않는 확률
θ: motif probability; TF가 부착되는 확률
π: motif가 발생된 지점
=> 위에 세가지 값을 모두 알면, 밑에 두가지 방법을 사용할 필요가 없다. 그렇다면 언제 이 두 방법을 쓰는가?
π (motif site 위치)와 θ를 모를 때 쓴다
=> 이를 해결하기 위해 나온 방법이 EM과 Gibbs sampling이다.
Method1. Expection Maximum
Expection Maximum은 2가지 step으로 구성되어 있다. E step과 M step으로 E step은 기댓값을 산출하는 과정과 M step 결과값을 update하는 과정으로 구성된다.
- E step
(그림에 대한 설명)
위의 예시에서는 긴 sequence가 있을 때 한칸씩 밀면서 motif라 가정하고 -> Likelihood probability를 구한다.
Likelihood probability란 오른쪽의 확률과 같이 TTGAC가 θ에 부착될 확률/ TTGAC가 θ0(backgroud)에 부착될 확률와 같이 구한다.
M step
구한 likelihood probability와 motif sequence를 곱해 확률을 구한다.
Method 2.Gibbs Sampling
↓ 이 동영상을 보면 예시까지 친절히 해주셔서 이해가 잘된다!
Gibbs Sampler for Sequence Motif Detection Example 1 (Bioinformatics) - YouTube
Sequence (4):
#1. CATGTGAA
#2. CAGCAGGG
#3. ACCTCTTC
#4. CAGACATG
이처럼 4가지 sequence가 있고 밑줄친 곳이 motif라 할 때
PWM matrix를 Gibbs Sampling 방법으로 matrix를 생성해야 한다.
Step 1. sequence들 중에 #1,2,4번만 motif로 선택한다.
Step 2. ↓ 공식에 따라 matrix 값을 채운다