Index
Somatic Mutation 개념
Somatic mutation과 Germline mutation의 차이
MuTect: point mutation detect tool
GISTIC: Driver gene detect tool
[1] What is somatic mutation?
-
- 특정 장기나 조직에서만 국한된 체세포 분열 과정에서의 변이 (쉽게 말해 원래 가진 유전자에서 환경이나 분열과정에서 mutation이 일어난 유전자를 말한다)
- 변이 종류: SNV(Single Nucleotide Variant), 구조 변이(structural variation), 염색체 이수성(aneuploidy) 등 여러 형태의 변이가 존재한다.
- 구조 변이
- deletion
- insertion
- inversion
- Tandem duplication
- Translocation
- Complex rearrangement
- 구조 변이
Germline mutation 분석법에 깊이 공부했던 나는 somatic mutation 분석법 혹은 그 과정이 헷갈렸는데, 일단 채취하는 샘플부터가 다르다.
mutation이 somatic mutation인지 germline mutation인지 어떻게 구별하지? 란 헷갈림도 있었는데 MuTect variant calling 과정 이해를 통해 어떻게 somatic mutation을 구별하는지 깨달았다.
[2] Somatic mutation vs Germline mutation
- Germline mutation의 경우 blood sample에서 채취해서 sequencing해 생식세포에서 가지고 있는 유전 변이를 보는 것
- Somatic mutation은 조직 혹은 세포를 떼어내서 sequencing해 발생한 유전 변이를 보는 것
- 세포마다 노화속도가 달라 heterozygosity가 있다는 특징을 지님
- purity 정상세포와 암세포가 섞이는 특징이 있음 (정확도 문제가 있음)
- ploidy: tumor cell 안에 mutation이 들은 정도
- sequencing error가 많이 나 제거하는 것이 중요
Driver 유전자들로는 SNV, indels, CNAs 등 mutation 종류가 있고, epigentics로는 DNA methylation이 있다.
그 외, cancer database로 유명한 것은 TCGA와 ICGC가 있다.
- TCGA
- 20~25종의 cancer type들이 있음
- Whole Exome Sequence 보유, WGS 10%정도 보유
- RNA-seq (mRNA+miRNA)
- SNP arrays
- Methylation (illumina arrays)
- cancer database 중에 가장 다양한 흔히 말하는 multi-omics를 분석할 수 있는 가장 좋은 데이터베이스 중에 하나이다.
- ICGC (international Cancer Genome Consortium)
- 50 tumor types 보유
- 500 T/N pairs 보유
[3] What is MuTect?
- MuTect의 용도는 무엇일까?
- NGS data를 사용해서 somatic mutation의 point mutation을 발견하기 위해 사용되는 software tool
- 여러 tool들에 비해 sensitivity가 높아 활용성이 높음
- 통계적인 접근 방법을 통해 somatic point mutation과 wild type을 구분하는 것이 핵심
- MuTect 과정:
-
- removal of low-quality sequence data
- variant detection in the tumor sample using a Bayesian classifier
- filtering to remove false positives resulting from correlated sequencing artifacts that are not captured by the error model (false positive 제거)
- designation of the variants as somatic or germ-line by a second Bayesian classifier (germline mutation과 somatic mutation을 bayesian classifier로 한번 더 비교)
위에 MuTect이 mutation을 detect하는 방법으로는 Bayesian classifier을 활용하였고 공식은 위와 같다.
L은 Likelihood, Bayesian은 여러 software 등에 자주 쓰이는 probability 중에 하나인 것 같다.
그냥 쉽게 정리하면 위의 공식을 이용해서 somatic mutation을 detect하고 그 mutation에 기존에 알고 있는 germline mutation이 있나 확인해서 제거하고 false poistive를 제거하면 point mutation이 남게 되는 방법이다.
[4] GISTIC: driver gene detect
위에서 genmic alteration을 detect하였다면, 다음 중요한 문제는 그 유전자들 중에서 driver gene이 무엇인지 findng하는 것이 중요한 과제이다. 이 문제를 GISTIC이란 software tool을 통해 driver gene을 찾아낼 수 있다.
*driver gene은 변화된 유전자들중에 진짜로 암을 유발하는 유전자이다.
- 방법
- Calculates a G score that involves both the frequency of occurrence and the amplitude of the aberration
- It assesses the statistical significance of each aberration by comparing the observed statistic to the results that would be expected by chancem pusing a permutation test that is based on the overall pattern of aberrations seen across the genome
왼쪽 그림에서 보이 듯이 gene의 길이에 따라서 mutation이 발생하는 정도를 다르게 평가해야 한다.
이 평가한 것에 대한 결과가 오른쪽 Gene scores에 해당한다.
Gene scores에서 Significance threshold를 넘은 유전자가 driver gene에 해당한다.