카테고리 없음

Cancer genome 개념 총정리 somatic mutation (germline mutation와 비교), MuTect, GISTIC을 통한 분석과정 이해

happip_jh 2023. 4. 5. 23:28

 

Index

Somatic Mutation 개념

Somatic mutation과 Germline mutation의 차이

MuTect: point mutation detect tool

GISTIC: Driver gene detect tool

 

 

[1] What is somatic mutation?

    • 특정 장기나 조직에서만 국한된 체세포 분열 과정에서의 변이 (쉽게 말해 원래 가진 유전자에서 환경이나 분열과정에서 mutation이 일어난 유전자를 말한다)
    • 변이 종류: SNV(Single Nucleotide Variant), 구조 변이(structural variation), 염색체 이수성(aneuploidy) 등 여러 형태의 변이가 존재한다.
      • 구조 변이
        • deletion
        • insertion
        • inversion
        • Tandem duplication
        • Translocation
        • Complex rearrangement

 

Germline mutation 분석법에 깊이 공부했던 나는 somatic mutation 분석법 혹은 그 과정이 헷갈렸는데, 일단 채취하는 샘플부터가 다르다.

mutation이 somatic mutation인지 germline mutation인지 어떻게 구별하지? 란 헷갈림도 있었는데 MuTect variant calling 과정 이해를 통해 어떻게 somatic mutation을 구별하는지 깨달았다.

 

[2] Somatic mutation vs Germline mutation

 

  • Germline mutation의 경우 blood sample에서 채취해서 sequencing해 생식세포에서 가지고 있는 유전 변이를 보는 것
  • Somatic mutation은 조직 혹은 세포를 떼어내서 sequencing해 발생한 유전 변이를 보는 것
    • 세포마다 노화속도가 달라 heterozygosity가 있다는 특징을 지님
    • purity 정상세포와 암세포가 섞이는 특징이 있음 (정확도 문제가 있음)
    • ploidy: tumor cell 안에 mutation이 들은 정도
    • sequencing error가 많이 나 제거하는 것이 중요

Driver 유전자들로는 SNV, indels, CNAs 등 mutation 종류가 있고, epigentics로는 DNA methylation이 있다.

 

그 외, cancer database로 유명한 것은 TCGA와 ICGC가 있다.

  • TCGA
    • 20~25종의 cancer type들이 있음
    • Whole Exome Sequence 보유, WGS 10%정도 보유
    • RNA-seq (mRNA+miRNA)
    • SNP arrays
    • Methylation (illumina arrays)
    • cancer database 중에 가장 다양한 흔히 말하는 multi-omics를 분석할 수 있는 가장 좋은 데이터베이스 중에 하나이다.
  • ICGC (international Cancer Genome Consortium)
    • 50 tumor types 보유
    • 500 T/N pairs 보유

 

[3] What is MuTect?

 

  • MuTect의 용도는 무엇일까?
    • NGS data를 사용해서 somatic mutation의 point mutation을 발견하기 위해 사용되는 software tool
    • 여러 tool들에 비해 sensitivity가 높아 활용성이 높음
    • 통계적인 접근 방법을 통해 somatic point mutation과 wild type을 구분하는 것이 핵심

 

MuTect 과정 (https://www.nature.com/articles/nbt.2514)
  • MuTect 과정:
    1. removal of low-quality sequence data
    2. variant detection in the tumor sample using a Bayesian classifier
    3. filtering to remove false positives resulting from correlated sequencing artifacts that are not captured by the error model (false positive 제거)
    4. designation of the variants as somatic or germ-line by a second Bayesian classifier (germline mutation과 somatic mutation을 bayesian classifier로 한번 더 비교)

 

논문: https://www.nature.com/articles/nbt.2514

 

 

 
MuTect이 somatic mutation detect하는 공식

위에 MuTect이 mutation을 detect하는 방법으로는 Bayesian classifier을 활용하였고 공식은 위와 같다.

L은 Likelihood, Bayesian은 여러 software 등에 자주 쓰이는 probability 중에 하나인 것 같다.

 

그냥 쉽게 정리하면 위의 공식을 이용해서 somatic mutation을 detect하고 그 mutation에 기존에 알고 있는 germline mutation이 있나 확인해서 제거하고 false poistive를 제거하면 point mutation이 남게 되는 방법이다.

 

[4] GISTIC: driver gene detect

 

위에서 genmic alteration을 detect하였다면, 다음 중요한 문제는 그 유전자들 중에서 driver gene이 무엇인지 findng하는 것이 중요한 과제이다. 이 문제를 GISTIC이란 software tool을 통해 driver gene을 찾아낼 수 있다.

*driver gene은 변화된 유전자들중에 진짜로 암을 유발하는 유전자이다.

 

GISTIC process
  • 방법
  1. Calculates a G score that involves both the frequency of occurrence and the amplitude of the aberration
  2. It assesses the statistical significance of each aberration by comparing the observed statistic to the results that would be expected by chancem pusing a permutation test that is based on the overall pattern of aberrations seen across the genome

 

왼쪽 그림에서 보이 듯이 gene의 길이에 따라서 mutation이 발생하는 정도를 다르게 평가해야 한다.

이 평가한 것에 대한 결과가 오른쪽 Gene scores에 해당한다.

Gene scores에서 Significance threshold를 넘은 유전자가 driver gene에 해당한다.