요약문
전장 유전체 해독(whole-genome sequencing) 기술은 차세대 염기서열 분석(Next Generation Sequencing; 이하 NGS)방법을 바탕으로 한 생물체의 염기서열 전체를 온전히 해독한다. 이는 특정한 사전 정보(a priori)에 의존하지 않으면서, 유전체 전 영역에서 발생하는 유전 변이(variant)를 탐색한다. 전장 유전체 분석은 유전체에서 파생하는 모든 가설들을 검정할 기회를 제공한다는 점에서 엑솜 시퀀싱(exome sequencing) 혹은 마이크로어레이(microarray)의 한계점을 보완한다. 유전체 기술 및 데이터 처리 장치의 비용 하락, 질병 코호트(corhot)의 등장으로 인해, 최근 질병 연구 컨소시엄들은 전장유전체를 활용하기 시작했다. 이 보고서는 전장 유전체 컨소시엄 연구들의 등장 배경과 현재 진행 상황을 요약하고, 해당 연구들에서 파생한 전장 유전체 연구의 의미를 살펴본다.
키워드 전장 유전체 질병 유전체 유전학 비암호화 유전체(noncoding genome)
분야 Genomics
목차
1. 서론
2. 아이슬란드의 전장 유전체 연구
3. 인간 유전체 구조변이 컨소시엄(Human Genome Structural Variation consortium)
4. 자폐성 범주 장애(Autism Spectrum Disorder)
5. Pan-Cancer Analysis of Whole Genomes (PCAWG) 컨소시엄
6. 질병 유전체 연구와 해석을 위한 a priori 와 null
7. 질병 유전학에서 엑솜 시퀀싱의 성공 요인 그리고 전장 유전체 분석에 관한 시사점
8. 전장 유전체 해석의 미성숙한 방법론
9. 맺음말
10. 참고문헌
1. 서론
유전학 연구는 질병이나 형질에 기여하는 유전적인 원인을 찾고 병인을 이해하는 가설을 제공한다. 이러한 연구는 염기서열을 읽는 기술의 발전과 함께 진행되었다. 1980년대 등장한 제한 단편 길이 다형성(restriction fragment length polymorphism) 기술의 발전은 연관 분석(linkage analysis)을 등장시켰고, 90년대 등장한 마이크로어레이(microarray; 선별된 SNP 마커들을 이용하여 유전체 상의 유전형을 파악함) 기술은 상관성 검정(association test)의 등장과 규모화(genome-wide association study; GWAS)를 이끌었다. 2000년대 중후반 등장한 차세대 염기서열 분석 기술(next generation sequencing; NGS)은 인간 유전체에 존재하는 거의 모든 유전 변이를 탐색한다. 위 기술들의 발전은 질병의 후보 유전자를 탐지하는데 활용되고 있다. 대표적으로, 1990년을 전후로 연관 분석을 이용한 질병 유전학 연구들은 유방암 환자와 연관된 BRCA1 유전자[1], 알츠하이머의 APOE4 유전자[2]를 보고하였다. 이후, 이러한 후보 유전자들은 병의 기전을 이해하고자 하는 분자생물학 연구의 가설로 이용되기 시작하였다.
2000년대 중후반 등장한 NGS 기술은 유전체를 효율적이고 포괄적으로 해독한다. 이는 주어진 유전체 위의 모든 염기서열에서 유전형을 정확히 읽어내면서, 기존에 연관분석이나 GWAS에서 기술하지 못한 유전적 원인들을 찾는데 이용되었다. 다시 말해, NGS 기술은 인구집단에 적은 빈도수로 남아 있는 희귀 변이(rare variant)를 탐색하거나, 단일 염기 수준에서 염기서열 변화를 포괄적으로 탐지할 수 있는 기회를 제공한다. 초창기 NGS 연구들은 내의 단백질 암호화 영역(coding region; 이하 암호화 영역) 변화를 톺아보는 엑솜(exome) 시퀀싱 기술을 이용하였다. 엑솜 시퀀싱은 단일 염기서열 수준에서 변이를 탐색함으로서 질환에 원인이 되는 희귀 변이 혹은 후보 유전자를 발굴하는데 이용되었다[3,4].
엑솜 시퀀싱을 이용한 질병 유전학 연구는 대규모 역학 코호트 및 대조군 연구의 collection, 그리고 유전체 연구 컨소시엄을 통해 빠르게 발전하였다. 대표적으로 자폐성 범주 장애(autism spectrum disorder)의 엑솜 시퀀싱 연구는 사이먼즈 자폐 연구 재단(Simons Foundation Autism Research Initiative)을 비롯한 여러 비영리 과학재단의 후원에 따라, 1만명 이상의 자폐성 범주 장애 가족들의 엑솜 시퀀싱 데이터가 생산되었고[5–7], 10개 이상의 대학과 연구진이 참여하는 자폐증 유전체 연구 컨소시엄 (Autism Sequencing Consortium) 등에 의해 분석되었다[8]. 마찬가지로 선천성 심질환(congenital heart disease)[9], 간질성 뇌병증 (epileptic encephalopathy)[10], 발달장애(developmental disorder)[11], 조현병(schizophrenia)[12] 등도 이에 해당한다. 엑솜 시퀀싱 연구는 병인이 되는 후보 유전자의 발굴뿐 아니라, 병 발생에 대한 새로운 가설을 제공하였다. 자폐성 범주 장애의 경우, 신규 변이(de novo variant; 부모의 생식세포에서 발생하여 자녀에게 전달되는 변이의 종류, selection이 없을 것으로 예상됨)와 부모의 나이 간의 상관 관계[13,14], 그리고 이에 따른 fecundity와 역학결과의 상관관계에 대한 새로운 관점을 제공하였다. 발달성 뇌질환 의 성별에 따른 genetic liability의 차이에 대한 새로운 가설을 제공하였다[15,16].
엑솜 시퀀싱의 성공은 전장 유전체(whole genome sequencing) 기술에 대한 기대를 높였다. 전장 유전체 기술은 한 생물체의 유전체에서 염기서열 전체를 하는데, 이에 따라 엑솜 시퀀싱의 두가지 한계점을 보완한다: 1) 비암호화 유전체(noncoding genome; 단백질 암호화 지역 이외의 유전체 부위)에서 변이를 탐지하는 것; 2) 염기서열의 50bp 이상이 변경된 구조 변이(structural variation)에 대한 분석이 이에 해당한다. NGS의 가격 하락뿐 아니라, 아마존/구글 클라우드 및 Spark 등의 빅데이터 처리 장치의 등장은 대규모 전장 유전체를 효율적으로 분석할 수 있는 여건을 마련했다. 이를 바탕으로 질병 연구 컨소시엄들은 전장 유전체 기술을 이용하기 시작하였고, 비암호화 영역의 유전변이 및 구조 변이 등의 유전적 원인을 찾는 후속 연구들을 진행하고 있다. 이 보고서는 2018년 현재까지 이뤄진 전장유전체의 대규모 컨소시엄 사례들을 보고한다. 이는 두 가지 질문에 초점을 둔다: 1) 비암호화 영역에서 발견된 유전 변이는 질병이나 형질에 큰 영향을 미치는가?; 2) 전장 유전체의 등장은 질병 연구에 관한 새로운 가설을 제공할 수 있는가?
2. 아이슬란드의 전장 유전체 연구
암호화 영역과 다르게, 비암호화 영역은 오랫동안 큰 기능을 갖지 못한다고 알려져 있었다. 암호화 영역은 유전자라는 기능적인 단위를 바탕으로 분류되었고, 중심원리(central dogma)를 바탕으로 오랫동안 연구되었다. 그러나 지난 사반세기동안 급격히 발전한 분자생물학은 전사 조절에 관여하는 비암호화 영역들 – enhancer 혹은 promoter – 과, 일부의 생물학적인 기능을 밝혀냈다(예, Limb enhancer). 또한 대규모 유전체 컨소시엄(미국 ENCODE[17], NIH RoadMap Epigenome[18], 일본 RIKEN FANTOM[19]) 등은 후성 유전체(epigenome)의 양상 – 전사조절인자(transcription factor)의 위치 혹은 유전자 발현을 추정 – 을 보고하면서, 조직(tissue)이나 세포 특이적인 기능 단위를 포함한 비전사 지역들을 밝혀냈다. 이에 따라 암호화 영역과 마찬가지로, 일부 비암호화 영역들도 후성 유전체의 기능 단위를 포함함으로써, 형질이나 질병에 기여한다는 가설이 제기되었다. 이에 대한 가장 간단한 실험은 암호화 영역과 비암호화 영역에서 발견되는 유전 변이가 질병이나 형질에 얼마만큼 영향을 미치는지 비교하는 것이다. 이러한 질문은 아이슬란드의 국가 유전체 프로젝트를 통하여 진행되었다.
아이슬란드의 국가 유전체 프로젝트는 2천명의 아이슬란드인에게서 얻은 전장 유전체 데이터을 이용하여, 유전 변이를 각 유전체 지역에 따라 11가지 그룹으로 구분하였고, 이들의 빈도수를 대조군 상관성 검정을 이용해 비교하였다[20].
– 그룹 1. Loss-of-function variant (혹은 Protein-truncating variant; 유전 변이가 염기서열에 stop codon을 생성하는 경우)
– 그룹 2. Missense variant (혹은 nonsynonymous; 유전 변이가 아미노산 서열 하나를 변경시키는 경우)
– 그룹 3. Splice region (alternative RNA splicing이 일어나는 엑손-인트론 연결 지점에서 발생하는 변이)
– 그룹 4. Synonymous (유전 변이가 암호화 영역에 발생하지만 아미노산 서열을 변경시키지 않는 경우)
– 그룹 5. 3’ UTR (전사체의 3’ 말단의 untranslated region에서 발생하는 변이)
– 그룹 6. 5’ UTR (전사체의 3’ 말단의 untranslated region에서 발생하는 변이)
– 그룹 7. Upstream variant (유전자 전사체 시작점으로부터 5 kb 안에 발생하는 변이)
– 그룹 8. Downstream variant (유전자 전사체의 끝에서 5 kb 안에 발생하는 변이)
– 그룹 9. Intron variant (인트론– 엑손 사이의 비암호화 지역 –에서 발생하는 변이)
– 그룹 10. Intergenic variant (두 가지 유전자 사이의 비암호화 지역에서 발생하는 변이)
– 그룹 11. 기타 비암호화 지역에서 발생하는 변이
이들은 123개의 질병들을 이용하여 질병의 유무에 따른 대조군 실험을 설계했다. 유전 변이의 11개 그룹의 effect size(각 유전 변이 그룹이 해당 질병에 미치는 정도)을 로지스틱 회귀(Logistic regression) 이용하여 산출하였다. 또한 96개 양적 형질들에 관한 각 유전 변이 그룹의 effect size를 일반화 선형모델(generalized linear model)을 이용하여 산출하였다. 그 결과, 예상대로, 그룹 1(loss-of-function 유전 변이)이 질병에 가장 큰 effect size를 갖는 것으로 관찰되었다. Loss-of-function 변이는 대조군과 비교하여 실험군에 100배 이상 더 많이 나타난다. 반대로 비암호화 지역에서 발생하는 유전 변이(그룹 5-11)는 평균 2.7의 effect size를 갖는다. 이에 따라, 전사 조절에 영향을 미치는 비암호화 지역의 유전 변이가 후성유전체 지역 안에서 발생한다고 가정하면서, 이 상관성 검정을 DNase I hypersensitivity sites (DHS; 비암호화 지역에서 active transcription이 있을 것으로 추정) 내에 존재하는 유전 변이로 한정하고 동일한 검정을 시도하였다. 그러나 functional element를 갖는 비암호화 지역의 유전변이도 낮은 effect size (~3.0)로 밝혀졌고, loss-of-function variant 혹은 missense variant과 비교하여 질병이나 형질에 매우 낮은 영향을 미치는 것으로 관찰되었다.
3. 인간 유전체 구조변이 컨소시엄(Human Genome Structural Variation consortium)
구조 변이(structural variation)는 유전체의 50 bp 이상의 지역을 변경시키는 유전 변이의 한 종류이다. 이는 유전체의 복제수를 변경시키는 복제수 변이(copy number variation; 결손 deletion, 중복 duplication)과 복제수 중립 변이(copy neutral variation; 삽입 insertion; 역위 inversion, 전좌 translocation), 이 두 가지가 동시에 나타나는 복잡성 구조 변이(complex structural variation)으로 구분된다. 엑솜 시퀀싱과 달리 전장 유전체는 유전체 전 지역에 대한 연속적인 정보를 바탕으로 구조변이가 발생하는 지역을 예측하는 기회를 제공한다. 이러한 예측은 특정 유전체 지역의 read depth를 바탕으로 하는 방식뿐 아니라, NGS read에서 발생하는 clipping 지역이나 read의 pair의 거리 차이를 이용한다. 이러한 예측을 위해 현재까지 수십 가지의 알고리즘이 개발되었고 사용되고 있다.
구조 변이는 발생 빈도(개인 당 4천여개)가 single nucleotide variant (SNV; 0bp 의 염기서열 변화; 개인 당 3-4백만개)나 insertion/deletion (indel; 1-50bp의 염기서열 변화; 개인 당 50-60만개) 등의 small variant에 비하여 낮다[21,22]. 따라서 구조 변이는 selection에 대한 큰 effect size를 보일 것이라고 예상되지만, 질병/형질에 대한 상관성 검정을 위해 많은 수의 표본(sample)이 필요하다. 또한 구조 변이의 적은 빈도수는 변이 탐색 알고리즘 개발을 위한 포괄적인 트레이닝 데이터를 구축하거나, 알고리즘의 정확도 산출에 어렵게 만든다.
구조 변이 연구에 대한 방향을 제공할 지침이 요구되는 상황에서, 인간 유전체 구조 변이 컨소시엄(Human Genome Structural Variation 이하 HSGV 컨소시엄)은 2017년에 이에 대한 지침을 제공하였다[23]. 이들은 여러 종류의 구조 변이의 알고리즘들을 이용하여, short read (long insert 포함) 혹은 long read NGS 데이터를 분석했다. 정교한 평가를 위해, 각 유전체 연구들에서 파생한 raw 데이터를 수합한 후, 동일한 파이프라인으로 재분석을 시행하였다. 그 결과, 개별 알고리즘들 간의 결손(deletion) 구조 변이 탐색의 일치율이 매우 낮다(2-19%)는 것을. 삽입(insertion) 구조 변이의 경우, 일치율이 1-9%로 더욱 낮았다. Long read NGS의 데이터는 short read NGS에 비하여 구조변이 탐색의 민감도(sensitivity)가 3배 가량 높았지만, homopolymer 등에 의한 에러 발생과 탐색 알고리즘의 낮은 일치율을 크게 개선하지 못했다. 이는 long read NGS 기술의 높은 비용을 고려한다면, 이 기술이 인간을 대상으로 한 유전체 연구나 임상에 효율적으로 적용할지에 관한 의문을 제기한다. 따라서 HSGV 컨소시엄은 차후의 구조 변이 연구를 위해서, 최소 세가지 이상의 알고리즘들을 이용할 것을 제안했고, 최소 두가지 알고리즘에서 일치하는 구조 변이들을 보고하기를 권고한다.
전장 유전체를 통한 구조 변이의 연구가 연구 혹은 임상적 가치를 갖기 위해선, 데이터의 가격뿐 아니라 5kb 미만의 구조 변이 혹은 복제수 중립 변이가 형질에 영향을 미친다는 증명을 해야한다. 임상적으로 잘 알려진 구조 변이들도 100%의 penetrance를 갖지 않는다는 점을 고려할 때[24], 질병과 구조 변이의 상관성을 통계적인 유의성과 함께 평가한 연구들을 근거로 이용해야한다. 그러나 현재까지 이러한 실험 설계를 바탕으로 이뤄진 질병 연구는 제한적이다 (발달장애[25], 자폐성 범주 장애[7], 조현병[26]).
따라서, 다양한 종류의 구조 변이들이 질병에 얼마만큼의 기여를 하는지에 관한 유추는 Chiang et al. (2015)를 통해 살펴볼 수 있다. 이들은 the Genotype-Tissue Expression (GTEx) 프로젝트의 전장 유전체와 RNA 시퀀싱 데이터를 이용하여, 구조 변이의 cis expression quantitative trait loci (eQTLs; 유전형–구조 변이–의 유무에 따라 근접한 유전자의 발현량이 변화하는지를 분석하는 방법)을 분석했다(27). 예상대로 구조 변이는 SNV나 indel과 비교하여 1.3배 이상 큰 effect size를 갖는 것으로 조사되었다. 하지만 구조 변이의 큰 effect size는 주로 large deletion에 의해 매개되며, 이는 transcription factor binding sites 등의 functional element에서 발생하는 구조 변이의 대부분이 large deletion이라는 HGSV 컨소시엄의 결과와 일치한다. 만약 large deletion만이 질병에 큰 영향을 미치는 구조 변이라면, 임상 진단을 위해 전장 유전체를 사용하는 것은 추가적인 비용을 소모하게 만든다. 가령, 마이크로어레이와 같은 기존 기술로도 5kb 이상의 복제수 변이를 효율적으로 탐색하며, 이는 전장유전체에 비교해 저렴한 가격으로 공급된다.
4. 자폐성 범주 장애(Autism Spectrum Disorder)
지난 2015년, 사이먼즈 자폐증 연구재단(이하 SFARI)은 자폐성 범주 장애로 진단 받은 가족의 전장유전체 데이터(8,975 명; 2,407 가족)를 공개하였다. Simons Simplex Collection (SSC)라는 단일 코호트에서 표현형과 자폐성 범주 장애의 가족들을 수집하였다. SFARI는 비영리 연구 재단으로 자폐성 범주 장애에 관한 생물학 연구 전반을 지원하며, 전장 유전체 데이터를 연구자들에게 공개하는 것을 통해 비암호화 지역이 매개하는 병인을 조사하는 기회를 제공했다.
SFARI의 SSC 전장 유전체 데이터는 유전학 연구를 위한 완벽한 실험 설계를 바탕으로 한다. 동일한 기관이 표현형과 유전형을 수집하여 코호트를 구축한다. 이 실험 설계는 4인 가족과 discordant sib-pair(4인 가족 내에 자폐로 진단 받은 자녀 1인과 자폐로 진단 받지 않은 부모와 형제 혹은 자매 1인)을 포함한다[28]. 이에 따라, 부모로부터 자녀에게 전달되는 유전 변이(이하 inherited variant)와 부모의 생식세포에서 발생한 신규 변이(이하 de novo variant)에 대한 상관성 검정을 동시에 시행할 수 있다. 또한 동일 가족의 형제/자매를 검정에 이용하는 것은 ancestry나 환경 인자 등의 교란변수(confounder)를 최소화 한다. 게다가 SSC는 그들의 지난 유전학 연구들(마이크로어레이와 엑솜시퀀싱을 바탕으로 한)과 동일한 실험 설계를 이용하는데, 이에 따라 암호화 지역과 비암호화 지역에서 발생하는 변이가 각각 질병에 얼마만큼 기여하는가에 관한 유전적 조성(genetic architecture)을 톺아보는 기회를 제공한다[29].
같은 해, 비영리 연구재단인 Autism Speaks도 MSSING 프로젝트를 통해 자폐성 범주 장애의 전장 유전체 데이터(5,200명; 1,187 가족)를 연구자들에게 공개하였다[30]. Autism Speaks의 데이터는 SFARI의 SSC 전장 유전체 데이터와 몇가지 지점에서 차이가 있다. 전체 샘플 중 40%는 multiplex family(두 명 이상의 자녀가 자폐성 범주 장애로 진단 받음)에 해당하며, 모든 가족들은 가족 내의 자폐증으로 진단 받지 않은 형제/자매에 관한 유전형 및 표현형 데이터를 제공하지 않는다. 이에 따라 de novo variant와 inherited variant가 구성하는 유전적 조성이 다를 것으로 기대되며 각 변이의 상관성 검정이나 해석에서 추가적인 주의가 요구된다. 이 데이터는 이질적으로 수집된 유전형 데이터(두가지 이상의 NGS 플랫폼 생산됨)와 표현형 데이터(여러가지 코호트에서 실험군을 추출)를 포함한다. 또한 Autism Genetic Resource Exchange 등의 오래된 코호트를 이용하였는데, cell line에서 추출한 DNA는 변이 탐지에 낮은 정확도를 보인다.
여러 그룹들이 동일한 전장 유전체 데이터를 사용하여 분석하였지만, 서로 상반되는 결과를 학술지에 보고하였다. Turner et al. (2016)은 임신 중반의 태아의 뇌에서 특이적으로 발생하는 DNase I hypersensitive sites(전사가 활발히 일어나는 open chromatin으로 추정; 이하 DHS)을 조사하였고, 이 지역에서 발생하는 de novo variant의 빈도수를 자폐성 범주 장애로 진단 받은 자녀(실험군)와 그들의 형제/자매(자폐성 범주 장애로 진단 받지 않음; 대조군) 두 그룹으로 나누어 비교하였다[31]. 자폐성 범주 장애의 40 가족들(SFARI SSC-WGS pilot 데이터)을 조사하여, 자폐성 범주 장애로 진단 받은 자녀들의 그룹이 대조군에 비하여 open chromatin에서 더 많은 de novo variant을 갖는 것으로 밝혔다. 그러나 이 결과는 동일 그룹이 진행한 후속 연구에서 재현되지 않았다[32]. 이들은 SSC 전장유전체 516 가족(SFARI SSC-WGS phase1 데이터)을 분석하여, 자폐성 범주 장애의 후보유전자의 3’UTR에서 자폐성 범주 장애로 진단 받은 자녀들의 그룹이 대조군에 비하여 open chromatin에서 1.1배 더 많은 de novo variant을 갖는 것으로 밝혔다(p value=0.04). 이와 반대로, 동일한 데이터를 분석한 Brandler et al. (2018)은 NIH RoadMap Epigenome 컨소시엄에서 예측한 fetal promoter지역을 이용하여, 해당 비암호화 영역에서 private CNV의 paternal bias가 발생한다고 주장한다[33]. 그러나 이 주장은 위의 Turner et al. (2016)이나 Turner et al. (2017)과 상반되며, Jacquemont et al. (2014)가 주장한 high female mutation burden[16]이나 이에 대한 탐험적 연구[34,35]와도 상반된 결과이다. Yuen et al. (2017)은 MSSNG의 전장 유전체를 분석하여, 자폐증 후보 유전자들과 근접한 비전자 지역에서 나타나는 5개의 de novo variant를 보고하였다[30]. 하지만 이 데이터는 동일 가족의 형제자매를 대조군으로 이용하지 못한다는 한계로 인해, 이러한 비암호화 지역의 유전 변이에 관한 상관성 검정을 시행하지 못했다.
위의 상반되는 주장들이 의미하는 것이 무엇인가? 2012년 4편의 엑솜 시퀀싱 연구들이 동일한 결론–de novo loss-of-function이 자폐성 범주 장애로 진단 받은 자녀들의 그룹이 대조군에 비하여 2-3배 높게 나타난다-을 도출하며 학계에 결과를 보고한 것과 상반된다[13,36–38]. 이는 동시에 어떤 비암호화 지역을 가설로 삼아야 하는가? 혹은 특정 사전 정보(a priori)를 바탕으로 한가지 가설만을 검정하는 것이 옳은가에 대한 질문을 제기한다. 다시 말해서, 전장 유전체를 해석함에 있어서, 개별의 연구자들은 비암호화 지역에 대한 각자가 선호하는 사전정보를 가설 검정에 사용한다. 하지만 그 가설 설정이 옳은가?에 대한 신뢰도를 산출할 방법이 없으며, 차후 연구에서 재현성을 위한 불필요한 연구가 반복될 가능성이 있다. 따라서 a priori를 의존하지 않는 상관성 검정이 필요하지만, de novo variant 및 rare variant와 같은 유전 변이들은 변이 단위의 상관성 검정이 태생적으로 불가능하다. 이는 NGS가 처음 등장하던 때, 다시 말해 엑솜 시퀀싱 등장과 그에 대한 통계적 검정 방법론의 불충분에 대한 초기 논쟁들과 매우 유사하다[33].
Werling et al. (2018)은 위의 연구들과 동일한 전장 유전체 데이터을 분석하였지만, 다른 방식의 상관성 검정을 제안한다[34]. 이들은 한 두 가지의 가설을 이용하여 전장 유전체를 분석의 문제점을 지적하면서, 비암호화 지역에 관련된 모든 사전 정보를 이용하여 각각의 가설들을 공평하게 검정하는 방식을 제안한다. 이들은 유전변이의 발생 지역을 다섯 가지 카테고리(category)들로 구분했다. 1) 유전자의 정의에 따른 구획화 17가지 그룹(예, 인트론, loss-of-function, missense, upstream 등등); 2) 후성 유전체를 구분하는 사전정보 31종류들(DHS, H3K27ac, ATAC-seq 등등); 3) 유전 변이를 크기에 따라 구분하는 3가지 종류(phyloP 등등); 4) 자폐성 범주 장애의 후보 유전자 및 분자생물학적인 기작을 공유하는 유전자군 14종류(FMRP 타겟 유전자군; post-synaptic density 유전자군 등등); 5) 염기서열의 종(species) 간 selection척도에 따른 3가지 종류. 이 5가지 카테고리들 조합함으로써 총 51,801개의 가설들을 생성했고, 이 가설들의 유의성을 검정하는 category-wide association study (CWAS) 방식을 제안한다. 그 결과, 2만 여개 이상의 가설에서 자폐성 범주 장애로 진단 받은 자녀들의 그룹이 대조군에 비하여 de novo variant을 더 많이 갖는다는 통계적 유의성이 관찰되었다. 그러나 이 유의한 결과들 중 단 한가지도 다중 비교를 통과하지 못했다.
Werling et al. (2018)은 각 가설들 간의 의존성이 불분명하며, 이에 따라 적절한 다중비교를 적용하기 어렵다고 밝혔다. 따라서, 인간 변이의 mutation model[35]에 입각하여 null distribution을 얻었고, 이들은 각 가설들에서 관찰된 effect size의 분포와 비교하여 가설들 간의 상관관계를 유추하였다. 그 결과, 총 4,211개의 가설군들을 관찰하였다. 그러나 이러한 다중비교도 한가지 가설도 대조군 실험에서 유의하지 않다는 것을 밝혀냈다. 이는 위의 세가지 연구들에서 이용한 가설들과 유의성 보고가 정말 유효했는지에 대한 의문을 제기한다. Werling et al. (2017)의 CWAS 방식은 이 연구들에서 언급한 가설들을 포함하는데, 이들의 가설 역시도 다중비교를 통과하지 않는다. 이는 일부 가설, 다시 말해 연구자의 주관을 근거로 한 가설 검정이 유효한가에 대한 의문을 제기하는 것이기도 하다. 만약 후성 유전체 및 비암호화 지역에 대한 충분한 사전 정보가 없을때 혹은 사전 정보가 충분하다고 판단하지만 정확하지 않을때, 한 두가지의 가설에 의존한 채, 검정을 시도하는 것은 매우 불완전한 결론을 도출할 수 있다[36]. 이러한 시도들은 지난 사반세기의 질병 유전학 연구에서 흔하게 이뤄졌는데, 관련 부분은 후반부에 다시 언급하도록 한다.
5. Pan-Cancer Analysis of Whole Genomes (PCAWG) 컨소시엄
PCAWG 컨소시엄은 The International Cancer Genome Consortium (ICGC)와 The Cancer Genome Atlas (TCGA) 컨소시엄이 협력하여, 37가지 암(cancer) 종류의 전장 유전체(2,538명)를 분석했다[37]. 자폐성 범주 장애와 마찬가지로, PCAWG 컨소시엄은 암 유전체의 비암호화 지역에서 특이적으로 나타나는 유전 변이 탐색을 목적으로 한다. 이들은 TP53, RFTN1, RNF34, MTG2 유전자 등의 전사 시작 지점(upstream transcript region 혹은 5’UTR)이나 NFKBIZ, TOB1 유전자 등의 3’UTR에서 recurrent somatic mutation을 발견하였다. 하지만 이러한 비암호화 지역의 recurrent mutation은 전체 샘플에서 매우 적은 숫자로 발견되었다. 단 12개의 mutation들이 전체 샘플의 1%에서만 관찰되었고, 106개의 mutation들이 0.5%의 샘플에서만 관찰되었다. 이와 반대로, 암호화 지역에서 50개 이상의 recurrent mutation들이 30%의 샘플에서 발견되었다.
다음은 전장 유전체에서 탐색한 변이들을 암호화 영역 및 promoter (transcript start site의 upstream 지역), 5’UTR과 3’UTR 등의 비암호화 영역으로 구분하고, 142개의 암과 연관된 유전자들을 이용하여 상관성 검정을 시행하였다. 암호화 영역의 유전변이들은 약 2.5 정도의 effect size를 보였지만, 놀랍게도 promoter, 5’UTR, 3’UTR 등의 비암호화 영역의 유전 변이들은 1.1 미만의 effect size를 보였다. 앞선 연구들과 마찬가지로, 비암호화 영역의 유전 변이들은 암호화 영역 안의 유전 변이들보다 낮은 기여를 하는 것으로 밝혀졌다.
6. 질병 유전체 연구와 해석을 위한 a priori와 null
90년대 후보 유전자 탐색을 위한 유전학 연구는 연관 분석(linkage analysis)과 상관성 검정(association test)으로 인해 급속히 발전했고, 병인(aetiology)에 대한 가설을 제공했다. 대표적으로 1990년에 연관분석을 통해 발견된 BRCA1이나 1987년의 APOE4는 부연 설명이 필요 없는 유명한 후보유전자이다. 이러한 성공은 2000년, 인간 유전체 초안의 발표와 함께 질병의 원인을 밝히겠다는 기대감을 높였다. 그러나 Hirschhorn et al. (2002)은 1993년부터 2000년까지 이뤄진 질병 유전학 연구를 재조사하면서, 268개의 후보유전자들의 연구 재현성을 톺아보았다[38]. 이 중 오직 6개의 상관성만이 재현되는 것을 밝혔고, 대부분의 연구들의 effect size의 산출이 부정확하다고 밝혔다. Lohmueller et al. (2003)은 지난 질병 유전학 연구들 중 96%가 초기의 effect size를 과대 추정(overestimation)했다고 밝혔다[39]. 이는 차후 유전학계에서 ‘승자의 저주(winner’s curse)’라는 유명한 사례로 남게 된다. 예를 들어, 제2당뇨와 연관된 Pro12Ala PPARγ 유전자는 1998년 연구에서 effect size 4.4로 보고(실험군 91명)되었다[40]. 하지만 2000년의 연구에서는 effect size 1.3으로 낮게 측정(실험군 3,000명)된다[41]. Lohmueller et al. (2003)은 질병 유전학 연구의 낮은 재현성이 publication bias에 의함이 아니라 높게 보고된 초기의 관찰값을 맹신하는 승자의 저주에 기인하는 것을 밝혔다[39]. 이와 같은 보고들은 후속 연구들이 초기 보고된 후보 유전자만을 사전정보(a priori)로 이용하여 위험도가 있는 변이를 탐색하는 것이 옳은가?에 대해 재고할 필요가 있다는 점을 시사한다.
전통적인 후보 유전자 연구들(2000년 전후에 이뤄진)은 한 두가지 유전자만을 고려하여 형질에 대한 연관 분석이나 상관성 검정을 시행했다. 그러나 이러한 방식은 대부분 실패했다. 예를 들어 Familial hemiplegic migraine의 경우 1996년부터 2005년까지 몇가지 후보유전자들이 보고 되었다. CACNA1 유전자는 이 질병을 갖는 4 가족들에게서 관찰되었고[42], ATP1A2 유전자는 2가족[43], SCN1A 유전자는 3 가족들에게서 관찰되었다[44]. 하지만 2017년 핀란드에서 이뤄진 대규모 연구에서 해당 유전자들은 1,589 가족 중 단 4 가족들에게서만 발견되었다[45]. 위의 세가지 유전자들은 현재까지 3,000회 이상 인용되었고, 수많은 후속 연구들의 가설로 제공되었으며, 임상 진단을 위한 근거로 사용되고 있다. 이와 마찬가지로 조현병의 DISC1유전자는 2000년 스코틀랜드의 한 가족에게서 발견되었고 10년이 넘는 시간 동안 후보 유전자로 연구되었다[46]. 그러나 2018년 현재, 조현병에 대한 2만명 이상의 유전체 분석 연구들에서 단 한번도 통계적으로 유의한 연관성이 관찰되지 않았다[47]. 따라서, 후보 유전자는 유전자의 기능이나 병인에 대한 분자적 기작을 설명하고자 하는 후속 연구에 활용되는 점을 고려한다면, 질병 유전학 연구에서 연관성을 엄격(rigorous)하게 측정하는 방법론을 이용하거나 개발하는 것은 필수적이다.
이러한 이유 때문에, 불가지론(agnostic)에 입각한 상관성 검정 방식들이 등장한다. 불가지론적인 방식은 “모든 유전자 (혹은 유전 변이) – 검정에 이용되는 어떤 단위 – 들이 형질에 기여하지 않는다”라는 null에 입각한다[48]. 대표적으로 genome-wide association test (GWAS)가 이에 해당한다. 2007년 네이쳐에 게재된 Wellcome Trust Case Control Consortium (WTCCC)을 시작으로[49], 형질/질병과 유전형의 연관을 검정하기 위해, 모든 유전형을 상관성 검정에 사용하고 다중비교를 통해 유의성을 조정한다. 이러한 방식은 연구자들이 선호하거나 사전에 일부만 밝혀진 과학적 사실, 즉 이와 같은 a priori에 의존하지 않고 가능한 가설들을 동시에 공평하게 비교할 수 있는 기회를 제공한다. 또한 각 유전형 및 유전자 등의 검정 단위들이 형질에 기여하는 effect size를 측정할 수 있다.
7. 질병 유전학에서 엑솜 시퀀싱의 성공 요인 그리고 전장 유전체 분석에 관한 시사점
엑솜 시퀀싱은 triplet codon이라는 강력한 a priori에서 시작한다. 이는 모든 유전좌위들(loci)을 사용하는 GWAS와 대비된다. 하지만, 엑솜 시퀀싱을 활용하는 일차적인 목적이 인구 집단에 희귀하게 존재하는 변이(rare variant; 이하 희귀 변이)를 검정하는 것이라고 가정한다면, 모든 유전좌위에서 발생하는 대립유전자를 검정하는 GWAS의 방식은 엑솜시퀀싱에 적용될 수 없다. 희귀 변이는 개인마다 발생하는 빈도가 다르고, 동일한 유전자좌위(locus)에 발생하는 확률이 낮다. 이에 따라 표본이 모집단을 정확히 대표하는지를 직접적으로 판단할 수 있는 방법이 전무하다. 따라서, 후보 유전자를 탐색을 위한 엑솜 시퀀싱 연구는 적절한 다중비교를 시행하기 위하여, triplet codon의 변화들(loss-of-function, missense, synonymous variant)나 유전자(gene)를 검정 단위로 구분하고 이를 토대로 상관성 검정에 이용한다[50]. Codon의 변화는 변이의 결과값 예측에 직관적이다.
이와 반대로 비암호화 유전체 영역은 triplet codon과 같이 명료한 a priori가 없다. 따라서 전장 유전체에서 탐색한 비암호화 영역의 유전 변이를 해석하기 위해선, 후성 유전체 등의 전사조절 및 그 인자들을 포함하는 유전체 지역을 사용해야만 한다. 하지만 이와 같은 후성 유전체 데이터는 유전자 전사에 대한 ‘근사치(approximation)’에 불과하며, 특정 세포나 조직에 특이적으로 나타나는 후성유전체 영역에 대한 정확한 effect size를 산출할 방법론이 없다. 앞서 언급한 전장 유전체 결과들이 이에 대한 직접적인 예시에 해당한다. 적절한 a priori가 결여되었다는 점은 질병에 연관된 비암호화 영역의 유전 변이를 탐색하기 위해 막대한 규모의 실험군이 필요하다는 것을 의미한다. 정신질환 전장 유전체 연구 컨소시엄(Whole genome sequencing in psychiatric disorders)은 유전자 단위의 상관성 검정에서 1.5 정도의 effect size를 갖는 후보 유전자를 80%의 검정력으로 탐색하기 위해 최소한 4만명의 대조군 실험 설계가 필요하다고 밝혔다[51]. 이는 1,000여개의 risk 유전자를 알고 있는 경우를 가정한다. 만약 이보다 불충분한 a priori를 이용하는 경우, 예를 들어 염기서열의 종간 conservation 있다고 가정하는 경우(따라서 검정하는 유전체 영역이 보다 넓어진다), 위의 대조군 실험 설계는 10% 미만의 검정력을 갖게 된다.
또 한가지, triplet codon을 바탕으로 유전 변이가 발현된 전사체에 어떤 결과를 가져올지에 관한 직관적인 예측이 가능하다. 가령 유전 변이가 stop codon을 만드는 loss-of-function variant의 경우, 불완전한 전사체로 인해 해당 유전자의 단백질 생성되지 않을 것으로 예상된다. 아이슬란드 전장 유전체의 사례에서 살펴보았듯이, loss-of-function variant는 질병이나 형질에 불리한 쪽으로 크게 작용한다. 반면, 하나의 아미노산을 변경하는 missense variant는 질병이나 형질에 불리한 쪽으로 작용하지만, loss-of-function에 비하면 그 effect size가 작다. 이는 missense variant의 effect가 loss-of-function보다 자연적으로 적다는 것을 의미하기도 하지만, 아미노산 하나가 변경되는 것이 형질/질병에 loss-of-function으로 작용할지 혹은 gain-of-function으로 작용할지에 대하여 명확히 이해할 수 없고, 정량적인 산출에서 두가지 경우를 구분할 방법이 없다. 마찬가지로, 비암호화 영역의 유전 변이를 해석할 때, 어떠한 종류를 loss-of-function 혹은 gain-of-function으로 규정할 지에 관한 명확한 기준이 없다.
8. 전장 유전체 해석의 미성숙한 방법론
질병 유전학을 비롯한 유전학은 유전적 요소(genetic factor)를 통해 유전형이 표현형을 연구한다. 유전적 요소는 매우 단편적이고 생물체의 역동적인 정보를 기술하지 못한다는 태생적 한계가 있지만, 이 한계를 장점으로 이용해 표현형의 분포에서 유전형이 얼마만큼 기여하는지에 대한 정량적인 방법을 제공한다. 이 유전학 연구는 19세기 말 그레고어 멘델(Gregor Mendel)과 프란시스 골턴(Francis Galton)의 상반된 주장을 시작으로, 1918년 로널드 피셔(Ronald Fisher)의 위대한 업적인 [The correlation between relatives on the supposition of Mendelian inheritance]을 통해 유전형과 표현형의 관계에 대한 관점이 통합되었다[52]. 이후, 1955년 더글라스 팔코너(Douglas Falconer)는 표현형(형질)의 차이에 기여하는 유전적, 환경적 요인을 정량적으로 산출하는 유전력이라는 개념을 제안한다[53]. 이후 현대 유전학에서 유전체 기술의 발전과 맞물려, 피터 비셔(Peter Visscher)에 의해 정교한 수식으로 제공되었고, 현재 질병/형질의 기여도를 측정하는 모델을 제공했다[54]. 이는 역설적으로, 질병/형질의 유전학 연구가 NGS 등의 유전체 기술의 발전만을 주된 원동력을 삼는 것이 아니라, 유전학계에서 수십년 동안 논의 되어온 논쟁들과 함께 한다는 것을 보여준다.
대표적으로 ancestry와 상관성 검정을 들 수가 있다. 2018년 현재, 모든 유전학 연구자들은 유전변이의 대조군 검정에서 ancestry 의 차이가 교란 변수로 작용한다는 것을 인지하며, 실험에서 이 차이를 적절히 통제하려 한다(단, pedigree based sib pair 설계나 de novo variant를 제외). 하지만 이에 대한 주장은 1960년대부터 2000년대 초반까지 유전학자들이 오랫동안 톺아 본 결과이다. 1969년 미국 피츠버그의 리칭춘 박사(C.C. Li)가 population subdivision에서 발생하는 대조군 검정의 문제를 지적한 것으로부터[55], 2000년대 전후반 버니 데이블린(Bernie Devlin), 캐서린 뢰더 (Katheryn Roeder)의 Genomic Control[56] 및 조나단 프릿차드(Jonathan Pritchard)의 Structure방식[57] 등이 있었다. 이는 90년대 마이크로어레이라는 신기술이 등장에도 불구하고, 유전학자들은 상관성 검정에서 true biological effect보다 ancestry의 차이를 먼저 감지했으며, 이를 최소화 하기 위해 다각도로 노력했다. 마찬가지로 앞서 언급한 GWAS 방법론도 그들의 다중비교가 유효한 선택인지를 묻기 위해, 1996년 닐 리쉬(Neil Risch)와 케슬린 메리캥가스(Kathleen Merikangas)가 Science 학술지에 기고한 논의[58]를 시작으로 10년동안 이뤄졌다. GWAS 연구는 small effect size의 common variant가 갖는 태생적인 한계에도 부딪히며, missing heritability 논쟁[59]을 촉발했지만, 향후 대규모 컨소시엄들 간의 공격적인 데이터 공유와 상관성 검정에 관한 충분한 방법론, 그리고 유전력 측정을 위한 오래된 논의를 바탕으로 발전해가고 있다. 이는 전장 유전체 등의 신기술도 결과 해석과 분석 방법에 대한 충분한 논의가 이뤄져야 한다는 점을 시사한다.
특히 전장 유전체 분석은 다음 세가지 사안에 대한 발전이 요구된다.
1) 유전체의 비암호화 영역을 해석하는 기능 단위 주석(functional element annotation)의 개선이다. 앞선 전장 유전체 사례들은 비암호화 영역의 유전변이가 암호화 영역의 유전 변이보다 낮은 effect size를 갖는다고 보고했다. 미국 National Human Genome Research Institute는 2003년부터 비암호화영 역에 위치하는 기능 요소(functional element)를 선별하기 위해 ENCODE 프로젝트를 시작하였다. 그 결과 인간 유전체의 80% 이상이 기능 요소에 관여한다는 것을 보고하였고, GWAS 연구에서 상관성이 있는 유전 변이들 중 12-34% 가량이 전사 인자 결합 지역(transcription-factor-occupied regions)이나 DHS에서 발견된다고 보고했다. 하지만, 이러한 중첩은 질병이나 형질에 다인자 연관에 근거하며(다시 말해, 단일 유전변이의 effect size는 매우 작음), 연관된 유전변이들이 설명하는 표현형 차이가 10% 이내라는 점을 고려한다면(제2형 당뇨 8.2%[60]; 조현병 7%[61] 등등), 어떤 유전 변이가 기능 단위를 포함한 비암호화 영역에 발견된다는 이유로 large risk를 갖는다고 말할 근거가 미흡하다.
2) 비암호화 영역의 유전변이의 중요도를 선별하는 알고리즘의 부재이다. Sequence motif 분석은 전사 조절 인자 등의 결합 등을 예측하는 방식으로 오랫동안 사용되었다. 지난 2018년 2월, 크레이그 벤터가 설립한 유전체 회사 휴먼 롱제비티(Human Longevity)는 비암호화 영역의 유전 변이의 위험도를 예측할 수 있는 방법을 개발했다고 주장한다[62]. 이들은 heptamers (7-nt motifs)를 이용하여 비암호화 영역을 구분하고, 11,257명의 전장유전체에서 발견된 비암호화 유전 변이들이 나타나는 빈도를 조사했다. 이는 ExAC 연구가 haploinsufficiency score를 개발한 방식과 유사한데, 유전체의 특정 영역이 functional constraint를 갖는 경우 기대값보다 적은 변이의 숫자를 갖는다는 것이다. 이 방식을 통해 구획화된 비암호화 영역들 중 기능적 중요도가 높은 영역들을 선별했다. 그러나 이 연구는 Human Longevity의 데이터 비공유 정책이라는 후진적 정책 이외에도, 알고리즘의 개발 단계에서 사용된 사전 정보들의 불확실성에 근원적인 문제가 있다. 이들은 알고리즘의 정확도를 평가하기 위해, ClinVar 등의 임상 변이 데이터베이스에 ‘pathogenic variant’로 분류된 15,741개의 유전 변이를 바탕으로 한다. 하지만 이 데이터베이스는 상당한 이질적이며, 변이 보고의 human ascertainment와 통계적 유의성이 없이 탐색된 결과들을 포함한다. 예를 들어, 이들이 사용한 15,741개의 유전 변이 중, splice site 10bp 이내의 지역을 제외하면, 1,369개의 유전 변이들 만이 관찰된다. 이는 비암호화 영역의 유전 변이 중 ‘pathogenic’이라는 띠지를 붙이기 위해선, 관찰자의 사전정보를 내포함을 의미하며 이러한 데이터를 정확도 평가를 이용하는 것이 옳은가에 대한 근원적인 질문을 제기한다. 따라서 이러한 정보를 바탕으로 개발된 알고리즘들(Eigen이나 CADD 등등)이 단순한 sequence conservation score (GERP, PhyloP, PhastCons) 등이 서로 간의 차별적으로 나은 정확도를 갖지 못하는 점이다. 향후 이러한 알고리즘의 개발은 높은 이질성을 지닌 유전변이 데이터베이스를 바탕으로 하는 방향보다, selection이 질병에서 탐색된 high penentrance가 예상되는 비암호화 유전 변이들(예, de novo variant)을 바탕으로 개발되거나 CRISPR/Cas9 등을 이용한 genome-wide saturating mutagenesis에서 얻은 정량적 결과들을 이용하는 방식으로 갈 가능성이 크다[63].
9. 맺음말
이 보고서는 현재까지 이뤄진 전장 유전체 컨소시엄 연구들을 소개했다. 유전체 기술의 발전과 데이터 접근성 향상에 따라, 전장 유전체를 활용한 유전학 연구들이 차후 더 많이 등장할 것으로 예상된다. 이는 지난 사반세기와 마찬가지로, 이러한 전장 유전체 결과는 병인을 밝히고자 하는 분자생물학 및 동물실험 연구에 어떤 가설을 제공할 것이다. 그러나 앞서 살펴본 바와 같이, 유전체 기술의 발전에도 불구하고 비전사 영역을 해석하고 검정하는 엄격한 방법론의 부재는 해결되어야 할 점으로 남아있다. 따라서 전장 유전체 결과를 접하는 비유전체 연구자들에게 결과 해석과 이용에 대한 각별한 주의가 요구된다. 이는 다음과 같은 내용을 포함한다. 첫째, 해당 연구가 공개된 데이터에서 진행되었으며, 이 데이터는 많은 연구자들이 활발하게 분석하고 논쟁하고 있는가? 둘째, 해당 연구는 질병에 관한 유전 변이 및 비암호화 영역 그룹을 보고할 때, 이들이 질병에 기여하는 정량적 차이를 정확히 보고했는가? 셋째, 해당 연구는 비암화 영역의 기여도를 암호화 영역의 기여도와 동일한 방식으로 산출하였고, 비교하였는가? 넷째, 해당 연구의 유의성은 재현된 결과인가?
10. 참고문헌
==> PDF 참조
* 본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
* 본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다. 내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락 바랍니다.