[한국기술뉴스] 지스트(광주과학기술원) 전기전자컴퓨터공학부 이현주 교수 연구팀은 전장유전체 데이터를 분석하여 유전 변이를 발굴하고, 단일염기서열 수준으로 유전체 구조를 복원하는 그래프 기반의 새로운 알고리즘을 개발했다.
전장유전체 데이터(Whole Genome Sequencing data)
개별 개체의 전체 DNA의 염기 서열을 제공하는 데이터
인간의 유전체는 30억 개의 염기서열로 구성되어 있으며, 암 세포의 경우 정상 세포와는 다른 유전 변이가 존재한다. 개개인의 암에 따른 서로 다른 유전 변이를 정확히 파악해 내는 것은 개인 맞춤 치료에 있어 중요하다. 그러나 30억 개의 염기서열을 분석하여 암 세포가 갖고 있는 변이를 정확히 파악하는 것은 매우 어려운 과제이며, 특히 암 세포에서 과거에 현미경으로 관측되어 온 재배열된 염색체 구조는 아직 단일염기서열 수준으로 파악된 적 없다. 따라서 전장 유전체를 분석하여 이를 파악할 수 있는 알고리즘이 필요하다.
유전 변이 발굴 및 유전체 복원 알고리즘인 InfoGenomeR를 개발하여 구조 변이를 가진 염기 서열을 그래프 형태로 변환한 뒤, 구조 변이와 복제수 변이가 서로 일관성 있는 값을 가지도록 그래프를 재구성함으로써 검출 오차를 줄였다. 이후, 이형접합 단일염기다형성 정보를 이용하여 하프로타입 그래프를 구성한 후, 최소 엔트로피 값을 갖는 오일러 경로를 찾음으로써 유전체 배열 형태를 복원했다.
연구팀이 개발한 InfoGenomeR(인포지노머)는 유전 변이 검출 오차를 크게 줄였으며(InfoGenomeR의 구조 변이 검출 정밀도 98.1% 및 F-measure 94.9%), 암 세포주의 유전체 배열 형태를 단일염기서열 수준으로 복원했다. 유전 변이 검출 정확도는 국제적인 유전체 분석 기업인 일루미나의 알고리즘 만타에 비해서 크게 향상된 수준을 확인했다(manta의 구조 변이 검출 정밀도 94.2% 및 F-measure 90.4%).
개발한 알고리즘을 유방암 및 뇌암 환자 데이터에 적용해 환자에게서 원형 유전체 구조가 수십 배 증폭되어 있는 것을 파악했으며, 이는 암 유형마다 특정 염색체가 재배열되는 과정을 동반함을 밝혀냈다. 또한, 재발하거나 전이된 암에서 기존에 존재한 암 부위에는 없었던 재배열된 유전체가 새롭게 나타남을 밝혀냈다.
이현주 교수는 “전장유전체 데이터만을 이용하여 암 세포의 유전체 배열 형태를 단일염기서열 수준의 복원하는 것은 도전적인 문제이고, 기존 알고리즘으로는 가능하지 않았지만, InfoGenomeR는 이를 성공적으로 수행한 첫 번째 알고리즘이다” 면서 “본 알고리즘의 결과로 나온 암 세포의 유전체 배열 형태를 기반으로 개인 맞춤 의료를 위한 암 관련 유전자의 발현 조절을 규명할 수 있기를 기대한다” 고 말했다.
연구결과는 국제 학술지 ‘네이처 커뮤니케이션즈(Nature communications)’에 2021년 4월 29일 게재됐다.