혁신적인 DNA 검색 엔진이 유전자 발견을 가속화하고 있다.

메타그래프는 과학자들이 수십억 개의 유전자 서열을 즉시 검색하여 데이터를 300배 압축할 수 있도록 하는 획기적인 검색 엔진입니다. 메타그래프는 전 세계 의학 및 생물학 연구의 속도를 획기적으로 높일 수 있습니다. 출처: 셔터스톡

이제 희귀 유전 질환을 환자에서 진단하고 종양 특이적 돌연변이를 식별할 수 있게 되었습니다. 이는 수십 년 전 생물의학 연구에 혁명을 일으킨 DNA 시퀀싱 덕분에 가능해진 획기적인 발전입니다. 최근 몇 년 동안 새로운 시퀀싱 기술(차세대 시퀀싱)의 도입은 획기적인 발전을 가져왔습니다. 예를 들어, 2020년과 2021년에는 이러한 방법을 통해 SARS-CoV-2 유전체의 신속한 해독 및 전 세계 모니터링이 가능해졌습니다.

동시에, 점점 더 많은 연구자들이 시퀀싱 결과를 공개적으로 공개하고 있습니다. 이로 인해 미국 SRA(Sequence Read Archive)와 유럽 ENA(European Nucleotide Archive)와 같은 주요 데이터베이스에 저장된 데이터가 폭발적으로 증가했습니다. 현재 이러한 아카이브는 약 100페타바이트(PB)의 정보를 보유하고 있는데, 이는 인터넷 전체에서 발견되는 텍스트의 총량과 거의 같으며, 1페타바이트는 100만 기가바이트(GB)에 해당합니다.

지금까지 생의학 과학자들은 방대한 유전자 저장소를 검색하고 자신의 데이터와 비교하는 데 막대한 컴퓨팅 리소스가 필요했기 때문에 포괄적인 검색은 거의 불가능했습니다. 이제 취리히 연방공과대학교(ETH Zurich) 연구진은 이러한 한계를 극복하는 방법을 개발했습니다.


전체 데이터 세트를 다운로드하는 대신 전체 텍스트 검색

연구팀은 MetaGraph라는 도구를 개발했는데, 이 도구는 이 과정을 획기적으로 간소화하고 가속화합니다. MetaGraph는 전체 데이터 세트를 다운로드하는 대신, 마치 인터넷 검색 엔진을 사용하는 것처럼 원시 DNA 또는 RNA 데이터 내에서 직접 검색할 수 있도록 합니다. 과학자들은 관심 있는 유전자 서열을 검색창에 입력하기만 하면, 쿼리에 따라 몇 초 또는 몇 분 안에 해당 서열이 글로벌 데이터베이스에서 어디에 나타나는지 확인할 수 있습니다.

"이것은 일종의 DNA 검색 엔진입니다."라고 취리히 연방공과대학교 컴퓨터공학과의 데이터 과학자인 군나르 레치 교수는 설명합니다. 이전에는 연구자들이 설명적 메타데이터만 검색한 후, 원시 시퀀스에 접근하려면 전체 데이터세트를 다운로드해야 했습니다. 이러한 접근 방식은 느리고 불완전하며 비용이 많이 들었습니다.

연구 저자들에 따르면, MetaGraph는 비용 효율성도 매우 뛰어납니다. 공개적으로 이용 가능한 모든 생물학적 서열을 표현하는 데는 컴퓨터 하드 드라이브 몇 개만 필요하며, 대용량 쿼리 비용은 메가베이스당 약 0.74달러를 넘지 않습니다.

새로운 DNA 검색 엔진은 빠르고 정확하기 때문에 연구 속도를 크게 높일 수 있습니다. 특히 신종 병원균을 식별하거나 항생제 내성과 관련된 유전적 요인을 분석하는 데 도움이 될 수 있습니다. 이 시스템은 방대한 데이터베이스에 숨겨진 유해 박테리아(박테리오파지)를 파괴하는 유익한 바이러스를 찾는 데에도 도움이 될 수 있습니다.


300배 압축

ETH 연구팀은 10월 8일 Nature 에 게재된 연구에서 MetaGraph의 작동 방식을 시연했습니다. 이 도구는 스프레드시트 소프트웨어가 값을 정렬하는 방식과 유사하게 정보를 더욱 효율적으로 구조화하는 고급 수학 그래프를 사용하여 유전 데이터를 구성하고 압축합니다. "수학적으로 말하면 수백만 개의 열과 수조 개의 행으로 이루어진 거대한 행렬입니다."라고 Rätsch는 설명합니다.

대규모 데이터셋을 검색 가능하게 만드는 인덱스를 만드는 것은 컴퓨터 과학에서 익숙한 개념이지만, ETH 방식은 원시 데이터와 메타데이터를 연결하면서 약 300배라는 놀라운 압축률을 달성하는 방식으로 두드러집니다. 이러한 압축률은 책을 요약하는 것과 매우 유사합니다. 즉, 핵심적인 내용과 관계를 유지하면서 중복을 제거하고 모든 관련 정보를 훨씬 더 작은 형태로 유지합니다.

"필요한 정보를 잃지 않으면서 데이터 세트를 최대한 압축적으로 유지하기 위해 우리는 한계를 뛰어넘고 있습니다."라고 Rätsch와 마찬가지로 ETH 취리히의 생물의학 정보학 그룹 소속인 André Kahles 박사는 말합니다. 현재 연구 중인 다른 DNA 검색 마스크와는 달리, ETH 연구진의 접근 방식은 확장 가능합니다. 즉, 쿼리되는 데이터 양이 많을수록 도구에 필요한 추가 컴퓨팅 성능은 줄어듭니다.


데이터의 절반은 이미 사용 가능합니다.

2020년에 처음 도입된 MetaGraph는 꾸준히 개선되어 왔습니다. 이 도구는 현재 공개적으로 검색이 가능하며( https://metagraph.ethz.ch/search ) 이미 바이러스, 박테리아, 균류, 식물, 동물, 그리고 인간의 수백만 개의 DNA, RNA, 단백질 서열을 색인하고 있습니다. 현재 이용 가능한 전 세계 서열 데이터 세트의 거의 절반이 포함되어 있으며, 나머지는 연말까지 포함될 것으로 예상됩니다. MetaGraph는 오픈 소스이므로 방대한 양의 내부 연구 데이터를 관리하는 제약 회사의 관심을 끌 수도 있습니다.

카흘스는 DNA 검색 엔진이 언젠가 개인에게도 사용될 수 있을 것이라고 믿습니다. "초창기에는 구글조차도 검색 엔진의 용도를 정확히 알지 못했습니다. DNA 시퀀싱 기술이 급속도로 발전한다면, 발코니 식물을 더 정확하게 식별하는 것이 일반화될 수도 있습니다."


출처: https://www.sciencedaily.com/releases/2025/10/251027224917.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요