생성 AI를 통해 화학자들은 3D 게놈 구조를 빠르게 계산한다

신체의 모든 세포는 동일한 유전적 서열을 가지고 있지만, 각 세포는 그 유전자의 하위 집합만을 표현합니다. 뇌 세포가 피부 세포와 다르다는 것을 보장하는 이러한 세포 특정 유전자 발현 패턴은 각 유전자의 접근성을 제어하는 ​​유전 물질의 3차원 구조에 의해 부분적으로 결정됩니다.

MIT 화학자들은 이제 생성적 인공지능을 사용하여 3D 게놈 구조를 결정하는 새로운 방법을 생각해냈습니다. 그들의 기술은 단 몇 분 만에 수천 개의 구조를 예측할 수 있어 구조를 분석하는 기존의 실험적 방법보다 훨씬 빠릅니다.

이 기술을 사용하면 연구자들은 유전체의 3차원 구성이 개별 세포의 유전자 발현 패턴과 기능에 어떻게 영향을 미치는지 더 쉽게 연구할 수 있습니다.

"저희의 목표는 기본 DNA 시퀀스에서 3차원 게놈 구조를 예측하는 것이었습니다." 화학과 조교수이자 이 연구의 수석 저자인 빈 장이 말했습니다. "이제 우리가 그것을 할 수 있게 되어 이 기술은 최첨단 실험 기술과 동등해졌고, 정말 많은 흥미로운 기회가 열릴 수 있습니다."

MIT 대학원생인 그렉 슈에트와 주오한 라오가 오늘 Science Advances 에 게재된 논문의 주요 저자입니다.

시퀀스에서 구조로

세포핵 내부에서 DNA와 단백질은 크로마틴이라는 복합체를 형성하는데, 크로마틴은 여러 단계의 조직을 가지고 있어 세포가 직경이 100분의 1밀리미터에 불과한 핵에 2m의 DNA를 집어넣을 수 있게 해줍니다. 긴 DNA 가닥은 히스톤이라는 단백질을 감싸고, 끈에 달린 구슬과 비슷한 구조를 형성합니다.

후생유전적 변형이라고 알려진 화학적 태그는 특정 위치에서 DNA에 부착될 수 있으며, 세포 유형에 따라 달라지는 이러한 태그는 크로마틴의 접힘과 근처 유전자의 접근성에 영향을 미칩니다. 크로마틴 형태의 이러한 차이는 어떤 유전자가 다른 세포 유형에서 발현되는지 또는 주어진 세포 내에서 다른 시간에 발현되는지를 결정하는 데 도움이 됩니다.

지난 20년 동안 과학자들은 크로마틴 구조를 결정하기 위한 실험적 기법을 개발했습니다. 널리 사용되는 기법 중 하나인 Hi-C는 세포 핵의 이웃 DNA 가닥을 연결하여 작동합니다. 그런 다음 연구자들은 DNA를 여러 개의 작은 조각으로 자르고 시퀀싱하여 어떤 세그먼트가 서로 가까이 있는지 확인할 수 있습니다.

이 방법은 크로마틴 섹션의 평균 구조를 계산하기 위해 대량의 세포 집단에서 사용할 수 있으며, 특정 세포 내의 구조를 결정하기 위해 단일 세포에서 사용할 수 있습니다. 그러나 Hi-C 및 이와 유사한 기술은 노동 집약적이며, 한 세포에서 데이터를 생성하는 데 약 일주일이 걸릴 수 있습니다.

이러한 한계를 극복하기 위해 장과 그의 학생들은 생성 AI의 최근 발전을 활용하여 단일 세포의 크로마틴 구조를 빠르고 정확하게 예측하는 방법을 만드는 모델을 개발했습니다. 그들이 설계한 AI 모델은 DNA 시퀀스를 빠르게 분석하고 해당 시퀀스가 ​​세포에서 생성할 수 있는 크로마틴 구조를 예측할 수 있습니다.

"딥 러닝은 패턴 인식에 정말 뛰어납니다." 장이 말했다. "매우 긴 DNA 세그먼트, 수천 개의 염기쌍을 분석하고, 그 DNA 염기쌍에 인코딩된 중요한 정보가 무엇인지 알아낼 수 있습니다."

연구자들이 만든 모델인 ChromoGen에는 두 가지 구성 요소가 있습니다. 첫 번째 구성 요소는 게놈을 "읽도록" 교육된 딥 러닝 모델로, 기본 DNA 시퀀스와 크로마틴 접근성 데이터에 인코딩된 정보를 분석합니다. 후자는 널리 사용 가능하고 세포 유형에 따라 다릅니다.

두 번째 구성 요소는 1,100만 개 이상의 크로마틴 구조에 대해 학습한 물리적으로 정확한 크로마틴 구조를 예측하는 생성 AI 모델입니다. 이 데이터는 인간 B 림프구 계통의 16개 세포에서 Dip-C(Hi-C의 변형)를 사용한 실험에서 생성되었습니다.

통합되면 첫 번째 구성 요소는 생성 모델에 세포 유형별 환경이 다양한 크로마틴 구조의 형성에 어떻게 영향을 미치는지 알려주고, 이 체계는 시퀀스-구조 관계를 효과적으로 포착합니다. 각 시퀀스에 대해 연구자들은 모델을 사용하여 많은 가능한 구조를 생성합니다. DNA는 매우 무질서한 분자이기 때문에 단일 DNA 시퀀스가 ​​많은 다른 가능한 형태를 일으킬 수 있기 때문입니다.

"게놈 구조를 예측하는 데 있어 가장 복잡한 요소는 우리가 목표로 하는 단일 솔루션이 없다는 것입니다. 게놈의 어떤 부분을 보든 구조의 분포가 있습니다. 매우 복잡하고 고차원의 통계적 분포를 예측하는 것은 엄청나게 어려운 일입니다." 슈에트가 말합니다.

빠른 분석

일단 훈련이 완료되면, 이 모델은 Hi-C나 다른 실험적 기술보다 훨씬 빠른 시간 내에 예측을 생성할 수 있습니다.

"특정 세포 유형에서 수십 개의 구조를 얻기 위해 실험을 실행하는 데 6개월이 걸릴 수 있지만, 우리 모델을 사용하면 단 하나의 GPU에서 20분 만에 특정 영역에서 천 개의 구조를 생성할 수 있습니다."라고 슈에트는 말합니다.

연구자들은 모델을 훈련한 후, 이를 사용하여 2,000개 이상의 DNA 시퀀스에 대한 구조 예측을 생성한 다음, 이를 해당 시퀀스에 대한 실험적으로 결정된 구조와 비교했습니다. 그들은 모델이 생성한 구조가 실험 데이터에서 본 구조와 동일하거나 매우 유사하다는 것을 발견했습니다.

"우리는 일반적으로 각 시퀀스에 대해 수백 또는 수천 개의 형태를 살펴보고, 이를 통해 특정 영역이 가질 수 있는 구조의 다양성을 합리적으로 표현할 수 있습니다." 장이 말했습니다. "실험을 여러 번, 다른 세포에서 반복하면 매우 다른 형태를 얻을 가능성이 매우 높습니다. 이것이 바로 우리 모델이 예측하려는 것입니다."

연구자들은 또한 이 모델이 훈련된 세포 유형이 아닌 다른 세포 유형의 데이터에 대한 정확한 예측을 할 수 있다는 것을 발견했습니다. 이는 이 모델이 세포 유형 간에 크로마틴 구조가 어떻게 다른지, 그리고 그 차이가 세포 기능에 어떻게 영향을 미치는지 분석하는 데 유용할 수 있음을 시사합니다. 이 모델은 또한 단일 세포 내에 존재할 수 있는 다양한 크로마틴 상태를 탐색하고, 그러한 변화가 유전자 발현에 어떻게 영향을 미치는지 알아보는 데 사용될 수 있습니다.

또 다른 가능한 응용 분야는 특정 DNA 서열의 돌연변이가 크로마틴 구조를 어떻게 변화시키는지 탐구하는 것인데, 이를 통해 그러한 돌연변이가 어떻게 질병을 일으키는지 알아낼 수 있습니다.

장은 "이러한 유형의 모델을 통해 해결할 수 있는 흥미로운 질문이 많이 있다고 생각합니다."라고 말했습니다.

연구자들은 자신이 만든 모든 데이터와 모델을 이를 사용하고자 하는 사람들에게 공개했습니다.

이 연구는 미국 국립보건원의 자금 지원을 받았습니다.


출처: https://www.sciencedaily.com/releases/2025/01/250131194538.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요