프론테라와 AI 증강 파이프라인으로 표적 결합 성공률 10배 증가
암, COVID-19 및 기타 질병을 제어하는 것과 같은 단백질을 이해하는 열쇠는 매우 간단합니다. 화학 구조를 확인하고 어떤 다른 단백질이 결합할 수 있는지 알아보세요. 하지만 문제가 있습니다.
“단백질에 대한 검색 공간은 엄청납니다.” 단백질 디자인 연구소, 워싱턴 대학 및 The Howard Hughes Medical Institute의 연구 과학자인 Brian Coventry가 말했습니다.
그의 연구실에서 연구하는 단백질은 일반적으로 65개의 아미노산으로 구성되며 각 위치에 20개의 다른 아미노산 선택이 있으며 65에서 20번째 결합 조합이 있으며 이는 우주에 있는 예상 원자 수보다 더 큰 수입니다.
Coventry는 Nature Communications 저널에 2023년 5월에 발표된 연구의 공동 저자입니다.
여기에서 그의 팀은 딥 러닝 방법을 사용하여 기존의 에너지 기반 물리적 모델을 ‘두 노보(do novo)’ 또는 처음부터 계산하는 단백질 디자인으로 보강하여 설계된 단백질과 단백질을 결합하는 데 대해 실험실에서 검증된 성공률을 10배 증가시켰습니다. 표적 단백질.
“우리는 수소 결합이 형성되거나 소수성 상호 작용에서 인터페이스의 품질을 평가하기 위해 딥 러닝 방법을 통합함으로써 상당히 개선된 파이프라인을 가질 수 있음을 보여주었습니다. 단백질 디자인, 워싱턴 대학.
“이것은 이러한 모든 에너지를 그 자체로 정확하게 열거하려는 것과는 반대입니다.”라고 그는 덧붙였습니다.
독자들은 언어 모델 ChatGPT 또는 이미지 생성기 DALL-E와 같은 딥 러닝 애플리케이션의 인기 있는 예에 익숙할 것입니다.
딥 러닝은 컴퓨터 알고리즘을 사용하여 데이터의 패턴을 분석하고 추론을 도출하며 알고리즘을 계층화하여 원시 입력에서 더 높은 수준의 기능을 점진적으로 추출합니다. 이 연구에서는 매우 정확한 것으로 판명된 모델에 매우 빠르게 수렴하는 가능한 구조와 단백질 서열 표현의 반복적 변환을 학습하기 위해 딥 러닝 방법을 사용했습니다.
저자가 개발한 딥 러닝 증강 드 노보 단백질 바인더 설계 프로토콜에는 기계 학습 소프트웨어 도구인 AlphaFold 2와 단백질 설계 연구소에서 개발한 RoseTTA fold가 포함되어 있습니다.
연구 공동 저자인 단백질 디자인 연구소(Institute for Protein Design) 소장이자 하워드 휴즈 의학 연구소(Howard Hughes Medical Institute)의 연구원인 데이비드 베이커(David Baker)는 미국 국립 과학 재단(National Science Foundation)이 자금을 지원하는 텍사스 고급 컴퓨팅 센터(TACC) 프론테라 슈퍼컴퓨터에 Pathways 할당을 받았습니다. .
연구 문제는 단백질 설계 궤적이 모두 서로 독립적이기 때문에 프론테라의 병렬화에 적합했습니다. 즉, 컴퓨팅 작업이 실행될 때 정보가 설계 궤적 사이를 통과할 필요가 없었습니다.
“우리는 200만에서 600만 개의 디자인이 있는 이 문제를 분할하고 Frontera의 방대한 컴퓨팅 리소스에서 모든 것을 병렬로 실행합니다. 여기에는 많은 양의 CPU 노드가 있습니다. 그리고 우리는 이들 각각을 할당했습니다. CPUS는 이러한 설계 궤적 중 하나를 수행하여 실현 가능한 시간 내에 매우 많은 수의 설계 궤적을 완료할 수 있도록 했습니다.”라고 Bennett는 말했습니다.
저자는 RifDock 도킹 프로그램을 사용하여 600만 개의 단백질 ‘도크’ 또는 잠재적으로 결합된 단백질 구조 간의 상호 작용을 생성하고 이를 약 100,000개의 청크로 분할하고 각 청크를 Linux 유틸리티를 사용하여 Frontera의 8000개 이상의 컴퓨팅 노드 중 하나에 할당했습니다.
100,000개의 도크 각각은 각각 1,000개의 단백질로 구성된 100개의 작업으로 분할됩니다. 1,000개의 단백질이 전산 설계 소프트웨어인 Rosetta로 이동합니다. 여기서 1,000개는 10분의 2 단위로 먼저 선별되고 살아남은 단백질은 몇 분 단위로 선별됩니다.
또한 저자는 단백질 디자인 연구소(Institute for Protein Design)에서 개발한 소프트웨어 도구인 ProteinMPNN을 사용하여 이전 최고의 소프트웨어보다 200배 이상 빠르게 단백질 서열 신경망을 생성하는 계산 효율성을 더욱 높였습니다.
그들의 모델링에 사용된 데이터는 효모 표면 디스플레이 결합 데이터이며, 모두 공개적으로 사용 가능하고 Institute for Protein Design에서 수집했습니다. 그 안에는 과학자들이 설계한 다른 단백질을 암호화하기 위해 수만 개의 다른 DNA 가닥이 주문되었습니다.
그런 다음 DNA는 각 효모 세포가 표면에 설계된 단백질 중 하나를 발현하도록 효모와 결합되었습니다. 그런 다음 효모 세포를 결합하는 세포와 결합하지 않는 세포로 분류했습니다. 차례로 그들은 인간 게놈 시퀀싱 프로젝트의 도구를 사용하여 어떤 DNA가 작동하고 어떤 DNA가 작동하지 않는지 알아냈습니다.
Coventry에 따르면 디자인된 구조가 표적 단백질에 결합하는 성공률이 10배 증가한 연구 결과에도 불구하고 아직 갈 길이 멀다고 합니다.
“우리는 한 자릿수 증가했지만 아직 3개가 더 남아 있습니다. 연구의 미래는 성공률을 훨씬 더 높이고 더 어려운 표적의 새로운 등급으로 이동하는 것입니다.”라고 그는 말했습니다. 바이러스와 암 T 세포 수용체가 대표적인 예입니다.
계산적으로 설계된 단백질을 개선하는 방법은 소프트웨어 도구를 더욱 최적화하거나 더 많이 샘플링하는 것입니다.
Coventry는 “우리가 찾을 수 있는 컴퓨터가 클수록 더 나은 단백질을 만들 수 있습니다. 우리는 미래의 항암제를 만들기 위한 도구를 만들고 있습니다. 우리가 만드는 많은 개별 바인더는 계속해서 약물이 될 수 있습니다. 우리는 그 약을 더 좋게 만드는 과정을 만들고 있습니다.”
출처: https://www.sciencedaily.com/releases/2023/08/230803213837.htm

댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요