Texas A&M - MATLAB을 사용한 단일 세포 RNA 시퀀싱 데이터 분석 수행 사례

생명과학에서의 양자 컴퓨팅 응용을 발전시키는 프로젝트

“MATLAB은 양자 컴퓨팅 알고리즘을 개발하기 위한 원활하고 안정적인 환경을 제공합니다. MATLAB의 양자 컴퓨팅 패키지는 사용성, 안정성, 휴대성 측면에서 상당한 이점을 제공하며, 우리의 연구를 크게 향상시켰습니다."

주요 성과

  • MATLAB Support Package for Quantum Computing을 통해 신속한 개발 및 방법 검증을 위해 로컬에서 알고리즘을 손쉽게 테스트할 수 있습니다.
  • MATLAB은 사용성, 안정성, 이식성 측면에서 Qiskit® 등의 기타 양자 컴퓨팅 개발 소프트웨어보다 장점이 있습니다.
  • MATLAB Support Package for Quantum Computing는 양자 알고리즘의 신속한 구현을 위해 명확하고 잘 구조화되어 있으며 이해하기 쉽습니다.
배아줄기세포에서 내피세포로의 세포 분화 궤적, 유사시간에서 LASSO를 사용해 표준화된 유전자 발현을 보여주는 선 그래프 및 QUBO를 사용해 유전자 발현 추세의 차이를 강조한 그래프 등을 보여주는 세 플롯.

패널 C에서 녹색 선은 LASSO 및 QUBO 기반 방법에 의해 식별된 18개의 유전자를 강조 표시하며, 강조 표시되지 않은 선은 QUBO 기반 방법에 의해서만 식별된 유전자를 나타냅니다.

Texas A&M의 수의학 및 의생명과학 대학에서 James Cai 교수는 단일 세포 유전자 발현 데이터를 분석하기 위해 양자 컴퓨팅을 활용하는 학제간 프로젝트를 이끌고 있습니다. Cai 교수의 팀은 유전자들이 서로를 어떻게 조절하는지를 보여주는 네트워크를 구축하기 위해 게이트 기반 양자 컴퓨팅을 사용하고 있습니다. 그들은 또한 세포가 변화하고 발달하는 과정에 관여하는 중요한 유전자를 scRNA-seq 데이터에서 선택하기 위해 QUBO(2차 비제약 이진 최적화)와 함께 시뮬레이티드 QA(양자 어닐링)이라는 방법을 사용하고 있습니다.

QUBO 문제를 해결하기 위해 시뮬레이티드 어닐링에 MATLAB® 타부 탐색법 구현이 사용됩니다. 예를 들어, QUBO 기반 특징 선택 알고리즘은 처음에 5,000개 중에서 선택된 50개의 특징에서 10개의 명백히 비선형적인 유전자 상호작용을 식별했습니다. 이 50가지 특징 중 비교 LASSO 선택 방법으로 식별된 특징과 겹치는 특징은 18개뿐입니다. 이는 QUBO-QA 접근 방식이 핵심 선형 유전자 발현을 포착할 뿐만 아니라 복잡한 비선형 유전자 발현 패턴도 밝혀낸다는 것을 보여줍니다.

Statistics and Machine Learning Toolbox™는 프로젝트 전반에 걸쳐, 특히 데이터 처리 워크플로우에서 광범위하게 사용됩니다. Cai 교수는 MATLAB 환경에서 scRNA-seq 데이터 분석을 용이하게 하기 위해 scGEAToolbox를 개발했습니다. 이 툴박스는 데이터 정규화, 특징 선택, 세포 군집화, 세포군 규명, 유사시간 분석, 유전자 네트워크 구축, 가상 유전자 녹아웃 분석, 세포 간 통신 분석을 위한 포괄적인 함수를 포함하고 있습니다. Curve Fitting Toolbox™, Parallel Computing Toolbox™, 및 Image Processing Toolbox™도 시각화 및 상보 분석에 사용됩니다.

이 프로젝트는 양자 컴퓨팅이 생명과학에 어떻게 적용될 수 있는지 보여주는 대표적인 사례입니다. MATLAB을 통해 협력 연구자들은 본 연구를 재현하고, 나아가 전사체학 분야에서 양자 컴퓨팅의 활용을 한층 심화시킬 수 있습니다. 장기적으로, 이는 개별 유전 정보 기반의 맞춤형 진단 및 치료 개발에 있어 양자 컴퓨팅의 적용 방식을 혁신적으로 변화시킬 수 있습니다.