기술 칼럼

MATLAB를 활용한 세포 리프로그래밍의 데이터 기반 제어

작성자: Indika Rajapakse 박사


"MATLAB은 세포 리프로그래밍이 작동하는 방식을 규정하는 네트워크를 탐구하고, 이를 활용하여 암 치료 및 재생의학을 혁신하는 데 가장 적합한 환경입니다."

화학요법은 백혈병을 비롯한 여러 암과의 싸움에서 가장 강력한 무기 중 하나이지만, 양날의 검과 같을 수도 있습니다. 암세포를 파괴하는 과정에서 면역 체계까지 함께 파괴하는 경우가 흔합니다. 이 치료법을 시행한 후, 의사들은 종종 환자의 면역 체계를 재건하여 회복을 돕기 위해 골수 이식과 같은 "치료에 대한 후속 치료"를 시행해야 합니다. 장기 이식은 적합한 기증자를 찾는 것이 쉽지 않고, 설령 적합한 기증자를 찾더라도 이식편대숙주병과 같은 심각한 합병증이 발생할 수 있다는 점에서 여러 가지 어려움을 수반합니다. 

이제 다른 경로를 상상해 보세요. 환자 자신의 피부 세포 일부를 필요한 골수 세포로 변환할 수 있다면 어떨까요? 기증자 찾기와 기증 조직 거부 반응이라는 두 가지 난제가 한 번에 해결될 것입니다. 세포 리프로그래밍이 가져다주는 가능성이 바로 그것이며, University of Michigan에서 제가 속한 연구팀의 핵심 연구 주제이기도 합니다. 우리는 전사 인자(유전자의 발현을 켜거나 끄는 데 도움을 주는 단백질)라는 분자를 사용해 세포의 정체성을 재설정하여 한 종류의 세포를 다른 종류의 세포로 직접 변환하는 방법을 개발하고 있습니다. 

공학적 관점에서 볼 때, 이는 고전적인 제어 문제로 정식화될 수 있습니다. 현재 시스템의 상태가 피부 세포이고 목표가 골수 세포라면, 어떻게 시스템을 목표 지점으로 유도할 수 있을까요? 우리는 이를 ẋ = f(x, u)로 모델링하며, 여기서 x는 세포의 상태이며, u는 우리가 적용하는 전사 인자의 양과 시기를 나타냅니다. 적절한 요인 조합과 적용 시점을 찾기 위해 RNA 시퀀싱(RNA-Seq) 데이터, 3D 유전체 구조 데이터, 전사 인자 결합 데이터 등 상당한 양의 원시 데이터를 생성하는 실험을 진행합니다. 

우리 연구의 성공은 우리가 수집하는 복잡한 생물학적 데이터셋, 특히 규모가 크고 행렬 기반이며 고차원적인 데이터셋을 처리하고 분석하는 능력에 달려 있습니다. 또한 이는 유전자 조절 및 유전체 구조를 뒷받침하는 네트워크를 이해하는 우리의 능력에 달려 있습니다. 본 연구에서 유전자와 유전체 영역은 네트워크의 노드이며, 이들 간의 상호작용(물리적 접촉, 조절 영향, 공동 발현)은 엣지를 형성합니다. 이러한 네트워크는 단순 그래프일 수도 있고 더 복잡한 하이퍼그래프일 수도 있으며, 둘 다 행렬로 자연스럽게 표현될 수 있습니다. 이러한 행렬은 알고리즘과 모델에 전달되는 핵심 데이터 구조이며, 이들 중 상당수는 고유값 분해, SVD(특이값 분해) 및 기타 선형대수 연산에 의존하는데, 이 모든 연산은 MATLAB®에서 자연스럽고 효율적으로 처리됩니다. 저희는 수년간 MATLAB 사용하여 업무의 기반이 되는 워크플로를 구축해 왔으며, 최근에는 Biopipeline Designer 앱을 사용하여 이러한 워크플로의 일부를 생물정보학 파이프라인으로 정의하고 실행하기 시작했습니다.

세포 리프로그래밍의 간략한 역사와 데이터 기반 제어의 등장

세포 리프로그래밍이라는 개념은 수십 년 전부터 존재했지만, 세포 리프로그래밍 분야는 2006년 Shinya Yamanaka가 단 네 가지 전사 인자만으로 성숙한 피부 세포를 다능성 줄기세포와 유사한 상태로 되돌릴 수 있음을 보여주면서 괄목할 만한 발전을 이루었습니다. 그는 유도 만능 줄기세포를 발견하여 노벨상을 수상했고, 제 생각에는 생물학의 패러다임을 완전히 바꿔놓았습니다. 흥미롭게도 Yamanaka의 연구는 전 세계적인 주목을 받았지만, 세포가 근본적으로 정체성과 기능을 바꿀 수 있다는 것을 보여준 최초의 사례는 아니었습니다. 약 20년 전, 제가 나중에 유전체 세포생물학 분야 박사후 과정을 마친 Fred Hutchinson Cancer Research Center에서 근무하던 Harold Weintraub는 한 가지 유형의 성숙 세포가 다능성 세포 단계를 완전히 건너뛰고 다른 세포로 바로 변환될 수 있음을 입증했습니다. 그는 1987년에 그 연구 결과를 발표했지만, 당시에는 그 분야가 그가 발견한 내용과 그의 연구의 탁월함을 받아들일 준비가 되어 있지 않았습니다.

이러한 초기 선구자들의 비전을 바탕으로, 우리 연구실은 직접 리프로그래밍, 특히 이를 더욱 안정적이고 예측 가능하게 만드는 방법에 노력을 집중해 왔습니다. 우리의 주요 공헌 중 하나는 데이터 기반 제어라는 프레임워크입니다. (그림 1) 이 접근 방식은 수학적 제어 이론의 원리를 활용하여 세포 리프로그래밍에서 전사 인자의 사용을 최적화합니다. 

전사 인자가 제어 이론과 유전자 발현 네트워크를 사용해 세포 리프로그래밍을 유도하는 방법을 보여주는 다이어그램.

그림 1. 데이터 기반 제어에 대한 개요에는 제어 방정식 변수 요약(A), 시계열 RNA-Seq 데이터에서 결정된 엣지를 갖는 동적 네트워크의 노드로서 위상적으로 연관된 도메인(TAD)의 표현(B), 세포 상태를 한 영역에서 다른 영역으로 이동시키는 전사 인자(TF) 세트를 식별하는 개념적 그림(C)이 포함됩니다.

데이터 기반 제어에서는 세포 주기 전반에 걸쳐 여러 시점에서 유전자 발현을 샘플링하여 세포 집단의 자연적 진화에 대한 모델을 구축합니다. 복잡성을 관리하기 위해, 우리는 위상적으로 연관된 도메인(TAD)을 기반으로 유전자 발현을 클러스터링하고 발현 수준의 역학을 모델링합니다. (TAD는 유전체 내에서 외부 영역보다 자체적으로 더 빈번하게 물리적 상호작용을 하는 영역으로, 독립적인 3차원 구조 단위를 형성합니다.) 이러한 동적 모델을 구축하기 위해 우리는 유전체의 서로 다른 영역 간의 물리적 상호작용을 나타내는 Hi-C 데이터와 시간이 지남에 따라 유전자 발현이 어떻게 변화하는지 추적하는 RNA-Seq 데이터를 통합합니다. (그림 2) 이 모델들은 전사 인자 결합 부위 및 활성에 대한 데이터와 결합되어 특정 리프로그래밍 작업에 가장 유망한 전사 인자 후보를 체계적으로 식별할 수 있도록 해줍니다. 

세포 리프로그래밍 분석을 지원하기 위해 3D 유전체 구조와 유전자 발현 데이터를 결합한 시각 자료입니다.

그림 2. 세포 리프로그래밍은 유전체의 구조적 조직(TAD)과 기능적 측면을 모두 이해하기 위해 다양한 데이터형(3D 유전체 구조를 위한 Hi-C와 유전자 발현을 위한 RNA-Seq)을 통합해야 합니다.

데이터 기반 제어를 사용하여, 우리는 이전에 리프로그래밍 실험에서 검증된 요인들을 성공적으로 식별했습니다. 더욱 중요한 것은, 우리는 이를 활용하여 잠재적으로 강력한 새로운 조합을 찾아냈다는 점입니다. MATLAB의 행렬 및 시각화 기능은 본 연구에서 매우 유용한 것으로 입증되었으며, 이를 통해 제어 알고리즘의 기반이 되는 복잡한 수학적 연산을 효율적으로 처리하고 결과적으로 생성된 고차원 생물학적 데이터를 해석할 수 있었습니다.

하이퍼그래프 분석 및 생물정보학 파이프라인 간소화

데이터 기반 제어는 유전자 발현 역학을 모델링하는 방법을 제공하지만, 이러한 역학을 설명하려면 단순한 쌍별 모델을 넘어서는 조절 상호작용을 포착해야 하는 경우가 많습니다. 많은 생물학적 상호작용에는 두 개 이상의 세포 구성 요소가 동시에 관여합니다. 예를 들어, 유전자 조절은 종종 여러 전사 인자와 보조활성인자가 유전체의 인핸서 및 프로모터 영역에 조화롭게 결합하는 것을 요합니다. 두 요소 간의 연결로 관계를 표현하는 표준 네트워크 모델은 이러한 다자간 상호작용을 적절하게 포착할 수 없습니다. 이러한 복잡성을 해결하기 위해 우리 실험실에서는 MATLAB에서 고차 구조를 분석하고 시각화할 수 있는 공개적으로 이용 가능한 툴박스인 Hypergraph Analysis Toolbox (HAT)를 개발했습니다. HAT는 연구자들이 하이퍼그래프를 구성, 시각화 및 분석할 수 있도록 지원합니다. 하이퍼그래프는 단일 연결(하이퍼엣지)이 여러 노드를 연결하는 수학적 구조로, 복잡한 생물학적 시스템에서 다방향 상호 작용을 정확하게 나타냅니다. 이러한 기능은 세포 리프로그래밍에서 특히 가치가 있는데, 유전자 조절 네트워크와 염색질 상호작용의 복잡한 역학을 이해함으로써 한 세포 유형을 다른 세포 유형으로 전환하기 위한 최적의 개입 지점을 밝혀낼 수 있기 때문입니다. HAT는 쌍별 네트워크 모델로는 식별할 수 없는 중요한 조절 모듈과 제어 지점을 파악하는 데 도움을 주어 효과적인 리프로그래밍 전략을 설계하는 능력을 향상시킵니다.

하이퍼그래프 분석은 종종 여러 단계로 이루어진 프로세스 또는 파이프라인의 맥락에서 수행됩니다. 저희 실험 파이프라인은 일반적으로 시퀀싱 플랫폼에서 원시 데이터를 수집하고, 참조 유전체에 정렬하고, 필터링하고, 기타 후속 단계를 거치는 과정을 포함합니다. Biopipeline Designer 앱을 사용하면 이러한 프로세스를 간소화할 수 있습니다. (그림 3) 예를 들어, 우리는 시퀀싱 데이터로 시작하여, 이를 정렬하고, 유전자 발현을 정량화하고, 필터링 및 정규화를 수행한 다음, 세포를 식별하거나 분류하고, 리프로그래밍 진행 상황을 추적하거나, 개입을 안내하는 데 사용할 수 있는 생물학적으로 의미 있는 특징, 즉 시그니처를 추출하는 파이프라인을 구축할 수 있습니다. 우리는 기존 생물정보학 도구와 자체 개발 코드를 하나의 통합 분석 파이프라인으로 연결하여, 종단간 생물정보학 워크플로를 대화형 방식으로 구축하고 실행할 수 있습니다. 또한, HAT 함수를 포함하여 모든 MATLAB 함수를 나타내는 사용자 지정 블록을 만들고 이를 일반적인 생물정보학 작업을 위한 사전 구축된 블록과 통합할 수 있습니다. 

모듈형 생물정보학 워크플로를 보여주는 MATLAB 내 Biopipeline Designer 앱의 스크린샷.

그림 3. Biopipeline Designer 앱. 

이 접근 방식은 유전자 발현 분석을 위해 RNA-Seq 데이터를 처리할 때 특히 효과적입니다. 이 데이터는 세포 상태 및 리프로그래밍 역학에 대한 이해를 높이는 데 매우 중요합니다. Biopipeline Designer 앱은 완성된 파이프라인을 공유하거나 최소한의 수정만으로 다양한 데이터형에 맞게 적용할 수 있어 시간을 절약하고 재현성을 보장합니다. 세포 리프로그래밍 연구에서는 반복적인 실험과 분석이 필수적이기 때문에, 계산 모델과 제어 전략을 개선하기 위해 다양한 파라미터를 사용하여 분석을 신속하게 조정하고 재실행할 수 있는 능력이 중요합니다.

교실에서의 MATLAB 및 수학 생물학

저희 연구실에서는 거의 모든 업무에 MATLAB을 사용합니다. 이러한 철학은 제가 가르치는 '생물학적 네트워크의 수학'과 '데이터의 수학'이라는 교육과정을 제공하는 대학원 수업에도 반영됩니다. 이 교육과정들은 스펙트럼 그래프 이론, 네트워크 제어 가능성, SVD, 확률 모델링, 신경망과 같은 필수 개념들을 다루며, 이 모든 개념들은 MATLAB을 통해 생물학적 데이터셋에 적용됩니다. 

가능한 경우, MathWorks의 공동 창립자이자 MATLAB 개발자인 Cleve Moler의 특별 강연을 소개합니다. SVD가 어떻게 우주를 구했는가라는 그의 강연은 학생들에게 영감을 줄 뿐만 아니라 과학 계산에서 선형대수가 미치는 심오한 영향을 보여줍니다.

현재 및 미래 발전 방향 

현재 우리의 접근 방식은 주로 Hi-C 데이터를 사용해 쌍별 염색질 상호작용을 매핑하고 TAD를 식별하는 것에 반해 우리 연구실은 현재 Oxford Nanopore Technologies의 롱리드 시퀀싱 기술을 통합해 염색질 구조(세포핵에서 DNA가 단백질과 함께 포장되는 방식)에 대한 이해를 높이는 연구를 진행하고 있습니다. 기존의 숏리드 시퀀싱는 달리, 이 회사의 Pore-C 방식은 다중 염색질 상호작용 및 후성유전적 변형을 포착해 3D 유전체 구조에 대한 보다 포괄적인 관점을 제공합니다. (그림 4) 이러한 발전으로 인해 데이터 처리 워크플로를 수정해야 할 것이며, 더욱 복잡해진 데이터셋을 관리하고 분석하기 위해 Biopipeline Designer를 사용할 계획입니다. 

Hi-C와 Pore-C를 이용한 염색질 접촉 지도의 시각적 비교. Hi-C 패널은 4번 염색체 상의 쌍별 상호작용 및 TAD 경계의 히트맵을 보여준다. Pore-C 패널은 시퀀싱 워크플로와 유전체 영역 전반에 걸친 하이퍼그래프 기반 다중 접촉을 보여줍니다.

그림 4. Hi-C 및 Pore-C 기술을 사용해 생성된 유전체 전반의 접촉 지도의 비교. 

또한, 데이터 기반 제어 프레임워크를 확장하여 하이퍼그래프 표현을 통합함으로써 고차 유전자 조절 상호작용을 보다 효과적으로 모델링할 수 있도록 하고 있습니다. 또한, 우리는 집단 수준의 리프로그래밍을 넘어 단일 세포 리프로그래밍을 도입하여 리프로그래밍 성공률을 높이는 것을 목표로 하고 있습니다. 또한, 우리는 조직 제작 분야에도 관심을 두고 있으며, 리프로그래밍된 세포로부터 기능성 조직을 조립하는 가능성을 탐구하고 있습니다. 이러한 노력을 지원하기 위해, 저희의 장기 비전에는 필요한 로봇 시스템의 디지털 트윈을 Simulink®에서 모델링하고 시뮬레이션하는 완전 자동화 실험실 시스템 개발이 포함되어 있습니다.​

연구자들이 피부 세포를 채취하여 리프로그래밍한 후 환자에게 다시 주입하는 것에 대해 이야기할 때, 마치 공상과학소설처럼 들릴지도 모릅니다. 공상과학소설 작가 Arthur C. Clarke는 "고도로 발달한 과학기술은 마법과 구분할 수 없다"는 유명한 말을 남겼습니다. 이러한 관점에서 볼 때, MATLAB 툴은 이러한 "마법"을 현실로 구현하는 데 매우 중요하다고 생각합니다.

글쓴이에 관하여

Rajapakse 박사는 University of Michigan 의과대학의 계산의학 및 생물정보학 교수이자 University of Michigan 문리과대학의 수학 교수입니다. 그는 2012년 Fred Hutchinson Cancer Research Center에서 유전체 세포생물학 분야 박사후 연구원 과정을 마쳤습니다. 그는 Smale Institute의 회원이자 iReprogram, Inc.의 최고 과학 책임자 겸 공동 창립자이기도 합니다. 그의 연구 분야는 세포 리프로그래밍, 디지털 생물학, 데이터 기반 학습 및 고차 구조 제어, 그리고 동기화의 수학 등이 있습니다.

2025년 기고

사용된 제품

자세히 알아보기

관련 기능에 대한 칼럼 보기

관련 산업에 대한 칼럼 보기