Max Planck Institute에서 핵심 복합 단백질 재구성

"Parallel Computing Toolbox로 처리 속도를 20~30배 정도 향상시켰습니다. 병렬 컴퓨팅 전문가이거나 다른 프로그래밍 언어를 배우지 않아도 MATLAB 환경으로부터 클러스터를 생산적으로 사용할 수 있었습니다."

과제

단백질 복합체의 고품질 3D 이미지 개발

솔루션

MathWorks 툴을 사용하여 전자현미경 이미지를 획득, 분석, 필터링, 결합 및 표시

결과

  • 연구 시간이 수년 단축
  • 개발 시간이 수 주에서 수일로 단축
  • 워크플로 가속

26S 프로테아좀의 Iso 곡면 표시.

단백질 분해는 다양한 세포 기능 및 경로를 조절하는 핵심 메커니즘입니다. 하나의 중요한 경로인, 단백질 분해는 26S 프로테아좀으로 통제됩니다. 26S 프로테아좀은 단백질 분해를 위한 세포의 중심 메커니즘의 일부로서 암 치료를 위한 핵심 분자 화합물이 될 수 있습니다. 하지만 26S 화합물은 불완전하여 작은 부분 복합체로 분리되기 때문에 조사하기가 어려운 구조입니다.

Max Planck Institute of Biochemistry의 구조생물학자와 계산생물학자들은 동결전자현미경으로 얻은 2D 이미지로부터 26S 및 기타 주요 단백질 복합물을 3D로 재구성했습니다. 이 작업은 연구원들이 MathWorks 툴로 개발한 이미지 획득, 필터링, 처리 및 3D 재구성을 위한 간소화된 절차 덕분에 가능했습니다.

“MathWorks 툴 덕분에 전체 워크플로를 단일 환경에서 수행할 수 있었습니다.” 라고 Max Planck Institute of Biochemistry의 과학자인 Andreas Korinek이 말합니다. “5~6개의 서로 다른 패키지 간에 좌표와 데이터를 변환하는 대신 하나의 플랫폼을 사용하여 기구 제어, 이미지 획득 및 필터링, 3D 구조물 구성을 더욱 빠르게 처리할 수 있습니다.”

과제

연구원들은 동결전자현미경에서 액체 질소 온도로 유지된 얼음 속의 단백질 샘플에 대한 2D 이미지를 얻었습니다. 개별 단백질 복합물이 얼음 내에서 임의의 방향을 가지므로 모든 각도에서 3D 구조를 구성하기 위한 각도별 샘플링이 가능했습니다. 이러한 민감한 샘플에 대한 빔 손상을 최소화하기 위해 이미징 과정에서 상대적으로 적은 양의 전자선을 적용했습니다.

단백질 구조의 재구성을 계산하기 위해서는 3D 구조의 개별 이미지에 대응하는 클래스 평균을 높은 대비와 신호 대 잡음 비로 생산해야 합니다. 전자선 조사량에 의해 이미지의 대비와 신호 대 잡음 비가 떨어질 수 있기 때문에 필요한 이미지 품질을 얻으려면 수백만 개의 이미지로 평균을 내야 합니다.

다수의 개별 이미지가 필요하므로 Max Planck Institute의 과학자들은 방대한 데이터를 정확히 처리할 수 있는 높은 처리량의 툴과 절차를 개발해야 했습니다.

솔루션

Max Planck Institute 연구원들은 MathWorks 툴을 사용하여 전자현미경을 제어하고 현미경 사진으로부터 개별 이미지를 자동 선택하고, 이미지를 평균화하고 처리하며 단백질 복합체의 정확한 3D 밀도 맵을 구성했습니다.

MATLAB®을 통해 개발된 그래픽 사용자 인터페이스(GUI)를 사용하여 다수의 필요한 개별 이미지를 자동으로 수집했습니다.

전자현미경은 우선 전체 샘플 그리드의 저 배율 조사 이미지를 수집했습니다. 연구원들은 이 이미지를 사용하여 얼음을 포함한 샘플 중에서 충분히 얇은 영역을 찾아냈습니다. 그런 다음 완전히 자동화된 수집 절차에 따라 이러한 샘플에서 고배율 이미지를 얻었습니다.

전자현미경에서의 이미지 형성에는 다양한 이미징 요소(contrast transfer function으로 총칭)가 관여합니다. 따라서 여러 감도에서 다양한 주파수가 기록됩니다. Max Planck는 Image Processing Toolbox™를 사용하여 이러한 데이터 변화를 보정했습니다. Statistics and Machine Learning Toolbox™와 주 성분 분석(Principal Component Analysis) 및 자체 조직 맵을 포함한 기술을 사용함으로써 약간의 배좌 차이가 아니라면 동일한 단백질 복합체인 샘플의 이미지를 그 차이점에 따라 식별하고 정리했습니다.

패턴 일치 및 단일 입자 구조에 대한 알고리즘은 많은 연산을 필요로 합니다. 과학자들은 Parallel Computing Toolbox™를 사용하여 64노드 클러스터에 대한 이러한 대규모 데이터 세트의 연산을 가속했습니다.

Max Planck 연구원들은 MathWorks 툴로 개발된 알고리즘을 사용하여 이미 26S 프로테아좀뿐 아니라 여러 단백질 복합체의 3D 이미지를 생산했습니다. 현재 작업에는 워크플로 최적화 및 자동화, 필요에 따라 데이터의 적응형 수집과 최적 수집을 위해 현미경으로 피드백을 제공하기 위한 MathWorks 툴 사용이 포함됩니다.

결과

  • 연구 시간이 수년 단축. “연구원들은 26S 프로테아좀의 3D 재구성을 위해 거의 10년 동안 작업 중입니다.” 라고 Korinek이 말합니다. “MathWorks 툴을 사용함으로써 2년도 안 돼서 현재 이용 가능한 최고의 해상도를 가진 구조를 생산하는 워크플로를 개발할 수 있었습니다.”
  • 개발 시간이 수 주에서 수일로 단축. “MATLAB을 통해 새로운 알고리즘, 기술 또는 GUI를 1~2일 만에 개발할 수 있습니다. C++에서는 같은 작업에 최소 한 달이 걸릴 것입니다.” 라고 Korinek이 말합니다. “전체 워크플로에 대한 단일 환경을 갖기 때문에 생물학자들이 여러 소프트웨어 패키지를 배울 필요 없이 작업을 시작할 수 있습니다.”
  • 워크플로 가속. “단일 CPU에서는 3D 볼륨 재구성에 며칠이 걸릴 수 있습니다. 우리는 MATLAB과 Parallel Computing Toolbox를 사용하여 클러스터에 알고리즘을 배포했습니다.” 라고 Korinek이 말합니다. “덕분에 속도가 20~30배 빨라졌고 수 주가 걸릴 작업을 하룻밤 사이에 끝낼 수 있었습니다.”