고객 사례

Centers for Disease Control and Prevention - 폴리오바이러스의 염기서열 분석 및 추적 자동화 사례

과제

폴리오바이러스의 전염과 진화를 추적하여 Global Polio Eradication Initiative 지원

솔루션

MathWorks 툴을 사용하여 유전자 염기서열 분석 수행, 계통수 생성, 면역 프로그램 추진에 유용한 보고서와 지도 제작

결과

  • 수작업 워크플로의 자동화 및 가속화
  • 군집 분석 시간 수개월 단축
  • 독립형 염기서열 분석 툴 개발

CDC는 MATLAB, Bioinformatics Toolbox 및 MATLAB Compiler를 통해 단일 환경 내에서 여러 수작업 단계를 간소화할 수 있었습니다. 이전에 3일이 걸리던 과정을 이제는 몇 시간 만에 완료할 수 있으므로 연구실은 소아마비 면역 프로그램에 정말 중요한 연구에 집중할 수 있습니다.

폴리오바이러스 입자.

본 사례가 있다는 사실이 CDC 또는 미국 정부가 이 MathWorks 소프트웨어 툴을 비슷한 다른 소프트웨어보다 더 추천하거나 MathWorks 조직 또는 기타 MathWorks 제품을 추천한다고 주장, 추론 또는 암시하는 것은 아닙니다.

폴리오바이러스는 전 세계 대부분의 지역에서 박멸되었지만 아프가니스탄, 인도, 나이지리아, 파키스탄을 포함한 몇몇 국가에서 여전히 발생하고 있습니다. CDC(Centers for Disease Control and Prevention)는 소아마비 풍토 국가와 파트너 기관에 역학적 및 기술적 전문 지식을 제공함으로써 WHO(세계보건기구)의 Polio Eradication Initiative를 지원합니다.

CDC의 PMEL(Polio Molecular Epidemiology Laboratory)에서는 폴리오바이러스 샘플의 염기서열 분석을 통해 유전적 형질을 파악하고 바이러스의 변화와 확산을 모니터링합니다. 이 연구실은 연구원들이 바이러스가 복제 중에 어떻게 진화하는지 이해하고 보건 기관이 더 효과적인 면역 캠페인을 시작하도록 도울 수 있는 포괄적인 보고서를 작성합니다.

MATLAB® 및 관련 툴박스는 CDC의 바이러스 추적 및 보고 과정을 가속화할 수 있습니다. CDC는 MathWorks 툴을 통해 유전자 염기서열 분석 데이터의 관리 및 분석에서 노동 집약적 워크플로의 여러 단계를 자동화할 수 있었습니다. 그 결과 CDC 직원은 일상적인 특성 분석 및 보고 작업에 더 적은 시간을 소비하고 응용 연구에 더 많은 시간을 투자할 수 있습니다.

과제

CDC 연구실은 환자 데이터를 처리하고 서아프리카의 연구실에서 획득한 유전자 샘플의 염기서열을 분석합니다. 소아마비 연구 결과는 상세한 월별 보고서로 작성되어 WHO에 전달됩니다. 이 보고서에는 지난 3년간 한 지역에서 어떤 바이러스들이 유행했는지, 그리고 이러한 바이러스가 서로 어떤 관련이 있는지를 보여주는 계통수(덴드로그램)가 포함됩니다.

과거에는 이 보고서를 작성하고 폴리오바이러스 발병을 지리적으로 플로팅하는 작업은 Microsoft® Access 데이터베이스와 UNIX® 기반 프로그램 및 스크립트 등 여러 플랫폼과 기술을 넘나드는 노동 집약적 과정이었습니다.

3,000개 염기서열의 데이터를 모두 조합한 후 바이러스의 레이블을 지정하고 색으로 구분하고 유전적 계통의 군집으로 분리하는 작업은 최대 3일이나 걸리는 일이었습니다. 이 과정은 매우 복잡했고, 다른 사람이 작업을 수행할 수 있도록 교차 교육하기도 학습 곡선이 급격했습니다.

CDC는 연구실 내 다른 사람들이 사용할 수 있는 툴로 이 워크플로를 자동화하고 보고서를 배포와 파악이 간편한 형식으로 작성해야 했습니다.

솔루션

MATLAB, Bioinformatics Toolbox 및 기타 툴박스는 CDC에게 폴리오바이러스 추적 및 보고 과정을 간소화하는 툴을 구축할 플랫폼을 제공했습니다.

연구원들은 환자 데이터를 개별 유형과 연결하기 위해 Database Toolbox를 사용하여 각 유전자 샘플의 날짜와 위치가 포함된 환자 정보를 MATLAB으로 읽어 들인 후 Bioinformatics Toolbox를 사용하여 가져온 FASTA 형식 파일의 염기서열 분석 정보에 이 환자 정보를 연결합니다.

CDC 연구원들은 유전 데이터를 분석하고 유전적으로 유사한 바이러스의 군집을 식별하기 위해 Bioinformatics Toolbox와 Statistics and Machine Learning Toolbox를 사용하여 유전자 염기서열을 정렬하고 이웃 결합 계통수를 생성합니다. 연구 팀은 바이러스를 항원형과 유전자형에 따라 분류한 후 관련된 바이러스의 군집으로 분리하는 MATLAB 기반 군집 분석 툴을 MathWorks 컨설턴트와 협력하여 개발했습니다.

팀원들은 Mapping Toolbox를 사용하여 이 군집을 지역 지도 상에 색으로 구분된 점으로 플로팅합니다. 보건 기관은 군집 분포 지도를 통해 폴리오바이러스 발생 지역을 확인하고 바이러스 이동 패턴을 식별할 수 있습니다.

전체 워크플로의 간소화를 위해 CDC PMEL은 MATLAB Compiler를 사용하여 독립형 프로그램을 구축했습니다. 이러한 프로그램에는 손쉽게 데이터베이스와 파일을 선택하고 덴드로그램에 환자 정보 주석을 달고 월별 보고서를 작성할 수 있도록 돕는 인터페이스가 들어 있습니다. 주석이 달린 계통수의 더 폭넓은 문서는 MATLAB Report Generator를 사용하여 생성됩니다.

CDC 연구원들은 한 관련 프로젝트에서 폴리오바이러스가 어떻게 변이하고 진화하는지를 연구하고 있습니다. 예를 들어 이들은 MATLAB 및 Bioinformatics Toolbox를 사용하여 100년에 걸친 폴리오바이러스 게놈의 돌연변이를 시뮬레이션합니다. 이 연구 결과는 면역 프로그램이 바이러스의 진화에 어떤 영향을 미칠 수 있는지를 보건 조직이 파악하는 데 도움이 될 것으로 보입니다.

CDC PMEL은 파키스탄, 인도, 남아프리카의 다양한 전문 국제 소아마비 연구실에서 CDC가 개발한 MATLAB 기반 염기서열 분석 툴을 도입하도록 돕고 있습니다.

결과

  • 수작업 워크플로의 자동화 및 가속화. 이전에는 월별 소아마비 보고서 작성에 3일이나 걸리곤 했습니다. CDC가 MATLAB, Bioinformatics Toolbox 및 MATLAB Compiler로 구축한 툴을 사용하면 최소한의 교육만 받은 기술자도 대략 한 시간 안에 보고서를 작성할 수 있습니다.

  • 군집 분석 시간 수개월 단축. 과거에 CDC 연구원들은 수작업으로 군집을 지정했는데, 커다란 포스터에 손으로 쓰면서 스프레드시트에서 유전적 차이 데이터를 가져오는 방식이었습니다. 이러한 작업은 3개월간의 상당한 노력을 요했습니다. 지금은 MATLAB 기반 군집 분석 툴을 사용함에 따라 모든 데이터를 한 곳에서 찾을 수 있습니다. 이 과정은 문서화가 잘 되어 있어 CDC 연구원들은 집중해서 작업한다면 일주일 만에도 완료할 수 있습니다.

  • 독립형 염기서열 분석 툴 개발. CDC 소아마비 그룹이 MATLAB Compiler를 사용하여 배포한 염기서열 분석 툴은 지역 내에서 연구 결과의 적시성과 전파 효율성을 크게 개선할 것으로 기대됩니다. MATLAB이 설치되지 않은 연구실의 바이러스학자들은 이 툴을 사용하여 지도를 직접 제작하고 계통수에 레이블을 지정하고 바이러스 발병 지점을 정확히 파악할 수 있습니다.