Bioinformatics Toolbox™는 차세대 염기서열 분석(NGS: Next Generation Sequencing), 미세배열 분석, 질량 분석, 유전자 온톨로지에 사용되는 알고리즘과 앱을 제공합니다. 이 툴박스의 함수를 이용하여 NCBI Gene Expression Omnibus 및 GenBank® 같은 온라인 데이터베이스뿐만 아니라 SAM, FASTA, CEL, CDF 같은 표준 파일 형식에서 유전체 데이터와 단백체 데이터를 읽을 수 있습니다. 염기서열 브라우저, 공간 열지도, 클러스터그램 등을 이용하여 이러한 데이터를 탐색하고 시각화할 수 있습니다. Bioinformatics Toolbox는 피크를 탐지하고 누락된 데이터에 값을 대체하며, 특징을 선택할 수 있는 통계적 기법도 제공합니다.
툴박스의 함수를 조합하여 널리 사용되는 생물정보학 워크플로를 지원할 수 있습니다. ChIP-Seq 데이터를 이용하여 전사 인자를 식별하고 RNA-Seq 데이터를 분석하여 차별 발현 유전자를 식별할 수 있으며 미세배열 데이터에서 유전자 복제수 변이(CNV)와 단일염기 다형성(SNP)을 식별할 수 있고 질량 분석 데이터를 이용하여 단백질 프로파일을 분류할 수 있습니다.
계산 생명공학에 대해 더 자세히 알아보십시오.
시작하기:
Bioinformatics Toolbox는 차세대 염기서열 분석을 위한 알고리즘과 시각화 기법을 제공합니다. 이 툴박스를 이용하면 염기쌍 수준의 해상도로 계산을 수행하면서 유전체 전체를 분석할 수 있습니다. NGS 브라우저를 이용하면 단일 말단 또는 쌍 말단 단편서열을 이용하여 단편서열 정렬을 시각화하고 조사할 수 있습니다. 다음 예제에 나타나 있듯이 사용자 지정 분석 루틴을 구축할 수도 있습니다.
단편서열 데이터의 저장 및 관리
차세대 염기서열 분석에 사용된 데이터 세트는 너무 커서 물리적 메모리에 담을 수 없는 경우가 많습니다. Bioinformatics Toolbox는 유전체 전체를 분석할 수 있는 특수한 데이터 컨테이너를 제공합니다.
BioIndexedFile
객체를 이용하면 염기서열, 주석, 데이터 세트에 대한 상호 참조 등 불균일한 크기의 항목들을 포함하는 텍스트 파일의 내용에 접근할 수 있습니다. 테이블, 플랫 파일 또는 SAM, FASTA, FASTQ 등의 응용프로그램 특정 형식에서 이런 객체를 생성할 수 있습니다.
BioMap
클래스는 염기서열 헤더, 서열 염기서열, 품질 점수, 정렬에 관한 데이터, 단일 참조 염기서열에 대한 매핑 등 단편서열에서 나온 정보를 저장합니다. 객체 속성과 메서드를 이용하여 BioMap 객체에 담긴 데이터를 탐색, 접근, 선별, 편집할 수 있습니다.
미세배열 정규화
Lowess, 전역 평균, 중앙값 절대편차(MAD), 분위수 정규화 등 다양한 방법을 이용하여 미세배열 데이터를 정규화할 수 있습니다. 이러한 방법을 미세배열 칩 전체 또는 특정한 영역 또는 블록에 적용할 수 있습니다. 필터링 함수와 대체 함수를 이용하면 분석 및 시각화 루틴을 실행하기 전에 원시 데이터를 정리할 수 있습니다.
데이터 분석 및 시각화
Bioinformatics Toolbox를 이용하면 배경 조정을 수행하고, RMA(Robust Multi-Array Average)와 GCRMA(GC Robust Multi-Array Average) 절차를 이용하여 Affymetrix® 미세배열 프로브 수준 데이터로부터 유전자(프로브 세트) 발현 값을 계산할 수 있습니다. 원형 이진 분할(circular binary segmentation)을 적용하여 CGH 데이터를 정렬하고, 미세배열 실험에서 나온 유전자 발현 데이터에 대한 여러 가설검정의 오발견률을 추정할 수 있습니다. 여러 Affymetrix CEL 파일에 대한 프로브 강도에 대해, 또는 두 가지 다른 실험 조건에서 나온 유전자 발현 값에 대해 순위 불변 세트 정규화를 수행할 수도 있습니다.
미세배열 데이터를 시각화하는 데 사용되는 특수한 루틴에는 볼케이노 플롯, 상자 플롯, 로그로그 플롯, I-R 플롯, 미세배열의 공간 히트맵 등이 있습니다. G-분염 패턴으로 이디오그램을 시각화할 수도 있습니다.
Statistics and Machine Learning Toolbox™의 루틴을 이용하여 결과를 분류하고 계층적 군집화 및 K-평균 군집화를 수행하며, 미세배열 데이터를 최적 리프 순서를 갖는 2차원 클러스터그램, 히트맵, 주성분 플롯, 분류 트리 등의 통계적 시각화를 통해 표현할 수 있습니다.
Bioinformatics Toolbox는 질량 분석 데이터 분석에 활용할 수 있는 함수들을 제공합니다. 이러한 함수들을 통해 SELDI, MALDI, LC/MS, GC/MS 데이터에 대해 전처리 및 분류하고 생물지표를 식별할 수 있습니다. 전처리 함수에는 기준선 조정, 평활화, 보정, 재추출 등이 있습니다. M/Z 축을 이용하여 원시 스펙트럼 데이터를 정렬하고 LC/MS, GC/MS 데이터에 대해 체류시간 정렬을 수행할 수 있습니다. 여러 개의 스펙트럼을 동시에 그릴 수 있습니다.
스펙트럼을 평활화, 정렬, 정규화하고, 이어서 분류 및 통계 학습 도구를 이용하여 분류기를 만들고 잠재적인 생물지표를 식별할 수 있습니다.
그래프 이론 및 시각화
Bioinformatics Toolbox를 이용하면 기본 그래프 이론을 희소 행렬에 적용할 수 있습니다. 상호작용 지도, 계층 구조 플롯, 경로 등 그래프를 생성, 관찰, 편집할 수 있습니다. 그래프에서 최단 경로를 파악 및 관찰하고, 유방향 그래프에서 순환이 있는지 시험하고, 두 그래프 사이의 동형사상 관계를 발견할 수 있습니다.
통계 학습 및 시각화
Bioinformatics Toolbox는 다음과 같은 Statistics and Machine Learning Toolbox의 분류 및 통계 학습 알고리즘을 이용합니다.
- 서포트 벡터 머신(SVM) 및 k-최근접이웃 분류기
- 교차 검증 실험을 설정하고 다양한 분류 방법의 성능을 측정하는 함수
- 특징 선택, 매핑, 계층 구조 플롯 및 경로 표시를 위한 대화형 도구
유전자 온톨로지
Bioinformatics Toolbox를 이용하면 MATLAB®에서 유전자 온톨로지 데이터베이스에 액세스하고, 유전자 온톨로지 주석 파일을 구문 분석하며 선조, 후손 또는 친족 등 온톨로지의 부분 집합을 얻을 수 있습니다.
염기서열 정렬
이 툴박스는 쌍단위 염기서열, 염기서열 프로파일, 다중 서열 정렬 등 염기서열 분석을 위한 함수, 객체, 메서드를 제공합니다. 여기에는 다음이 포함됩니다.
- Needleman-Wunsch, Smith-Waterman, 프로파일 은닉 마르코프 모델 알고리즘 등 국소 및 전역 염기서열 정렬을 위한 MATLAB 표준 알고리즘 구현
- 점진적 다중 서열 정렬
- 정렬 결과 행렬의 시각적 표현
- PAM, BLOSUM 행렬군 등의 표준 측정 행렬
- 공통 서열 계산 및 서열 로고 표시
염기서열 유틸리티와 통계학
Bioinformatics Toolbox를 이용하면 염기서열을 편집하고 분석하여 데이터를 더욱 깊이 있게 이해할 수 있습니다. 다음을 수행할 수 있습니다.
- 유전 암호를 이용하여 DNA나 RNA 염기서열을 아미노산 서열로 변환
- 염기서열에 대한 통계 분석 수행 및 염기서열 내 특정 패턴 검색
- 제한 효소와 단백질 분해효소를 적용하여 염기서열에 대한 인 실리코 소화 수행 또는 시험 사례를 위한 임의의 염기서열 생성
- RNA 염기서열의 최소 자유 에너지 2차 구조 예측
염기서열 시각화
Bioinformatics Toolbox를 이용하여 염기서열과 정렬을 시각화할 수 있습니다. GenBank 특징이 주석으로 달린 선형 또는 원형 염기서열 지도를 볼 수 있습니다. RNA 염기서열의 2차 구조를 시각화할 수 있습니다. 대화형 뷰어를 이용하여 쌍단위 및 다중 서열 정렬을 탐색하고 수정할 수 있습니다.
계통수 분석
Bioinformatics Toolbox를 이용하여 계통수를 만들고 편집할 수 있습니다. Jukes-Cantor, p 거리, 정렬 점수 또는 사용자 정의 거리법 등의 다양한 유사성 행렬을 이용하여, 정렬되거나 정렬되지 않은 뉴클레오타이드 또는 아미노산 염기서열 사이의 쌍단위 거리를 계산할 수 있습니다. 근린 결합, 단일 연결 및 완전 연결, 비가중 쌍별 평균 결합법(UPGMA) 등 다양한 기법의 계층 구조 연결을 이용하여 계통수를 구축합니다.
이 툴박스를 이용하여 계통수에 가중치를 부여하고, 뿌리를 재결정하고, 서브트리를 계산하고, 계통수의 표준 형식을 계산할 수 있습니다. 계통수 뷰어를 이용하면 가지치기, 순서 변경 및 이름 변경이 가능합니다. 또한 거리를 탐색하고 Newick 형식 파일을 읽거나 쓸 수 있습니다. MATLAB의 주석 도구를 이용하여 발표에 사용할 수 있는 수준의 계통수를 만들 수도 있습니다.
단백질 특징 분석
Bioinformatics Toolbox는 원자 조성, 등전점, 분자 질량 등 펩타이드 염기서열의 속성을 계산하는 루틴 등 단백질 염기서열 분석 기법을 제공합니다. 단백질 염기서열의 아미노산 조성을 파악하고, 효소로 단백질을 쪼개고, PDB 데이터에 대한 뼈대 플롯 및 라마찬드란 플롯을 만들 수 있습니다. Sequence Tool을 이용하면 아미노산 염기서열의 물성을 관찰할 수 있고 Molecule Viewer를 이용하여 3차원 분자 구조를 표시하고 편집할 수 있습니다.
파일 형식 및 데이터베이스 액세스
생물학 데이터의 표준 파일 형식, 온라인 데이터베이스, 웹사이트 등에 액세스할 수 있습니다. Bioinformatics Toolbox으로 다음과 같은 작업이 가능합니다.
- FASTA, PDB, SCF 등 표준 파일 형식에서 염기서열 데이터 읽기
- Affymetrix DAT, EXP, CEL, CHP, CDF 파일, ImaGene® 결과 형식 데이터, Agilent® Feature Extraction Software 파일, GenePix® GPR 및 GAL 파일 등의 파일 형식에서 미세배열 데이터 읽기
- GenBank, EMBL, NCBI BLAST, PDB 등의 온라인 데이터베이스에서 데이터 읽기
- 단일 명령으로 NCBI Gene Expression Omnibus 웹사이트에서 직접 데이터 가져오기
- NCBI 이디오그램 또는 UCSC 사이토밴드 텍스트 파일에서 세포유전학 분염 정보 읽기
- MZXML 및 JCAMP-DX 파일에서 질량 분석 데이터 읽기
알고리즘 공유 및 응용 프로그램 배포
MATLAB 은 사용자의 데이터 분석 프로그램을 사용자 지정 소프트웨어 응용프로그램으로 변환할 수 있는 도구를 제공합니다. 이러한 도구에는 사용자 인터페이스, 비주얼 통합 개발 환경, 프로파일러 구축을 위한 개발 도구 등이 있습니다. MATLAB 응용 프로그램 배포 제품을 이용하면 사용자의 MATLAB 알고리즘을 기존의 C, C++, Java™ 응용 프로그램과 통합하고, 개발된 알고리즘과 사용자 지정 인터페이스를 독립된 응용 프로그램으로서 배포하며, MATLAB 알고리즘을 모든 COM 기반 응용프로그램에서 액세스할 수 있는 Microsoft® .NET 또는 COM 구성요소로 변환하고 Microsoft Excel® 애드인을 생성할 수 있습니다.
MATLAB을 BioPerl, SOAP기반 웹 서비스, COM 플러그인 등 널리 사용되는 생물정보학 도구와 통합할 수 있습니다.