영상 범주 분류

bag-of-features, CNN, Vision Transformer, 비전-언어 모델을 사용한 영상 분류

Computer Vision Toolbox™의 영상 범주 분류 툴을 사용하면 딥러닝 기반 Vision Transformer 모델이나 기존 bag-of-visual-words 기법을 사용하여 영상을 미리 정의된 범주로 분류할 수 있습니다. 영상 범주 분류 기능은 장면 인식, 콘텐츠 필터링, 자동 태그 지정과 같은 응용 분야에 필수적입니다. 영상 레이블 지정기 앱과 비디오 레이블 지정기 앱을 사용하여 레이블이 지정된 데이터 세트를 만드는 것부터 시작할 수 있습니다. 이 두 앱은 각각 영상과 비디오 프레임에 대해 대화형 및 AI 지원 방식으로 장면 수준 레이블을 주석 처리하는 작업을 지원합니다. 이러한 레이블은 영상 분류 모델의 훈련과 평가를 위한 ground truth로 사용됩니다.

딥러닝 기반 분류를 위해, 이 툴박스는 visionTransformer 함수를 통해 사전 훈련된 ViT(Vision Transformer) 모델에 대한 액세스를 제공합니다. 이러한 모델은 셀프 어텐션 메커니즘을 사용하여 전역 영상 컨텍스트를 캡처하며, 사용자 지정 데이터 세트에 맞게 미세 조정할 수 있습니다. patchEmbeddingLayer와 같은 지원 계층을 사용하면 ViT 아키텍처를 설계하고 확장할 수 있습니다. 또한, 이 툴박스에는 CLIP 신경망에 대한 지원이 포함되어 있으며, 이 신경망은 비전과 언어 이해를 결합하여 영상 분류를 수행합니다. clipNetwork 객체와 classify 객체 함수를 사용하여 시각적 콘텐츠를 텍스트 설명과 정렬하는 영상 분류 작업을 수행할 수 있으며, 이를 통해 다중모달 응용 사례를 구현할 수 있습니다.

전통적인 접근 방식을 위해, 이 툴박스는 bag-of-features(BoF) 프레임워크를 지원하여, 영상에서 시각 단어가 나타나는 빈도를 히스토그램으로 표현합니다. bagOfFeatures 객체를 사용하여 특징을 추출하고 시각 단어집을 구축한 다음, trainImageCategoryClassifier 함수를 사용하여 분류기를 훈련시키고 imageCategoryClassifier 함수로 예측을 수행할 수 있습니다. 이 방법은 경량 응용 사례의 경우나 해석 가능성이 우선 순위인 경우에 특히 유용합니다. 자세한 내용은 Image Classification with Bag of Visual Words 항목을 참조하십시오.

앱

영상 레이블 지정기	컴퓨터 비전 응용 분야에서 영상에 레이블 지정
비디오 레이블 지정기	Label video for computer vision applications

함수

모두 확장

ViT(Vision Transformer)

`visionTransformer`	사전 훈련된 ViT(Vision Transformer) 신경망 (R2023b 이후)
`patchEmbeddingLayer`	Patch embedding layer (R2023b 이후)

CLIP 신경망

`clipNetwork`	Create pretrained CLIP deep learning neural network for vision-language tasks (R2026a 이후)
`classify`	Classify image using CLIP network (R2026a 이후)

Bag-of-Features

`bagOfFeatures`	Bag-of-visual-words 객체
`trainImageCategoryClassifier`	Train an image category classifier
`imageCategoryClassifier`	Predict image category
`imageDatastore`	이미지 데이터의 데이터저장소
`splitlabels`	Find indices to split labels according to specified proportions
`countlabels`	Count number of unique labels
`folders2labels`	Get list of labels from folder names

도움말 항목

영상 분류를 위한 Ground Truth 만들기

Get Started with the Image Labeler
Interactively label rectangular ROIs for object detection, pixels for semantic segmentation, polygons for instance segmentation, and scenes for image classification.
Get Started with the Video Labeler
Interactively label rectangular ROIs for object detection, pixels for semantic segmentation, polygons for instance segmentation, and scenes for image classification in a video or image sequence.

딥러닝 모델을 사용하여 영상 분류하기

Train Vision Transformer Network for Image Classification
This example shows how to fine-tune a pretrained vision transformer (ViT) neural network to perform classification on a new collection of images.
간단한 영상 분류 신경망 만들기 (Deep Learning Toolbox)
이 예제에서는 딥러닝 분류를 수행하는 간단한 컨벌루션 신경망을 만들고 훈련시키는 방법을 보여줍니다.
영상 분류 시작하기 (Deep Learning Toolbox)
이 예제에서는 심층 신경망 디자이너 앱을 사용하여 딥러닝 분류를 수행하는 간단한 컨벌루션 신경망을 만드는 방법을 보여줍니다.

Bag-of-Features 접근 방식을 사용하여 영상 분류하기

Create a Custom Feature Extractor
You can use the bag-of-features (BoF) framework with many different types of image features.
Image Classification with Bag of Visual Words
Use the Computer Vision Toolbox functions for image category classification by creating a bag of visual words.

영상 범주 분류

앱

함수

ViT(Vision Transformer)

CLIP 신경망

Bag-of-Features

도움말 항목

영상 분류를 위한 Ground Truth 만들기

딥러닝 모델을 사용하여 영상 분류하기

Bag-of-Features 접근 방식을 사용하여 영상 분류하기

추천 예제

Train Vision Transformer Network for Image Classification

Image Category Classification Using Bag of Features

Image Category Classification Using Deep Learning