영상과 비디오 분류하기

AI 모델을 사용한 영상과 비디오 분류 및 행동 인식 수행

Computer Vision Toolbox™는 딥러닝과 전통적인 컴퓨터 비전 기법을 사용하여 영상과 비디오를 분류하는 전체 워크플로를 제공합니다. 영상 범주 분류의 경우, 딥러닝 기반의 사전 훈련된 ViT(Vision Transformer) 모델과 CLIP 모델을 사용하거나, bag-of-visual-words 접근 방식을 적용하여 시각적 콘텐츠를 기반으로 영상을 분류할 수 있습니다. 이러한 워크플로는 장면 인식, 콘텐츠 필터링, 자동 태그 지정과 같은 응용 분야를 지원합니다. 먼저 영상 레이블 지정기 앱과 비디오 레이블 지정기 앱을 사용하여 장면 수준의 범주에 레이블을 지정한 다음, 레이블이 지정된 데이터를 사용하여 모델을 훈련시키거나 미세 조정합니다.

비디오 분류와 행동 인식을 위해, 이 툴박스는 딥러닝 모델을 사용하여 프레임 시퀀스를 걷기, 수영하기 또는 앉기와 같은 행동 범주로 분류할 수 있습니다. 이러한 기능은 사람-컴퓨터 상호 작용 및 감시와 같은 작업에 필수적입니다. 이 툴박스는 비디오 데이터의 시간적 패턴을 해석하여 복잡한 행동과 제스처를 인식할 수 있는 모델의 훈련, 평가, 배포를 지원합니다.

주요 항목

추천 예제

Train Vision Transformer Network for Image Classification

Fine-tune a pretrained vision transformer (ViT) neural network to perform classification on a new collection of images.

라이브 스크립트 열기

Image Category Classification Using Bag of Features

Use a bag of features approach for image category classification. This technique is also often referred to as bag of words. Visual image categorization is a process of assigning a category label to an image under test. Categories may contain images representing just about anything, for example, dogs, cats, trains, boats.