주요 콘텐츠

비전-언어 모델

비전-언어 모델을 사용한 영상 분류, 검색, 캡션 생성 및 객체 검출 작업 수행

비전-언어 모델(VLM)은 영상과 텍스트를 입력으로 받아 텍스트를 출력으로 생성하거나 해당 주석과 함께 경계 상자를 반환할 수 있는 다중모달 모델로, 객체 검출 및 비주얼 그라운딩(visual grounding)과 같은 작업을 가능하게 합니다. 이러한 모델은 영상이나 비디오의 시각적 콘텐츠를 분석하고, 함께 제공된 텍스트를 처리하며, 시각 데이터와 텍스트 데이터 간의 상관관계를 식별할 수 있습니다. 이 모델은 언어적 컨텍스트 내에서 시각 정보를 해석하는 다양한 작업을 수행할 수 있도록 지원하며, 이는 실제 의미를 이해하는 것이 아니라 예측 알고리즘을 활용하여 이루어집니다. Computer Vision Toolbox™는 CLIP, Grounding DINO, Moondream 등 여러 사전 훈련된 VLM을 제공하며, 다음과 같은 응용 분야에서 사용할 수 있습니다.

  • 영상 캡션 생성 — 영상에 대한 설명 텍스트를 생성합니다.

  • 영상 검색 — 미리 정의된 세트에서 텍스트 설명과 가장 일치하는 영상을 찾습니다.

  • 객체 검출 — 텍스트 기반 쿼리에 따라 영상에서 객체를 검출합니다.

  • 영상 분류 — 텍스트 범주에 따라 영상을 분류합니다.

또한, 영상 레이블 지정기 앱과 비디오 레이블 지정기 앱에서 설명 텍스트 프롬프트를 통해 ground truth를 자동으로 레이블 지정하는 데에도 VLM을 사용할 수 있습니다. 시작하려면 Get Started with Vision-Language Models 항목을 참조하십시오.

Vision-language models enable you to rapidly detect objects in images using natural language text and image input, and perform other vision-language tasks such as image captioning, classification, and retrieval.

영상 레이블 지정기컴퓨터 비전 응용 분야에서 영상에 레이블 지정
비디오 레이블 지정기Label video for computer vision applications

함수

모두 확장

clipNetworkCreate pretrained CLIP deep learning neural network for vision-language tasks (R2026a 이후)
classifyClassify image using CLIP network (R2026a 이후)
extractImageEmbeddingsExtract feature embeddings from image using CLIP network image encoder (R2026a 이후)
extractTextEmbeddingsExtract text embeddings from search text using CLIP network text encoder (R2026a 이후)
moondreamCreate pretrained Moondream vision-language model (VLM) (R2026a 이후)
captionImageCaption images using Moondream vision-language model (VLM) (R2026a 이후)
groundingDinoObjectDetectorDetect and localize objects using Grounding DINO object detector (R2026a 이후)
detectDetect objects using Grounding DINO object detector (R2026a 이후)

도움말 항목

시작하기

추천 예제