visionTransformer
구문
설명
[
는 패치 크기가 16인 기본 크기의 ViT 신경망(8,680만개 파라미터)을 반환합니다. 이 신경망은 384×384 해상도로 ImageNet 2012 데이터 세트를 사용하여 미세 조정되었습니다.net
,classNames
] = visionTransformer
이 기능을 사용하려면 Deep Learning Toolbox™ 라이선스와 Computer Vision Toolbox™ Model for Vision Transformer Network 지원 패키지가 필요합니다. 애드온 탐색기에서 이 지원 패키지를 다운로드할 수 있습니다. 자세한 내용은 애드온을 받고 관리하기 항목을 참조하십시오.
[
은 지정된 모델 이름을 사용하여 ViT 신경망를 반환합니다.net
,classNames
] = visionTransformer(modelName
)
[
는 하나 이상의 이름-값 인수를 사용하여 추가 옵션을 지정합니다.net
,classNames
] = visionTransformer(___,Name=Value
)
예제
입력 인수
이름-값 인수
출력 인수
참고 문헌
[1] Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani et al. "An Image is Worth 16x16 words: Transformers for Image Recognition at Scale." Preprint, submitted June 3, 2021. https://doi.org/10.48550/arXiv.2010.11929.
[2] Srivastava, Nitish, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. "Dropout: A Simple Way to Prevent Neural Networks from Overfitting." The Journal of Machine Learning Research 15, no. 1 (January 1, 2014): 1929–58
[3] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks." Communications of the ACM 60, no. 6 (May 24, 2017): 84–90. https://doi.org/10.1145/3065386.
확장 기능
버전 내역
R2023b에 개발됨
참고 항목
patchEmbeddingLayer
| trainnet
(Deep Learning Toolbox) | trainingOptions
(Deep Learning Toolbox) | dlnetwork
(Deep Learning Toolbox)
도움말 항목
- Train Vision Transformer Network for Image Classification
- MATLAB의 딥러닝 (Deep Learning Toolbox)
- 딥러닝 계층 목록 (Deep Learning Toolbox)
- 딥러닝 팁과 요령 (Deep Learning Toolbox)
- Data Sets for Deep Learning (Deep Learning Toolbox)