이미지-텍스트 데이터셋
COCO Captions
https://github.com/tylin/coco-caption
COCO - Common Objects in Context
Flickr 30k Dataset
텍스트 사전 구축(텍스트 데이터 전처리)
토큰화 및 정수 인코딩
이미지 데이터 전처리
.ToTensor()이미지로부터 캡션을 생성하는 모델을 개발
Outline
(Encoder, Decoder에 사용되는 세부 모델은 추후 변경될 수 있습니다.)
(사실 저도 뭘 써야할 지 모룸..😉 같이 연구해 보아요오?)
![[출처] Show, Attend and Tell: Neural Image Caption Generation with Visual Attention](https://prod-files-secure.s3.us-west-2.amazonaws.com/5e1aea21-ca6f-4d57-a4b4-6e87cb85d0fc/48e48ca3-245b-469d-9558-4c481d4d885b/Untitled.png)
[출처] Show, Attend and Tell: Neural Image Caption Generation with Visual Attention