개요

주요 구성 요소

1. 데이터 수집/전처리

이미지-텍스트 데이터셋

텍스트 사전 구축(텍스트 데이터 전처리)

토큰화 및 정수 인코딩

이미지 데이터 전처리

2. 모델링

이미지로부터 캡션을 생성하는 모델을 개발

Outline

(Encoder, Decoder에 사용되는 세부 모델은 추후 변경될 수 있습니다.)

(사실 저도 뭘 써야할 지 모룸..😉 같이 연구해 보아요오?)

[출처] Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

[출처] Show, Attend and Tell: Neural Image Caption Generation with Visual Attention