Euron 6th 프로젝트 아이데이션 | Notion

개요

이미지에서 객체를 인식하고, 그에 맞는 텍스트 설명을 생성하는 시스템을 개발
또한, 생성된 캡션을 간략하게 요약하는 기능을 추가할 수 있음
- 키워드 추출 등

주요 구성 요소

1. 데이터 수집/전처리

이미지-텍스트 데이터셋

이미지와 해당 이미지에 대한 텍스트 설명이 포함된 데이터셋을 수집
예시
1. COCO Captions
  
  https://github.com/tylin/coco-caption
  
  COCO - Common Objects in Context
  - 다양한 규모의 데이터셋 존재
  - 각 이미지에 대해 5개의 캡션이 매칭됨
  - 이미지 캡셔닝 작업에서 benchmark처럼 활용되는 데이터셋
  - 코드
2. Flickr 30k Dataset
  
  Flickr Image dataset
  - 약 30000개 정도의 이미지 + 캡션 쌍으로 구성된 데이터
  - 관련 연구(paper) 등이 다수 존재 → 참고할 reference가 다양
  - 캐글에 참고할 만한 노트북들이 많음

텍스트 사전 구축(텍스트 데이터 전처리)

토큰화 및 정수 인코딩

텍스트 토큰(단어 등)을 숫자 토큰으로 전환할 수 있는 사전을 구축
- annotation/caption 내의 개별 단어를 토큰화 하거나 숫자로 전환 후 저장
- 이후 특정 횟수 이하로 발생한 토큰을 제거하고 나머지 토큰을 사전 객체에 추가

이미지 데이터 전처리

전체 이미지를 고정된 형태로 변환
- 크기 조정(reshaping)
텐서 형태로 변환
- .ToTensor()

2. 모델링

이미지로부터 캡션을 생성하는 모델을 개발

Outline

(Encoder, Decoder에 사용되는 세부 모델은 추후 변경될 수 있습니다.)

(사실 저도 뭘 써야할 지 모룸..😉 같이 연구해 보아요오?)

[출처] Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

[출처] Show, Attend and Tell: Neural Image Caption Generation with Visual Attention