SW/인공지능

인공지능 : image caption : 원리, 개념, 방법

얇은생각 2019. 7. 23. 07:30
반응형

딥 러닝에서의 이미지 캡션

이미지 캡션은 이미지의 텍스트 설명을 생성하는 과정입니다. 그것은 캡션을 생성하기 위해 자연언어 처리와 컴퓨터 비전을 모두 사용합니다.


인공지능 : image caption : 원리, 개념, 방법


데이터 세트는 [이미지 → 캡션] 형태로 이루어질 것입니다. 데이터 세트는 입력 이미지와 해당 출력 캡션으로 구성됩니다.




네트워크 토폴로지

인공지능 : image caption : 원리, 개념, 방법





인코더

Convolutional Neural Network(CNN)는 인코더로 생각할 수 있습니다. 입력 이미지는 특징을 추출하기 위해 CNN에 주어집니다. CNN의 마지막 은닉 상태는 디코더와 연결되어 있습니다.




디코더

디코더는 단어 레벨까지 언어를 모델링하는 반복 신경망입니다. 첫 번째 단계는 인코더와 <START> 벡터로부터 인코딩된 출력을 수신합니다.




훈련

훈련 중 디코더가 전에 실수를 했더라도 매 시간마다 디코더에 정확한 입력이 주어집니다.




테스트

영상 표현은 디코더의 첫 번째 단계에 제공됩니다. x1 =<START> 벡터를 설정하고 첫 번째 단어 y1에 대한 분포를 계산하십시오. 분포에서 단어를 샘플링하고, 벡터를 x2로 설정한 후, <END> 토큰이 생성될 때까지 이 과정을 반복합니다.


테스트 중, time t에서 디코더의 출력이 피드백되어 time t+1에서 디코더의 입력이 됩니다.

반응형