반응형
딥 러닝에서의 이미지 캡션
이미지 캡션은 이미지의 텍스트 설명을 생성하는 과정입니다. 그것은 캡션을 생성하기 위해 자연언어 처리와 컴퓨터 비전을 모두 사용합니다.
데이터 세트는 [이미지 → 캡션] 형태로 이루어질 것입니다. 데이터 세트는 입력 이미지와 해당 출력 캡션으로 구성됩니다.
네트워크 토폴로지
인코더
Convolutional Neural Network(CNN)는 인코더로 생각할 수 있습니다. 입력 이미지는 특징을 추출하기 위해 CNN에 주어집니다. CNN의 마지막 은닉 상태는 디코더와 연결되어 있습니다.
디코더
디코더는 단어 레벨까지 언어를 모델링하는 반복 신경망입니다. 첫 번째 단계는 인코더와 <START> 벡터로부터 인코딩된 출력을 수신합니다.
훈련
훈련 중 디코더가 전에 실수를 했더라도 매 시간마다 디코더에 정확한 입력이 주어집니다.
테스트
영상 표현은 디코더의 첫 번째 단계에 제공됩니다. x1 =<START> 벡터를 설정하고 첫 번째 단어 y1에 대한 분포를 계산하십시오. 분포에서 단어를 샘플링하고, 벡터를 x2로 설정한 후, <END> 토큰이 생성될 때까지 이 과정을 반복합니다.
테스트 중, time t에서 디코더의 출력이 피드백되어 time t+1에서 디코더의 입력이 됩니다.
반응형
'SW > 인공지능' 카테고리의 다른 글
인공지능 : 딥 러닝 : 성공 이유 (0) | 2019.07.25 |
---|---|
인공지능 : Text to Image : 텍스트를 이미지로 변환 : 기술, 원리 (1) | 2019.07.24 |
인공지능 : LSTM (Long Short Term Memory) : 개념, 원리, 방식 (0) | 2019.07.22 |
인공지능 : 기계 번역 : RBMT, SMT : 개념, 차이, 분석 (0) | 2019.07.21 |
인공지능 : 기계 번역 : 개념, 종류, 컨셉 (0) | 2019.07.20 |