발표자: 김은솔 (서울대 박사과정) 발표일: 2017.6. 2010년 9월부터 서울대 컴퓨터공학부 석박사 통합과정에 재학 중이며, 2014년 6월 젊은 여성과학자로 선정되었다. 개요: 본 발표에서는 사람과 기계가 컨텐츠를 같이 시청하고 컨텐츠의 내용에 대해 자연 언어로 묻고 답할 수 있는 기계 학습 엔진을 소개한다. Hierarchical multimodal recurrent neural network 기술을 기반으로 컨텐츠에 포함된 이미지, 자막(텍스트), 소리 정보를 sequential하게 결합하여 multimodal episodic memory를 구축하고, 주어진 질문에 필요한 memory를 선택하여 답을 추출할 수 있는 방법을 소개한다. 또한 recurrent neural network으로 multimodal memory를 구축할 때에 long-term sequence를 효율적으로 학습하기 위한 방법으로, reinforcement learning 아이디어를 결합한 방법을 소개한다.