국내 연구진이 시각 능력을 갖는 로봇을 만들 수 있는 인공지능 기술을 개발했다.
장병탁 서울대 컴퓨터공학부·인지과학연구소 장병탁 교수 연구진은 영상을 보고 음성으로 질의 응답하는 인공지능 기술을 개발했다고 12일 밝혔다.
연구진은 딥러닝 신경망을 학습시키기 위해 20만장의 사진과 76만 개의 질의응답 쌍으로 구성된 데이터를 이용해 음성입출력 기술과 기존 딥러닝이 결합된 ‘다중모달 잔차 신경망(MRN·Multimodal Residual Network)’을 개발했다. 가령 이 신경망을 적용한 로봇에게 휴대폰을 보여주고 이 물건이 무엇인지 맞히라고 하면 ‘휴대폰’이라는 대답을 얻을 수 있다. 연구진은 “그동안의 질의응답 기술과 달리 세계 최초로 영상을 보여주고 그 내용에 대해 음성언어로 질문하고 답하는 기술을 개발한 것”이라며 “여러 분야에서 활용될 가능성이 높다”고 말했다.
장 교수는 “어린이 학습에 응용할 수도 있고 시각 장애가 있는 사람에게 주변 정보나 소셜 미디어 정보를 알려줄 수 있다”며 “또 대용량의 방송 정보나 감시카메라 촬영 내용을 조건에 따라 빠르게 검색할 수 있어 사람과 의사소통할 수 있는 인공지능 비서와 같은 로봇 기술로도 응용할 수 있다”고 덧붙였다. 이번 연구
관련 연구 논문은 12월 6일(현지시간) 스페인 바르셀로나에서 개최된 제30회 신경정보처리시스템 국제학회(NIPS 2016)에서 발표됐다.
[원호섭 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]