인공지능(AI) 챗봇 '이루다'를 개발한 스타트업 스캐터랩이 "알고리즘으로 실명 필터링을 거쳤는데, 문맥에 따라 이름이 남아있는 부분이 있었다"고 인정하면서 사과했습니다.
스캐터랩은 오늘(12일) 오후 보도자료를 통해 "이루다는 '연애의 과학'의 텍스트 데이터를 학습했다"며 "발화자 이름 등 개인정보는 삭제했다"고 밝혔습니다.
연애의 과학은 연인과 나눈 카카오톡 대화를 집어넣으면 답장 시간 등의 대화 패턴을 분석해 애정도 수치를 보여주는 앱으로 스캐터랩이 2016년 출시했습니다.
스캐터랩은 연애의 과학으로 수집한 카톡 대화 약 100억건을 데이터로 삼아 이루다를 개발했다고 밝혀왔습니다.
연애의 과학 이용자들은 스캐터랩이 카톡 대화를 수집하면서 이루다 같은 챗봇 개발에 쓴다고 명확히 알리지 않았고, 익명 처리도 제대로 하지 않았다면서 집단소송을 추진하고 있습니다.
이날 자료에서 스캐터랩은 "이루다는 회원 정보와 연계돼있지 않은 별도 데이터베이스(DB)에 수록돼있는 문장으로 이용자에게 응답한다"며 "DB 문장을 조합해 개인을 특정하는 것은 불가능하다"고 설명했습니다.
연애의 과학으로 카톡 대화 약 100억건을 수집했고 이중 이루다에 쓸만한 문장 1억건을 추려서 별도 DB를 만들었으며, 1억개 문장은 익명화를 거쳐 독립적인 형태로 저장됐기 때문에 이루다의 발언을 조합해서 개인을 특정할 수는 없다는 설명입니다.
그러나 스캐터랩은 "개별 문장 단위 대화 내용의 실명·영문·숫자 등의 정보는 알고리즘과 필터링으로 삭제했는데, 문맥에 따라 인물 이름이 남아있는 등의 부분이 발생했다"며 "더욱 세심히 주의를 기울이지 못했다"며 사과했습니다.
스캐터랩은 "서비스 출시 이후 민감할 수 있겠다고 판
이들은 "실명·주소 필터링 알고리즘 강화, 대화 데이터 랜덤 변형을 통한 비식별화 강화, 민감 정보 노출 방지 알고리즘 전면적 개선 등을 업데이트할 예정"이라고 강조했습니다.
[디지털뉴스부]