![]() |
그러나 올해 들어 알파고로 대표되는 인공지능, 다보스포럼을 통해 아젠다로 자리잡은 4차산업혁명 등이 대두됨에 따라 빅데이터를 바라보는 시각 자체에도 미묘한 변화가 생겼다. 빅데이터 분석이 일반 소비자들의 반응을 파악하는 등 사후 평가에 사용되는 것을 넘어 생산 단계에도 직접 영향을 미치게 된 것이다. 이에 따라 빅데이터 업계도 변화해야 한다는 지적이 나오고 있다.
호튼웍스는 빅데이터를 탄생시킨 기술인 ‘하둡’ 부문에서 전세계 3대 전문업체로 꼽히는 회사다. 빅데이터의 시작부터 함께 해온 기술 회사로 현 빅데이터의 흐름을 어떻게 보고 있는지 제프 마크햄(사진) 아태지역 부사장과 서면인터뷰를 통해 의견을 들어봤다. 제프 마크햄은 IBM, 레드햇, VMware 등 여러 IT 회사에서 재직하다 호튼웍스에 합류했으며 국내에서는 경기도 빅파이 미래전략위원회에 참가하는 등 한국과도 친숙한 인물이다.
◆ 올해 전격 부상한 인공지능, 4차산업혁명은 빅데이터를 바라보는 시각 자체를 바꿔놓고 있습니다. 빅데이터 분석이 기업의 생산 활동과 직접 연결됨을 보여주는 상징적인 개념들이니까요. 빅데이터 솔루션 업체에는 이같은 변화를 어떻게 보고 있습니까?
- 정보기술(IT) 업계는 빠르게 움직이고 있습니다. 하둡, 아파치 스파크가 등장하면서 데이터 사이언스와 기계학습의 판도를 바꿨습니다. GE, 슈나이더, 로크웰 오토메이션 등 산업 자동화 회사들은 기계학습이 적용된 클라우드를 사용해 데이터 보관 주기를 늘리고, 정확하게 예측하며, 비용을 줄이고 있습니다.
호튼웍스는 하둡 위에서 작동되는 오픈소스 데이터 운영체제인 ‘얀’을 만들어 기술 변화에 대응하고 있습니다. 얀은 다양한 데이터 응용 프로그램들을 하둡 위에서 작동시킵니다. 또 오냐라라는 스타트업을 인수해 4차산업혁명의 핵심 기술 중 하나인 사물인터넷(IoT)의 데이터를 분석을 통해 통찰로 바꿔주는 기술을 보유했습니다. 우리의 전략은 현재 IT 업계의 요구에 부응하고 있으며 그 결과 호튼웍스도 기업용 소프트웨어 역사상 가장 빠르게 성장하고 있습니다.
◆ 최근 빅데이터 분석, 머신 러닝 등에서 나온 의미있는 성과는 대부분 막대한 데이터를 보유한 인터넷 기업들에게 나오고 있습니다. 구글의 알파고가 대표적인 사례인데요, 이는 기업들에게 프라이빗 클라우드보다는 퍼블릭 클라우드를 사용하도록 유도하고 있다고 생각합니다. 이같은 주장에 동의하는지요.
- 알파고의 바둑 승리는 인터넷 기업인 구글의 기술력을 보여주는 사례입니다. 여기서도 알 수 있듯이 퍼블릭 클라우드는 빠르게 확산될 것입니다. 하지만 기업들은 민감한 데이터도 보유하고 있습니다. 다른 회사의 손에 맡기기 곤란한 데이터입니다. 따라서 프라이빗 클라우드도 향후 계속 유지될 것이며 둘을 함께 사용하는 하이브리드 클라우드가 일반적인 사용 형태가 될 것으로 예상합니다.
여기서 경쟁력은 클라우드에 빅데이터 기술을 얼마나 깊이 적용하느냐이겠지요. 호튼웍스는 마이크로소프트와 협력해 퍼블릭 클라우드인 애저에 적용되는 MS HD인사이트를 공동 개발했고 프라이빗 클라우드 업체인 피보탈과도 협업하고 있습니다.
◆ 4차산업혁명의 기반이 되는 IoT에서는 센서를 이용한 데이터의 수집, 저장, 분석이 필수입니다. 특히 이전과 다른 부분에서는 데이터의 수집인데요, 몇몇 기업들이 이렇게 수집되는 데이터의 형식에 많은 관심을 보이고 있습니다. 데이터 형식(포맷)이 정의가 되면 이후 저장과 분석에 큰 영향을 끼칠 것이라고 보는데 어떻게 대응하고 있습니까?
- 우리는 센서로 수집되는 데이터의 실시간 분석 솔루션을 보유하고 있습니다. 바로 호튼웍스 데이터플로(HDF)로 사물인터넷 장비와 지역 데이터 센터, 중앙 데이터 센터 간의 통신을 중계하는 플랫폼입니다. 소셜 미디어, 생체 정보, 로그 파일, 영상 파일, 음향 파일, 웹 서비스, 사물인터넷 데이터 형식을 모두 지원하며 지구적 규모의 데이터 흐름을 실시간으로 다룹니다. 다른 빅데이터 솔루션인 호튼웍스 데이터 플랫폼(HDP)은 저장 데이터용 플랫폼으로 데이터를 읽는 시점에서 형식을 결정하는 스키마 온 리드 방식으로 다양한 종류의 데이터를 읽고 씁니다.
◆ 빅데이터를 언급할 때 이제 빼놓을 수 없는 것이 인공지능입니다. 상상하지도 못했던 대용량의 데이터를 분석함으로써 그동안 인간의 영역으로 간주됐던 감정의 영역을 컴퓨터가 자동으로 만들어내는 수준까지 도달했습니다. 특히 한국에서는 알파고가 이세돌 9단을 꺾는 장면을 직접 목격하면서 인공지능, 나아가 빅 브라더에 대한 우려와 공포가 상대적으로 더 큽니다. 빅데이터의 기반 인프라를 제공하는 업체로서 이같은 논쟁에 대해 어떻게 생각하는지요?
- 빅데이터 오용에 대한 공포는 매우 자연스럽습니다. 누구도 자신의 사생활이 다른 이들에게 알려지기를 원하지 않기 때문입니다. 수도, 전기, 공장은 이제 친숙한 기술이지만 초기에는 많은 희생자를 낳았습니다. 혁신가들은 끊임없이 고민해 소독, 절연, 캠페인 등 안전장치들을 만들었습니다. 빅데이터의 혁신가들도 책임감을 가지고 부작용을 최소화할 안전장치들을 만들어야 합니다.
이같은 기술로는 비식별화, 데이터 보안을 들 수 있습니다. 호튼웍스를 포함해 여러 빅데이터 생태계 회사들이 이같은 기술을 공동 개발해 오픈소스 형태로 공개하고 있습니다. 금융, 의료, 유통 등 개인 정보를 다루는 기업들은 이런 보안 기능들을 사용하여 데이터를 안전하게 저장하고 처리할 수 있습니다.
◆ 빅데이터 분석으로 얻는 통찰력의 실행에 있어서는 사실 대기업보다 스타트업이 더 적합합니다. 반면 빅데이터 분석 자체는 거대한 데이터와 대규모 시스템이 필요하다는 점에서 대기업에게 어울리는 솔루션이기도 합니다. 이같은 아이러니를 해결할 수 있는 방법은 없을까요?
- 대기업의 전통적인 조직에서는 통계, 전산, 관리 전문가의 역할 별로 부서를 만들면서 각 부서간 장벽으로 소통이 어렵습니다. 이걸 먼저 해결해야겠죠. 반대로 스타트업에서는 프로젝트 주제별로 각 역할을 하는 인원들을 모아 독립적인 데이터 사이언스 팀을 구성함으로써 빅데이터를 적용할 수 있습니다.
특히 모든 데이터를 공유하고 여러 사용자들이 여러 앱을 이용해
[디지털뉴스국 김용영 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]