박병록의 미래보고서4 – 매년 발생하는 개인정보유출과 빅데이터의 실체 1

은행, 금융, 마트, 보험, 포털 등에 제공된 본인의 개인정보가 안전하다고 생각합니까? 그러면 얼마나 안전할까요?

개인 사생활 보호와 개인정보에 민감한 미국은 1974년 개인정보 보호법을 제정하였다. 이렇게 법으로 개인정보를 보호하는 미국은 개인정보가 유출되지 않게 안전하게 보관하고 있을까요?

대답은 “안전하지 않고 안심할 수 없다.”라는 것을 알려주고 싶다.

개인정보유출의 유형은 크게 두 가지로 나눠볼 수 있다. 한가지는 외부의 해커가 회사 내부 전산시스템이나 기업의 서버가 보관되고 운영되는 대규모 데이터센터를 침입하여 각종 데이터를 해킹해서 가져가고 전산시스템이나 서버를 컴퓨터바이러스로 감염시켜 복구불능상태로 만들기도 한다. 다른 한가지는 기업의 이익을 위해 수단과 방법을 가리지 않는 부도덕한 기업의 대표나 돈의 유혹에 눈이 먼 기업 내부 임직원들이 고객의 데이터(개인정보)를 의도적으로 추출하여 돈을 받고 판매한다.

미국 분야별 개인정보유출사고 현황을 보면, 메디컬•헬스케어 42.5%, 비즈니스 33%, 정부•군 11.7%, 교육, 금융 순으로 유출되고 있다. 메디컬•헬스케어 의료분야의 개인정보 유출이 높은 이유는 뭘까?

의료분야의 개인정보는 해커나 내부 유출자들(임직원들) 모두에게 돈이 되기 때문이다. 우선 개인 의료기록은 보험 상품 및 진료 위치 추적 등의 용도로 활용될 수 있고 처방 약품 시장현황, 매출추이 분석, 주요 질병 발생추이 등 다양한 형태로 가공된 정보들은 특히 글로벌 제약사 영업 전략과 신약 개발방향 등을 수립하는데 반드시 필요한 중요한 정보다. 따라서 개인 의료기록은 제약사들이 거액을 들여서라도 꼭 확보하고자 하는 매우 부가가치가 높은 고급정보인 것이다.

해커들이 개인 정보를 거래하는 암시장에서 신용카드 번호는 5 ~ 20달러에 거래된다면 개인 의료정보는 그보다 10배까지 높은 50 ~ 200달러 가격에 거래된다고 한다. 이렇게 높은 금액 때문에 해킹 및 유출 시도는 지속적으로 발생할 것으로 예상된다.

최근 발생한 페이스북의 개인정보 유출 규모는 약 8,700만명으로 추정되고 있으며 특히 지난 미국 대선 당시 도널드 트럼프 후보 측과 연계됐던 데이터 회사가 8700만 명의 페이스북 이용자 개인정보를 갖고 있었을 수도 있다고 페이스북이 4월 4일 밝혔다. 이번엔 병원과 개인정보를 공유하려다 잠정 중단한 것으로 드러났다.

페이스북은 개인정보 유출 사태가 발생하고 난 후 3월에 미국 몇몇 병원 및 의료 기관에 개인정보 공유 방안을 제안하였으며, 여기에는 스탠퍼드 의대, 미국심장학회 등 주요 기관이 포함됐다. 그리고 페이스북은 이들 병원과 환자의 질병 기록, 처방 정보 등을 익명으로 공유하고, 이를 페이스북 회원 정보와 연계하는 방안을 제시했다. 이를 통해 이들 병원이 특별한 치료나 관리가 필요한 환자를 찾도록 지원하겠다는 취지였다. 하지만 페이스북 회원 수천만 명의 정보가 2016년 미 대선 당시 도널드 트럼프 캠프로 유출됐다는 논란이 불거지면서 잠정 중단됐다. 가장 크게 우려되는 문제는 페이스북이 그 동안 얼마나 많은 회원 정보를 수집해 어느 단계까지 무단으로 활용했는지를 놓고 의혹이 커지고 있다. 한국 속담처럼 믿는 도끼에 발등을 찍힌 것이다.

페이스북 이용자 개인정보 유출 사태의 심각성은 미국 사회의 개인정보보호법이 제대로 지켜지지 않고 있으며 신뢰할 수 없는 기업과 불안전한 환경에 처해있음을 알 수 있다. 미 의회의 마크 저커버그 페이스북 CEO 청문회에서 모든 의원이 예외 없이 ‘우리가 동의하지도 않았고, 전혀 알지 못한 상황에서 우리의 개인정보가 유출되고 있다’는 점을 지적하였다.

그러면 개인정보 유출이 페이스북만의 문제일까?

2017년에 밝혀진 야후의 30억명 개인정보 유출사건은 야후와 야후가 보유한 텀블러, 플럭커 등의 사용자 30억명의 개인정보가 유출된 것으로 밝혀졌고 세계 최대 규모의 해킹으로 인한 정보 유출 사건이다.

검색엔진으로 성장한 구글은 수집하는 정보의 양, 사이트와 앱에서 보내는 시간, 정보 추적의 범위 등 여러 가지 면에서 페이스북보다 더 커다란 위협이다. 특히 계정이 없는 사람들의 웹 활동까지 추적해 그들의 정보를 수집하는 ‘그림자 프로필(Shadow Profile)’의 경우 구글이 페이스북보다 더 많은 정보를 갖고 있을 수도 있다고 WSJ는 전한다.

현재 구글 계정을 가진 이용자는 10억명 이상이고 ‘그림자 프로필(Shadow Profile)’과 비교할 수 없을 정도로 개인정보를 추적하고 있다. 구글은 2016년 서비스 약관을 변경해 엄청난 양의 추적 광고 데이터를 구글 계정의 개인 식별 정보와 통합할 수 있도록 만들었고 연령, 성별과 같은 인구통계학적 정보와 모든 인터넷 검색 기록뿐 아니라 우리가 설치한 앱을 통해 실생활에서 쇼핑한 자료까지 분석할 수 있다. 그리고 ‘교차 기기 추적’ 기법을 사용하는 구글은 이용자가 (스마트폰, PC, 태블릿 등) 어떤 기기를 사용하든 그들을 발견해 정보를 추적한다.

구글이 주요 서비스를 통해 여러분의 정보를 14개 서비스와 23개의 종류별로 다양하게 수집하고 있다. 앞으로 이 숫자는 점점 늘어날 전망이다.

4천 명에 달하는 미국의 데이터 중개상들과 일하고 있는 구글은 인종, 종교, 성적 취향, 건강과 같은 민감한 정보는 사용하지 않는다고 말하지만 임신, 이혼, 다이어트 등 모든 정보를 알고 있으며 맞춤형 광고를 하기 위해서 정보를 수집하고 있다고 말한다.

데이터 중개상들은 구글이 수집한 정보를 보험사, 기업 등 관심 대상자에게 판매한다. 그리고 구글의 데이터 수집은 전 세계 20억개 이상의 안드로이드 휴대전화를 통해서도 가능하다.

개인정보 유출에서 가장 큰 문제는 페이스북이나 구글 모두 사업 모델이 사생활 침해에 맞춰져 있다는 것이며 계정을 가진 전세계인의 공동 문제이고 심각성이 우려되는 부분이다.

페이스북, 구글과 같은 전세계인을 회원으로 가지고 있는 글로벌기업은 고부가가치를 창출하는 돈이 되는 정보를 생산하고 유통하고자 한다. 이를 해결해주는 기술은 4차산업혁명의 대표기술인 빅데이터이다.

빅데이터는 일반적으로 수십~수천 테라바이트(TB)의 거대한 크기를 가지고 다양한 유형(정형, 비정형 등) 구조를 가지고 있으며 관리와 분석이 어려운 데이터의 집합을 빅데이터라고 하며 컨설팅 및 조사기관별로 빅데이터 정의에 있어서 차이가 있다.

맥킨지는 일반적인 데이터베이스 관리시스템(DBMS)으로 저장, 관리, 분석할 수 있는 범위를 초과하는 대규모 데이터, IDC는 다양한 종류의 대규모 데이터로부터 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술, 가트너는 대용량, 빠른 속도, 다양성 높은 정보 자산 등으로 정의를 하고 있다.

빅데이터의 기술이 발전하면 글로벌기업들은 고객과 회원의 정보를 가지고 고부가가치 정보 생산과 더 많은 수익창출에 지금보다 더욱 매진하는 악순환을 반복할 수도 있다.

다음주에는 산업분야별 북미의 대규모 개인정보유출 사건과 한국의 반복되는 대규모 개인정보유출 사건을 통해 개인과 사회에 미치는 영향 및 피해를 살펴보고 빅데이터 이해, 동향, 기술현황, 전망, 활용사례, 빅데이터의 문제점과 리스크에 대해 이야기해보고자 한다.