손목에 찬 작은 스마트워치는 하루 종일 우리의 일상을 기록하는 충실한 서기이다. 우리가 몇 걸음을 걸었는지 심장 박동은 얼마나 고른지 밤에는 얼마나 깊이 잠들었는지 기기는 1분 1초를 놓치지 않고 수치로 저장한다. 하지만 이렇게 하루하루 쌓인 데이터는 1년이 지나면 수백만 줄의 방대한 엑셀 표로 변해버린다. 매일의 기록을 단순히 숫자로만 나열해서는 내 몸에 어떤 변화가 일어나고 있는지 전체적인 흐름을 파악하기가 매우 어렵다. 이러한 개인 건강 데이터를 가장 직관적으로 가공하고 보여주는 시각화 기법이 바로 캘린더 히트맵이다. 캘린더 히트맵은 1년 365일을 작은 네모 칸으로 쪼개어 우리가 흔히 보는 달력 모양의 격자로 배치한다. 그리고 매일의 데이터 수치에 따라 네모 칸의 색상을 다르게 칠한다. 예를 들어 목표 걸음 수를 달성한 날은 짙은 초록색으로 걷지 않은 날은 옅은 연두색이나 빈칸으로 남겨두는 식이다. 색상의 진하기만으로 그날의 활동량을 한눈에 알 수 있게 가공한 것이다. 이 시각화 화면을 띄워보면 숫자로 볼 때는 결코 알 수 없었던 내 삶의 패턴이 선명하게 드러난다. 특정 요일마다 수면 시간이 부족해져 색상이 옅어진다거나 겨울철에 유독 활동량이 줄어들어
우리가 매일 걷는 골목길이나 퇴근길은 과연 범죄로부터 얼마나 안전할까. 과거에는 경찰서의 캐비닛에 쌓인 종이 문서나 엑셀 표의 딱딱한 숫자들만으로는 우리 동네의 진짜 치안 상태를 직관적으로 파악하기 어려웠다. 하지만 언제, 어디서, 어떤 종류의 사건이 발생했는지에 대한 방대한 범죄 데이터를 지리 정보와 결합해 화면 위에 그려내는 공간 정보 시각화 기술이 도입되면서 치안의 패러다임이 바뀌고 있다. 범죄 데이터를 공간 정보로 가공할 때 가장 널리 쓰이는 시각화 기법은 핫스팟 지도이다. 수만 건의 범죄 발생 위치 데이터를 지도 시스템의 X와 Y 좌표로 변환한 뒤 범죄가 자주 일어나는 밀집 구역을 온도의 높낮이처럼 색상으로 표현하는 방식이다. 사건이 집중된 위험 지역은 붉은색으로 칠해지고 상대적으로 안전한 지역은 푸른색이나 녹색으로 칠해진다. 수천 장의 조서나 통계청 자료를 읽지 않아도 이 지도 한 장만 띄우면 어느 골목이 취약한지 단번에 눈으로 확인할 수 있다. 이렇게 가공된 범죄 시각화 지도는 단순히 과거의 기록을 보여주는 데 그치지 않고 미래의 범죄를 예방하는 강력한 무기가 된다. 한정된 경찰 인력을 붉게 표시된 핫스팟 구역에 집중적으로 배치하여 순찰의 효율성
선거철이 되면 뉴스 화면에는 붉은색과 푸른색으로 물든 전국 지도가 어김없이 등장한다. 하지만 우리가 흔히 보는 지리적 지도는 종종 민심을 읽는 데 착시 현상을 일으킨다. 인구 밀도가 낮고 면적이 넓은 산간 지역은 지도에서 엄청나게 큰 비중을 차지하는 반면 수백만 명의 유권자가 밀집한 대도시는 아주 작은 점처럼 보이기 때문이다. 면적이 넓은 정당이 마치 선거에서 압승을 거둔 것처럼 보이지만 실제 득표수는 전혀 다를 수 있다. 이러한 정보의 왜곡을 막기 위해 등장한 시각화 기법이 바로 카토그램이다. 카토그램은 지리적인 실제 면적이 아니라 인구수나 유권자 수 같은 특정 데이터의 크기에 비례하도록 지도의 크기를 인위적으로 왜곡하여 가공한 지도이다. 쉽게 말해 사람이 많이 사는 도시는 풍선처럼 크게 부풀리고 사람이 적게 사는 넓은 지역은 홀쭉하게 쪼그라뜨리는 방식이다. 이 지도를 보면 땅의 크기가 아니라 진짜 사람의 표심이 어디에 얼마나 모여 있는지 그 무게감을 직관적으로 파악할 수 있다. 이처럼 지도를 왜곡하기 위해서는 고도의 데이터 가공 과정이 필요하다. 각 행정구역의 지리적 좌표 데이터와 인구 통계 데이터를 결합한 뒤 이웃한 지역끼리의 경계선을 최대한 유지하면서
운전대에서 손을 떼고 도로를 달리는 자율주행 자동차는 더 이상 영화 속 상상이 아니다. 스스로 차선을 변경하고 신호등을 인식하며 보행자를 피해 멈춰 서는 자동차의 핵심은 세상을 정확하게 인지하는 눈을 가지는 것이다. 일반적인 카메라 렌즈만으로는 밤눈이 어둡거나 갑작스러운 역광에 취약하다는 한계가 있다. 이 한계를 극복하고 자율주행차에 완벽한 시야를 제공하는 기술이 바로 라이다 센서와 데이터 시각화이다. 라이다 센서는 빛을 쏘아 올려 그것이 물체에 부딪혀 돌아오는 시간을 측정해 거리를 계산하는 장치이다. 자동차 지붕이나 범퍼에 장착된 라이다는 1초에 수백만 번의 레이저 펄스를 360도 전 방향으로 발사한다. 이때 돌아오는 레이저의 신호들은 엑셀 표와 같은 단순한 수치 데이터가 아니라 공간상의 좌표를 가진 무수히 많은 점의 형태로 수집된다. 이 거대한 점들의 집합을 데이터 과학에서는 포인트 클라우드라고 부른다. 하지만 수백만 개의 점이 입력되었다고 해서 인공지능이 즉시 눈앞의 물체가 사람인지 가로수인지 구분할 수 있는 것은 아니다. 안전한 주행을 위해서는 이 점들을 3차원 입체 지도로 가공하여 시각화하는 과정이 필수적이다. 포인트 클라우드 데이터를 시각화 화면에
어젯밤에 주문한 물건이 오늘 아침 문 앞에 도착해 있는 마법 같은 일상은 이제 우리에게 익숙하다. 이토록 빠르고 정확한 배송의 이면에는 밤낮없이 달리는 택배 차량뿐만 아니라 전국 단위로 발생하는 거대한 물류 데이터를 수집하고 분석하는 치열한 과정이 숨어 있다. 수백만 개의 택배 상자가 바코드를 찍고 물류 센터를 통과할 때마다 방대한 위치 데이터와 시간 데이터가 생성되며 이를 가공하여 눈에 보이는 지도로 만든 것이 바로 흐름 맵이다. 흐름 맵은 지도 위에 물체의 이동 경로를 선으로 그려내는 시각화 기법이다. 택배가 출발하는 지역과 도착하는 지역을 선으로 연결하고 그 선의 굵기나 색상을 통해 이동하는 물동량의 규모를 직관적으로 나타낸다. 예를 들어 수도권의 거대한 메가 허브 터미널에서 각 지역의 소규모 터미널로 뻗어나가는 선은 아주 굵고 진하게 표시되며 반대로 물량이 적은 외곽 지역으로 향하는 선은 가늘게 그려진다. 물류 기업들은 매일같이 쏟아지는 원시 데이터를 가공하여 이 흐름 맵을 모니터링한다. 화면에 띄워진 지도를 보면 어느 노선에 택배 물량이 과도하게 집중되어 병목 현상이 발생할 위험이 있는지 단번에 파악할 수 있다. 만약 특정 고속도로 구간이나 터미널을
블록체인은 누구나 열람할 수 있는 투명한 디지털 장부이다. 은행 같은 중앙 기관 없이도 참여자 모두가 거래 내역을 공유하고 검증하기 때문에 데이터의 위조나 변조가 사실상 불가능하다. 하지만 이 투명한 장부를 직접 들여다보면 일반인은 도저히 이해하기 어려운 암호화된 문자와 숫자의 나열뿐이다. 데이터가 모두에게 공개되어 있다는 것과 그 데이터를 쉽게 이해할 수 있다는 것은 완전히 다른 문제이다. 수많은 암호화폐 지갑 사이에서 1초에도 수천 번씩 일어나는 거래 즉 트랜잭션 데이터를 의미 있는 정보로 바꾸기 위해서는 고도의 데이터 가공과 시각화 과정이 필요하다. 복잡하게 얽힌 블록체인 원장 데이터를 추출하고 분석하여 누가 누구에게 얼마를 보냈는지 그 흐름을 추적하는 것이다. 이때 가장 널리 사용되는 시각화 기법이 바로 점과 선으로 이루어진 네트워크 그래프이다. 네트워크 그래프에서 하나의 점은 개별 암호화폐 지갑 주소를 의미하고 점과 점을 연결하는 선은 거래의 흐름을 나타낸다. 선의 굵기를 통해 거래된 금액의 크기를 직관적으로 보여주고 색상을 다르게 하여 특정 거래소로 유입되는 자금인지 밖으로 빠져나가는 자금인지 구분할 수도 있다. 수만 줄의 암호화된 텍스트 데이터가
인간의 몸을 구성하는 가장 기본적인 설계도인 DNA는 아데닌, 티민, 구아닌, 시토신이라는 네 가지 염기의 배열로 이루어져 있다. 인간의 유전체는 약 30억 쌍의 염기로 구성되는데 이를 텍스트로 풀어쓰면 수천 권의 백과사전에 달하는 방대한 분량이다. 이처럼 눈에 보이지 않는 거대한 생명체의 정보를 컴퓨터를 이용해 저장하고 분석하며 가공하는 학문을 생물정보학이라고 부른다. 생명과학과 데이터 과학이 만나 탄생한 첨단 융합 분야이다. 현대에는 유전자 분석 장비의 발달로 단 며칠 만에 한 사람의 유전체 데이터를 모두 읽어낼 수 있다. 하지만 기계가 읽어낸 원본 데이터는 그저 알파벳 네 개가 끝없이 나열된 복잡한 암호문과 같다. 수십억 개의 글자 속에서 질병의 원인이 되는 단 하나의 오류를 사람의 눈으로 찾아내는 것은 불가능에 가깝다. 따라서 이 복잡한 암호문 속에서 의미 있는 패턴을 찾아내기 위해서는 고도의 알고리즘을 통한 데이터 가공과 직관적인 시각화 과정이 필수적이다. 유전체 시각화는 텍스트로 이루어진 염기서열 데이터를 색상과 막대, 그리고 직관적인 기호로 변환하는 작업이다. 가장 대표적인 방법은 정상적인 유전자 배열과 분석 대상의 유전자 배열을 나란히 시각화하
현대 산업과 도시 계획에서 데이터는 더 이상 평면적인 엑셀 표나 2차원 그래프에만 머물지 않는다. 눈에 보이는 현실 세계의 기계나 공간을 컴퓨터 속 가상 공간에 입체적으로 똑같이 만들어내는 기술이 등장했는데 이를 디지털 트윈이라고 부른다. 이름 그대로 현실을 복제한 디지털 쌍둥이를 의미하며 방대한 데이터를 3차원으로 시각화하는 기술의 결정체이다. 디지털 트윈을 만들기 위해서는 실제 사물이나 공간에 수많은 센서를 부착하여 온도, 압력, 속도 등 변화하는 데이터를 실시간으로 수집해야 한다. 수집된 거대한 데이터는 정교한 가공 과정을 거쳐 컴퓨터 속 3D 모델과 하나로 연결된다. 이렇게 완성된 디지털 쌍둥이는 현실에서 벌어지는 모든 물리적인 상황을 가상 공간에서 똑같이 반영하며 살아 움직인다. 이 기술의 가장 큰 장점은 현실에서는 엄청난 비용이나 위험성 때문에 직접 해보기 어려운 실험을 가상 공간에서 마음껏 해볼 수 있다는 것이다. 예를 들어 거대한 자동차 공장을 짓기 전에 가상 공간에 공장을 먼저 구축해보고, 로봇 팔의 동선이나 컨베이어 벨트의 속도를 이리저리 바꿔가며 시뮬레이션을 돌려본다. 이를 통해 작업이 지연되는 구간을 미리 찾아내고 효율을 극대화하는 최적
우리가 매일 걷는 거리, 탑승하는 버스, 가로등의 위치 등 도시의 모든 움직임은 데이터로 기록된다. 정부나 지방자치단체는 이러한 정보 중 개인정보를 제외하고 누구나 자유롭게 활용할 수 있도록 개방하는데 이를 공공 데이터라고 부른다. 공공 데이터는 단순한 엑셀 파일이나 숫자의 나열에 불과할 수 있지만 데이터 가공과 시각화 기술을 만나면 세상을 바꾸는 강력한 도구로 변신한다. 가장 대표적인 사례가 심야 버스 노선의 최적화이다. 늦은 밤 시민들이 어디서 택시를 가장 많이 탔는지, 휴대전화 통화량이 어느 지역에서 집중적으로 발생했는지 보여주는 통신사의 데이터와 시의 교통 데이터를 결합하여 가공한다. 이 복잡한 정보들을 지도 위에 시각화하면 밤늦게 유동 인구가 많지만 대중교통이 부족한 사각지대가 붉은색으로 선명하게 드러난다. 이를 바탕으로 시민들이 가장 필요로 하는 노선을 새롭게 설계할 수 있다. 또한 범죄 예방을 위해 가로등이나 CCTV가 부족한 어두운 골목길을 찾아내는 데에도 공공 데이터가 쓰인다. 지역별 범죄 발생률 데이터와 조명 설치 데이터를 겹쳐서 분석하면 어느 곳에 우선적으로 가로등을 설치해야 할지 객관적인 근거가 마련된다. 과거에는 민원이 들어와야만 수동
우리가 매일 인터넷에 남기는 댓글, 쇼핑몰의 상품 후기, 소셜 미디어의 짧은 글들은 모두 소중한 데이터이다. 하지만 이런 글들은 숫자로 딱 떨어지는 표와 달리 형태나 규칙이 정해져 있지 않다. 이처럼 일정한 규격이 없는 데이터를 비정형 데이터라고 부른다. 컴퓨터는 숫자는 계산하기 쉽지만 사람의 복잡한 언어는 바로 이해하지 못한다. 그래서 이 거친 비정형 데이터를 컴퓨터가 이해할 수 있는 형태로 다듬고 길들이는 과정이 필요한데 이를 텍스트 마이닝이라고 한다. 텍스트 마이닝의 대표적인 활용 방법 중 하나가 바로 감성 분석이다. 수만 개의 상품 리뷰를 사람이 일일이 읽고 좋은지 나쁜지 판단하려면 엄청난 시간이 걸릴 것이다. 하지만 감성 분석 기술을 활용하면 텍스트 속의 단어들을 분석해 사람들이 긍정적인지, 부정적인지, 혹은 중립적인 감정을 느끼는지 순식간에 분류할 수 있다. 예를 들어 최고, 추천, 만족 같은 단어가 많으면 긍정으로 분류하고 최악, 실망, 환불 같은 단어가 나오면 부정으로 파악하는 원리이다. 이렇게 가공된 감성 데이터는 파이 차트나 막대그래프 등 다양한 형태로 시각화되어 나타난다. 기업은 이 시각화된 자료를 보고 새롭게 출시한 상품에 대한 대중의
현대 사회에서 데이터는 멈춰 있는 정물이 아니라 끊임없이 흘러가는 강물과 같다. 주식 시장의 주가 변동, 도로 위의 교통 상황, 날씨의 변화, 심지어 전 세계의 소셜 미디어 트렌드까지 모든 정보는 1초가 다르게 변한다. 이렇게 시시각각 쏟아지는 방대한 데이터를 수집하고 가공하여 한 화면에 직관적으로 보여주는 시스템을 실시간 대시보드라고 부른다. 대시보드라는 단어는 원래 자동차나 비행기의 조종석 앞부분에 있는 계기판을 의미한다. 운전자가 속도, 연료량, 엔진 상태 등을 한눈에 확인하고 안전하게 운전할 수 있도록 돕는 장치이다. 데이터 과학에서 말하는 대시보드 역시 이와 같은 역할을 한다. 수많은 데이터의 현재 상태와 변화 흐름을 꺾은선 그래프, 파이 차트, 신호등 색상 등 다양한 시각화 도구를 활용해 요약해서 보여주는 상황판인 것이다. 실시간 대시보드는 단순히 데이터를 예쁘게 꾸미는 것을 넘어 신속한 의사결정을 돕는 데 핵심적인 목적이 있다. 예를 들어 전염병 통제 센터의 대시보드는 지역별 확진자 수와 병상 가동률을 실시간으로 보여주어 위기 상황에 즉각적으로 대처할 수 있게 한다. 또한 쇼핑몰 운영자는 현재 어느 상품이 가장 많이 팔리고 있는지, 웹사이트 접속
주말에 스마트폰으로 영상 하나를 클릭했을 뿐인데, 정신을 차려보니 서너 시간이 훌쩍 지나간 경험이 누구나 한 번쯤은 있을 것이다. 내가 좋아할 만한 영상을 귀신같이 찾아내 계속해서 보여주는 이 마법 같은 기술의 정체는 바로 '추천 알고리즘'이다. 도대체 컴퓨터 프로그램이 어떻게 나보다 내 취향을 더 잘 알고 있는 것일까. 가장 대표적인 원리는 '비슷한 취향을 가진 사람들을 연결하는 것'이다. 이를 데이터 과학 용어로 '협업 필터링'이라고 부른다. 원리는 간단하다. 만약 학생 A와 학생 B가 평소에 비슷한 게임 영상을 즐겨 봤다고 가정해 보자. 그런데 학생 B가 최근에 새로 나온 요리 예능 영상을 아주 재미있게 끝까지 시청했다. 그러면 알고리즘은 A와 B의 취향 패턴이 비슷하다는 것을 근거로, A에게도 그 요리 영상을 슬며시 추천 목록에 띄운다. 나와 비슷한 행동 패턴을 보인 수만 명의 데이터를 분석해, 내가 좋아할 확률이 높은 미지의 콘텐츠를 골라내는 방식이다. 하지만 단순히 어떤 영상을 클릭했는지만 보는 것은 아니다. 알고리즘은 훨씬 더 정교한 데이터를 수집한다. 영상을 클릭하고 나서 10초 만에 껐는지 아니면 끝까지 시청했는지, 영상을 보다가 잠시 멈췄는
요즘 우리는 '빅데이터'라는 말을 매일 듣는다. 수천만 명의 구매 기록이나 검색어 순위 같은 방대한 데이터가 세상을 바꾼다고 한다. 하지만 거대한 데이터의 파도 속에서 정작 중요한 단서를 놓치는 경우가 있다. 이때 필요한 것이 바로 '스몰 데이터'이다. 빅데이터가 '거대한 숲'을 보여준다면, 스몰 데이터는 '나무 한 그루'의 상태를 자세히 보여주는 돋보기와 같다. 빅데이터는 우리에게 '무엇'이 일어났는지 알려준다. 예를 들어 특정 운동화의 판매량이 갑자기 줄었다는 사실을 알려주는 식이다. 하지만 '왜' 줄었는지는 명확히 말해주지 않는다. 이때 데이터 분석가는 고객의 일상을 직접 관찰하는 스몰 데이터를 수집한다. 관찰 결과, 운동화 끈이 너무 잘 풀려서 불편해하는 고객의 사소한 행동을 발견할 수 있다. 이 작은 단서 하나가 디자인을 수정하고 다시 판매량을 올리는 핵심 열쇠가 된다. 실제로 유명한 레고(LEGO) 사도 한때 위기를 겪었으나, 아이들이 낡은 운동화를 자랑스러워하는 모습이라는 스몰 데이터에서 힌트를 얻었다. 아이들은 어려운 도전을 극복하고 성취감을 느끼길 원한다는 사실을 깨닫고, 더 복잡하고 정교한 블록을 만들어 재기에 성공했다. 이처럼 숫자의 양이