우리가 매일 인터넷에 남기는 댓글, 쇼핑몰의 상품 후기, 소셜 미디어의 짧은 글들은 모두 소중한 데이터이다. 하지만 이런 글들은 숫자로 딱 떨어지는 표와 달리 형태나 규칙이 정해져 있지 않다. 이처럼 일정한 규격이 없는 데이터를 비정형 데이터라고 부른다. 컴퓨터는 숫자는 계산하기 쉽지만 사람의 복잡한 언어는 바로 이해하지 못한다. 그래서 이 거친 비정형 데이터를 컴퓨터가 이해할 수 있는 형태로 다듬고 길들이는 과정이 필요한데 이를 텍스트 마이닝이라고 한다. 텍스트 마이닝의 대표적인 활용 방법 중 하나가 바로 감성 분석이다. 수만 개의 상품 리뷰를 사람이 일일이 읽고 좋은지 나쁜지 판단하려면 엄청난 시간이 걸릴 것이다. 하지만 감성 분석 기술을 활용하면 텍스트 속의 단어들을 분석해 사람들이 긍정적인지, 부정적인지, 혹은 중립적인 감정을 느끼는지 순식간에 분류할 수 있다. 예를 들어 최고, 추천, 만족 같은 단어가 많으면 긍정으로 분류하고 최악, 실망, 환불 같은 단어가 나오면 부정으로 파악하는 원리이다. 이렇게 가공된 감성 데이터는 파이 차트나 막대그래프 등 다양한 형태로 시각화되어 나타난다. 기업은 이 시각화된 자료를 보고 새롭게 출시한 상품에 대한 대중의
가치 공학은 무작정 원가를 줄이는 것이 아니라, 제품의 본질적인 기능에 집중하는 방식이다. 물건의 가치는 기능과 비용의 비율로 결정된다. 즉, 비용을 낮추면서도 고객이 원하는 기능을 유지하거나 향상시킬 때 제품의 가치는 극대화된다. 가치 공학을 적용하려면 먼저 이 물건이 도대체 왜 필요한지, 즉 본질적인 기능이 무엇인지 끝없이 질문해야 한다. 예를 들어 천 원짜리 볼펜의 가장 중요한 기능은 글씨가 부드럽게 잘 써지는 것이다. 잉크의 질과 펜촉의 정교함은 포기할 수 없는 핵심 기능이다. 하지만 볼펜의 몸통이 반드시 화려한 금속이거나 복잡한 미끄럼 방지 고무가 붙어 있을 필요는 없다. 가치 공학은 여기서 펜의 본래 목적과 상관없는 불필요한 장식이나 과도한 포장재를 과감히 없앤다. 그 대신 튼튼하고 가벼운 기본 플라스틱 소재로 몸통을 만들고, 여러 종류의 펜에 똑같은 부품을 공통으로 사용하여 부품 하나당 생산 단가를 크게 낮춘다. 결국 싸고 좋은 물건은 우연히 만들어지는 것이 아니다. 고객이 진짜 돈을 지불하고 싶어 하는 핵심 가치만 남기고, 쓸데없이 돈이 새어나가는 구석을 설계 단계부터 철저하게 잘라낸 결과물이다. 싼 게 비지떡이라는 옛말을 깨고 가성비라는 새로
웹사이트나 모바일 앱을 사용할 때 우리는 수많은 화면과 마주친다. 구매하기 버튼의 색상을 파란색으로 할지 빨간색으로 할지, 팝업창의 위치를 어디에 둘지 결정하는 것은 기업의 매출과 직결되는 매우 중요한 문제이다. 과거에는 이러한 디자인이나 기능의 변화를 기획자의 직감이나 책임자의 취향에 따라 결정하는 경우가 많았다. 하지만 지금은 데이터를 수집하고 시각화하여 가장 객관적인 정답을 찾아내는 방식을 사용한다. 이를 에이비 테스트라고 부른다. 에이비 테스트의 원리는 매우 단순하면서도 과학적이다. 기존의 디자인을 A안으로 두고, 새롭게 바꾼 디자인을 B안으로 설정한다. 그리고 웹사이트에 방문하는 사람들을 무작위로 절반씩 나누어 각각 A안과 B안을 보여준다. 일정 시간이 흐른 뒤 어느 쪽 디자인에서 사람들이 버튼을 더 많이 클릭했는지 데이터를 수집하여 비교 분석한다. 수집된 방대한 사용자의 행동 데이터는 가공 과정을 거쳐 막대그래프나 파이 차트 같은 시각화 자료로 변환된다. 수만 명의 방문자가 남긴 복잡한 로그 데이터들이 단순한 두 개의 막대그래프로 요약되면 어느 안이 더 우수한 성과를 냈는지 누구나 직관적으로 파악할 수 있다. 만약 빨간색 버튼인 B안의 막대그래프가
온라인 쇼핑몰에 접속한 100명의 사람 중 실제로 물건을 사는 사람은 몇 명이나 될까. 처음에는 많은 사람이 호기심에 사이트를 방문하지만 상품을 검색하고 장바구니에 담고 결제 버튼을 누르는 각 단계를 거칠 때마다 사람들의 수는 점점 줄어든다. 이렇게 사용자가 특정 목표를 향해 나아가는 과정을 단계별로 나누어 시각화한 것을 퍼널 차트 즉 깔때기 차트라고 부른다. 퍼널 차트는 위쪽이 넓고 아래쪽으로 갈수록 좁아지는 깔때기 모양을 하고 있다. 각 단계의 너비는 해당 단계에 머물러 있는 사람의 수를 나타낸다. 데이터를 가공하여 이 차트를 그리는 가장 큰 목적은 사람들이 어느 단계에서 가장 많이 이탈하는지 즉 서비스의 새는 구멍을 시각적으로 찾아내는 데 있다. 예를 들어 모바일 게임에서 튜토리얼을 끝낸 사람은 많은데 첫 번째 스테이지를 깨는 사람의 수가 확연히 줄어들었다고 가정해 보자. 퍼널 차트에서는 이 구간의 깔때기 너비가 급격하게 좁아지는 형태로 나타난다. 이를 통해 개발자는 첫 번째 스테이지의 난이도가 너무 높거나 조작법이 불편하다는 문제점을 직관적으로 파악할 수 있다. 데이터 가공과 시각화는 단순히 숫자를 나열하는 것을 넘어 문제의 원인을 진단하고 해결책을
과거에는 제품을 한 번 완벽하게 만들어 시장에 내놓으면 끝이라고 생각했다. 하지만 세상은 너무나 빠르게 변하고, 사용자의 요구사항도 매일 달라진다. 아무리 훌륭하게 설계된 공정이나 제품이라도 시간이 지나면 낡은 방식이 되거나 예상치 못한 불편함을 만들어낸다. 앱 개발자들이 사용자의 아주 작은 불만이나 오류 보고를 놓치지 않고 다음 버전에 반영하여 꾸준히 업데이트를 배포하는 것은 이런 이유 때문이다. 생산 현장에서도 마찬가지다. 새로운 공장을 짓거나 거대한 기계를 도입하는 대규모 혁신도 중요하지만, 현장에서 일하는 사람이 매일 겪는 작은 불편함을 찾아내어 조금씩 고쳐나가는 것이 결국 더 강력한 힘을 발휘한다. 부품을 담아두는 상자의 위치를 10센티미터 앞당기거나, 작업 지시서의 글씨 크기를 키워 오독을 방지하는 식이다. 당장은 1초의 시간을 단축하고 1퍼센트의 불량을 줄이는 미미한 변화처럼 보일지 모른다. 하지만 이런 사소한 개선들이 한 달, 일 년 동안 눈덩이처럼 쌓이면 결국 경쟁자가 따라올 수 없는 압도적인 품질과 효율의 차이를 만들어낸다. 문제가 터지기를 기다렸다가 고치는 것이 아니라, 매일의 일상 속에서 더 나은 방법을 질문하고 즉시 실행에 옮기는 태도
현대 사회에서 데이터는 멈춰 있는 정물이 아니라 끊임없이 흘러가는 강물과 같다. 주식 시장의 주가 변동, 도로 위의 교통 상황, 날씨의 변화, 심지어 전 세계의 소셜 미디어 트렌드까지 모든 정보는 1초가 다르게 변한다. 이렇게 시시각각 쏟아지는 방대한 데이터를 수집하고 가공하여 한 화면에 직관적으로 보여주는 시스템을 실시간 대시보드라고 부른다. 대시보드라는 단어는 원래 자동차나 비행기의 조종석 앞부분에 있는 계기판을 의미한다. 운전자가 속도, 연료량, 엔진 상태 등을 한눈에 확인하고 안전하게 운전할 수 있도록 돕는 장치이다. 데이터 과학에서 말하는 대시보드 역시 이와 같은 역할을 한다. 수많은 데이터의 현재 상태와 변화 흐름을 꺾은선 그래프, 파이 차트, 신호등 색상 등 다양한 시각화 도구를 활용해 요약해서 보여주는 상황판인 것이다. 실시간 대시보드는 단순히 데이터를 예쁘게 꾸미는 것을 넘어 신속한 의사결정을 돕는 데 핵심적인 목적이 있다. 예를 들어 전염병 통제 센터의 대시보드는 지역별 확진자 수와 병상 가동률을 실시간으로 보여주어 위기 상황에 즉각적으로 대처할 수 있게 한다. 또한 쇼핑몰 운영자는 현재 어느 상품이 가장 많이 팔리고 있는지, 웹사이트 접속
치킨이 만들어지는 과정을 자세히 들여다보면 그 답을 알 수 있다. 주문 접수, 닭에 튀김옷 입히기, 튀기기, 포장하기, 배달원의 픽업, 그리고 집으로의 이동까지 여러 단계를 거친다. 여기서 중요한 것은 튀기거나 포장하는 실제 작업 시간보다, 앞선 주문이 밀려 튀김기 앞에서 대기하는 시간이나 완성된 치킨이 배달원을 기다리는 시간이 훨씬 길다는 점이다. 생산관리에서는 제품의 가치를 직접 높이는 시간과 단순히 머물러 있는 '대기 시간'을 엄격하게 구분한다. 우리는 흔히 물건을 빨리 만들기 위해 작업자의 손놀림을 빠르게 하거나 기계의 속도를 높여야 한다고 생각한다. 하지만 진정한 혁신은 기계의 속도를 높이는 것이 아니라, 공정과 공정 사이에 버려지는 대기 시간을 찾아내어 없애는 데서 출발한다. 튀김기가 부족해 병목 현상이 생긴다면 기계를 추가하거나 초벌 튀김을 해두는 방식을 도입할 수 있다. 조리가 끝나는 시간에 맞춰 배달원이 도착하도록 시스템을 연동하면 치킨이 식어가는 대기 시간을 획기적으로 줄일 수 있다. 결국 훌륭한 생산관리는 각 공정이 끊김 없이 물 흐르듯 이어지도록 전체의 흐름을 설계하는 것이다. 전체 리드 타임이 줄어들면 고객은 더 따뜻하고 맛있는 치킨을
스포츠 경기를 관람하다 보면 중계 화면에 선수의 움직임을 빨간색과 파란색의 얼룩 같은 모양으로 나타낸 그림이 보인다. 이것이 바로 히트맵(Heat Map)이다. 히트맵은 특정 지역에 발생한 사건의 빈도를 온도를 나타내는 색상으로 시각화한 데이터 가공 방식이다. 열을 뜻하는 Heat와 지도를 뜻하는 Map이 합쳐진 이름처럼 사건이 많이 발생한 곳은 뜨거운 빨간색으로, 적게 발생한 곳은 차가운 파란색으로 표현한다. 축구 경기에서 히트맵은 선수가 경기장 어느 구역에서 가장 오래 머물렀고 어디서 공을 자주 찼는지 한눈에 보여준다. 단순히 선수가 열심히 뛰었다는 느낌을 넘어, 오른쪽 측면 공격에 집중했는지 아니면 중앙 수비에 치중했는지를 수치화된 색상으로 증명하는 것이다. 감독들은 이 데이터를 가공하여 상대 팀 선수의 이동 경로를 파악하고, 우리 팀의 수비 구멍을 찾아내어 다음 경기를 위한 맞춤형 전략을 세운다. 농구에서도 히트맵의 활약은 대단하다. 선수가 코트의 어느 지점에서 슛을 던졌을 때 성공 확률이 높은지 시각화하면, 그 선수의 핫 존(Hot Zone)이 드러난다. 공격 시에는 슛 성공률이 높은 빨간색 지점으로 공을 배달하고, 수비 시에는 상대 에이스가 선호하
과거 벽돌 쌓기 작업을 연구했던 길브레스 부부는 작업자가 허리를 굽혀 벽돌을 집거나, 도구를 찾으러 이동하는 시간이 거대한 낭비임을 발견했다. 그들은 연구 끝에 '양손을 동시에 시작하고 동시에 끝내라', '도구와 재료는 손이 닿는 가장 가까운 곳에 두라', '동작은 리듬감 있게 진행하라'와 같은 원칙을 세웠다. 이는 작업자의 피로를 줄이고 생산성을 극대화하기 위해 현대의 모든 제조 공장에 적용되는 기본 철학이다. 이 원칙을 라면 끓이기에 적용하면 명확해진다. 효율적인 사람은 가스 불을 켜기 전에 냄비, 물, 라면, 계란, 김치, 수저를 모두 가스레인지 주변 손이 닿는 반경 안에 준비한다(Mise-en-place). 물이 끓는 급박한 순간에 냉장고로 계란을 가지러 걸어가는 '이동의 낭비'를 없애는 것이다. 또한 한 손으로 냄비 뚜껑을 잡고 멍하니 있는 대신, 다른 손으로 라면 봉지를 뜯으며 양손을 효율적으로 사용한다. 사소해 보이지만 이런 동작들이 모여 전체 조리 시간을 단축시키고 요리를 편안하게 만든다. 많은 사람들이 생산성을 높이기 위해 무조건 더 빨리, 더 열심히 움직여야 한다고 오해한다. 하지만 진정한 생산 관리는 속도가 아니라 '불필요한 고생을 없애는
현대인은 스마트폰과 컴퓨터를 통해 매일 엄청난 양의 데이터를 생성한다. 이 데이터는 일상생활부터 기업 경영, 국가 정책 결정에 이르기까지 핵심적인 역할을 수행한다. 하지만 수집된 기초 데이터가 처음부터 완벽하게 유용할 것이라는 생각은 오해이다. 실제 세계의 데이터는 예상보다 훨씬 지저분하고 오류가 많으며 누락된 정보도 포함한다. 이는 쓰레기 더미 속에 숨겨진 보물을 찾는 과정과 유사하다. 엉망인 데이터를 깨끗하고 분석하기 쉬운 형태로 만드는 과정을 데이터 클렌징(Data Cleansing) 또는 데이터 정제라고 부른다. 이는 데이터 분석의 첫 단계이자 가장 중요한 과정이다. 아무리 좋은 분석 도구를 사용해도 입력되는 데이터가 쓰레기라면 결과물도 쓰레기일 수밖에 없다는 가비지 인, 가비지 아웃(Garbage In, Garbage Out)의 원리가 여기에 적용된다. 데이터 클렌징은 크게 세 가지 유형의 문제를 해결하는 데 집중한다. 첫째는 결측치(Missing Value) 처리이다. 설문조사 응답 누락이나 기기 오작동으로 인해 비어 있는 값을 평균값으로 채우거나 제외하는 과정이다. 둘째는 오류 데이터(Error Data) 수정이다. 나이가 200살로 입력되는 등
많은 사람들은 품질 관리를 공장의 컨베이어 벨트 끝에서 완성된 물건을 검사하는 일이라고 생각한다. 돋보기를 들고 흠집을 찾아내는 모습이 떠오를 것이다. 하지만 진정한 생산 관리는 검사가 아니라 예방에 초점을 맞춘다. 마지막 단계에서 불량을 골라내는 것은 이미 늦은 처방이다. 불량품을 만드는 데 들어간 재료비, 인건비, 기계 가동 시간이 모두 낭비되었기 때문이다. 심지어 검사 과정에서 걸러지지 않고 고객의 손에 들어갔을 때 발생하는 손실은 상상을 초월한다. 생산관리 분야에는 '1:10:100의 법칙'이 존재한다. 제품을 설계하거나 생산을 준비하는 단계에서 결함을 수정하는 데 1의 비용이 든다면, 제조 공정 중에 발견해서 고치는 데는 10의 비용이 든다. 하지만 불량품이 고객에게 전달된 후 문제를 해결하려면 무려 100의 비용이 든다는 원리다. 제품 수거 및 교환 비용은 물론이고, 회사의 이미지가 추락하여 발생하는 매출 감소는 돈으로 환산하기 어렵다. 통계적으로 불만을 가진 고객 한 명은 주변의 수십 명에게 부정적인 경험을 이야기한다고 한다. 결국 사소해 보이는 불량품 하나가 미래의 수많은 고객을 쫓아내는 결과를 낳는다. 따라서 유능한 생산 관리자는 '불량을 잘
2016년 이세돌 9단을 꺾은 알파고는 바둑의 모든 수를 외워서 둔 것이 아니다. 스스로 수만 번의 대국을 두며 이기는 법을 깨우쳤다. 이런 독특한 학습 방식을 데이터 과학에서는 '강화학습'이라고 부른다. 원리는 우리가 집에서 강아지를 훈련시키는 것과 매우 비슷하다. 강아지가 "손!"이라는 말에 맞춰 손을 내밀면 간식(당근)을 주고, 엉뚱한 행동을 하면 간식을 주지 않거나 가볍게 꾸짖는(채찍) 방식이다. 인공지능도 마찬가지다. 컴퓨터에게 슈퍼마리오 같은 게임을 시킨다고 가정해 보자. 처음에는 AI가 아무것도 모르기 때문에 제자리에서 점프만 하거나 곧바로 적에게 부딪혀 게임이 끝난다. 이때 개발자는 '점수 획득'이나 '레벨 통과'라는 보상을 설정하고, '캐릭터 사망'이나 '시간 초과'라는 벌칙을 준다. AI는 처음에는 무작위로 버튼을 마구 눌러보지만, 우연히 앞으로 갔더니 점수가 오르는 것을 발견하면 그 행동을 더 자주 하려고 한다. 반대로 낭떠러지로 떨어져 점수가 깎이면 그 행동을 피하게 된다. 이 과정에서 가장 중요한 핵심은 '시행착오'이다. 강화학습 AI는 수백만 번 실패하고 넘어지면서, 보상을 최대화할 수 있는 최적의 움직임을 스스로 찾아낸다. 사람이
컴퓨터에 USB를 꽂을 때 반대로 넣으려다 안 들어가서 돌려 꽂은 경험이 누구나 있을 것이다. 억지로 힘을 줘도 절대 들어가지 않게 설계된 이 모양에는 '포카요케(Poka-yoke)'라는 생산관리의 깊은 뜻이 숨어 있다. 포카요케란 일본어로 '실수 방지'를 뜻하는데, 작업자가 멍하니 있거나 부주의하더라도 물리적으로 실수를 할 수 없게 만드는 장치나 방법을 말한다. 사람은 기계가 아니기에 누구나 깜빡하거나 착각할 수 있다. "정신 똑바로 차려라", "주의해라"라고 백 번 잔소리하는 것보다, 아예 실수가 발생하지 않도록 환경을 만드는 것이 훨씬 효과적이다. 예를 들어 휴대폰 유심 칩의 한쪽 모서리가 잘려 있는 것도 같은 원리다. 모양이 맞지 않으면 아예 슬롯에 들어가지 않으니, 방향을 헷갈릴 걱정이 없다. 공장에서도 이 원리는 아주 중요하게 쓰인다. 위험한 프레스 기계를 작동시킬 때 두 손으로 동시에 버튼을 눌러야만 기계가 움직이게 만든 것이 대표적이다. 한 손이라도 딴짓을 하거나 위험한 곳에 가 있으면 기계가 작동하지 않아 사고를 막는다. 또한 부품 조립 구멍의 크기나 모양을 다르게 만들어 제 짝이 아니면 끼워지지 않게 하기도 한다. 결국 포카요케는 사람을 비
우리가 맛있는 라면을 끓이려고 할 때 가장 먼저 필요한 것은 무엇일까. 바로 라면, 물, 파, 계란 같은 재료들이다. 이 재료들 중 하나라도 빠지면 우리가 원하는 맛을 낼 수 없다. 공장에서 물건을 만들 때도 마찬가지다. 자동차나 스마트폰 같은 복잡한 제품을 만들기 위해 필요한 모든 부품과 원재료의 목록을 정리한 것을 자재 명세서, 즉 BOM(Bill of Materials)이라고 부른다. 쉽게 말해 제품을 만들기 위한 정확한 요리 레시피와 같다. 스마트폰을 예로 들어보자. 겉으로 보기에는 하나의 기계처럼 보이지만, 그 안에는 액정, 배터리, 카메라 모듈, 그리고 아주 작은 나사까지 수백 개의 부품이 들어 있다. BOM은 이 모든 부품의 품번, 이름, 필요한 개수, 규격 등을 상세하게 기록한 문서다. 만약 BOM에 나사가 4개 필요한데 3개만 적혀 있다면 어떻게 될까. 조립 라인에서는 마지막 나사 하나가 부족해 제품을 완성하지 못하고 공장 전체가 멈춰버리는 끔찍한 일이 벌어질 것이다. 또한 BOM은 단순히 부품 리스트를 넘어 돈과 직결된다. 제품 하나를 만드는 데 들어가는 재료비를 계산하는 기준이 되기 때문이다. BOM이 정확해야 제품의 원가를 알 수 있고,
우리가 스마트폰으로 찍은 멋진 풍경 사진을 친구에게 보낼 때, 컴퓨터는 그 사진을 어떻게 이해할까? 컴퓨터는 우리처럼 "와, 하늘이 정말 파랗다!"라고 감탄하지 않는다. 대신 그 사진을 수백만 개의 작은 점, 즉 '픽셀(Pixel)'로 잘게 쪼갠 뒤 엄청난 숫자의 나열로 받아들인다. 이미지를 확대하고 또 확대하면 네모난 작은 타일들이 모자이크처럼 보이는데, 이것 하나하나가 바로 픽셀이다. 각 픽셀은 고유한 색상 정보를 담고 있다. 이 색상은 빛의 삼원색인 빨강(Red), 초록(Green), 파랑(Blue)의 조합, 즉 'RGB' 값으로 표현된다. 각 색깔은 보통 0부터 255까지의 숫자로 나타내는데, (255, 0, 0)은 빨간색, (0, 0, 0)은 검은색, (255, 255, 255)는 흰색이 되는 식이다. 결국 컴퓨터에게 '사진'이란 가로세로로 늘어선 거대한 숫자판(행렬)일 뿐이다. 인공지능이 강아지와 고양이 사진을 구별하는 것도 바로 이 숫자 패턴을 분석하는 것이다. 강아지 사진의 픽셀 숫자 배열과 고양이 사진의 배열에 미묘한 통계적 차이가 있음을 수학적으로 찾아내는 것이다. 우리가 보는 화려한 디지털 세상은 사실 0부터 255 사이의 숫자들이 촘촘하