2016년 이세돌 9단을 꺾은 알파고는 바둑의 모든 수를 외워서 둔 것이 아니다. 스스로 수만 번의 대국을 두며 이기는 법을 깨우쳤다. 이런 독특한 학습 방식을 데이터 과학에서는 '강화학습'이라고 부른다. 원리는 우리가 집에서 강아지를 훈련시키는 것과 매우 비슷하다. 강아지가 "손!"이라는 말에 맞춰 손을 내밀면 간식(당근)을 주고, 엉뚱한 행동을 하면 간식을 주지 않거나 가볍게 꾸짖는(채찍) 방식이다. 인공지능도 마찬가지다. 컴퓨터에게 슈퍼마리오 같은 게임을 시킨다고 가정해 보자. 처음에는 AI가 아무것도 모르기 때문에 제자리에서 점프만 하거나 곧바로 적에게 부딪혀 게임이 끝난다. 이때 개발자는 '점수 획득'이나 '레벨 통과'라는 보상을 설정하고, '캐릭터 사망'이나 '시간 초과'라는 벌칙을 준다. AI는 처음에는 무작위로 버튼을 마구 눌러보지만, 우연히 앞으로 갔더니 점수가 오르는 것을 발견하면 그 행동을 더 자주 하려고 한다. 반대로 낭떠러지로 떨어져 점수가 깎이면 그 행동을 피하게 된다. 이 과정에서 가장 중요한 핵심은 '시행착오'이다. 강화학습 AI는 수백만 번 실패하고 넘어지면서, 보상을 최대화할 수 있는 최적의 움직임을 스스로 찾아낸다. 사람이
컴퓨터에 USB를 꽂을 때 반대로 넣으려다 안 들어가서 돌려 꽂은 경험이 누구나 있을 것이다. 억지로 힘을 줘도 절대 들어가지 않게 설계된 이 모양에는 '포카요케(Poka-yoke)'라는 생산관리의 깊은 뜻이 숨어 있다. 포카요케란 일본어로 '실수 방지'를 뜻하는데, 작업자가 멍하니 있거나 부주의하더라도 물리적으로 실수를 할 수 없게 만드는 장치나 방법을 말한다. 사람은 기계가 아니기에 누구나 깜빡하거나 착각할 수 있다. "정신 똑바로 차려라", "주의해라"라고 백 번 잔소리하는 것보다, 아예 실수가 발생하지 않도록 환경을 만드는 것이 훨씬 효과적이다. 예를 들어 휴대폰 유심 칩의 한쪽 모서리가 잘려 있는 것도 같은 원리다. 모양이 맞지 않으면 아예 슬롯에 들어가지 않으니, 방향을 헷갈릴 걱정이 없다. 공장에서도 이 원리는 아주 중요하게 쓰인다. 위험한 프레스 기계를 작동시킬 때 두 손으로 동시에 버튼을 눌러야만 기계가 움직이게 만든 것이 대표적이다. 한 손이라도 딴짓을 하거나 위험한 곳에 가 있으면 기계가 작동하지 않아 사고를 막는다. 또한 부품 조립 구멍의 크기나 모양을 다르게 만들어 제 짝이 아니면 끼워지지 않게 하기도 한다. 결국 포카요케는 사람을 비
우리가 맛있는 라면을 끓이려고 할 때 가장 먼저 필요한 것은 무엇일까. 바로 라면, 물, 파, 계란 같은 재료들이다. 이 재료들 중 하나라도 빠지면 우리가 원하는 맛을 낼 수 없다. 공장에서 물건을 만들 때도 마찬가지다. 자동차나 스마트폰 같은 복잡한 제품을 만들기 위해 필요한 모든 부품과 원재료의 목록을 정리한 것을 자재 명세서, 즉 BOM(Bill of Materials)이라고 부른다. 쉽게 말해 제품을 만들기 위한 정확한 요리 레시피와 같다. 스마트폰을 예로 들어보자. 겉으로 보기에는 하나의 기계처럼 보이지만, 그 안에는 액정, 배터리, 카메라 모듈, 그리고 아주 작은 나사까지 수백 개의 부품이 들어 있다. BOM은 이 모든 부품의 품번, 이름, 필요한 개수, 규격 등을 상세하게 기록한 문서다. 만약 BOM에 나사가 4개 필요한데 3개만 적혀 있다면 어떻게 될까. 조립 라인에서는 마지막 나사 하나가 부족해 제품을 완성하지 못하고 공장 전체가 멈춰버리는 끔찍한 일이 벌어질 것이다. 또한 BOM은 단순히 부품 리스트를 넘어 돈과 직결된다. 제품 하나를 만드는 데 들어가는 재료비를 계산하는 기준이 되기 때문이다. BOM이 정확해야 제품의 원가를 알 수 있고,
우리가 스마트폰으로 찍은 멋진 풍경 사진을 친구에게 보낼 때, 컴퓨터는 그 사진을 어떻게 이해할까? 컴퓨터는 우리처럼 "와, 하늘이 정말 파랗다!"라고 감탄하지 않는다. 대신 그 사진을 수백만 개의 작은 점, 즉 '픽셀(Pixel)'로 잘게 쪼갠 뒤 엄청난 숫자의 나열로 받아들인다. 이미지를 확대하고 또 확대하면 네모난 작은 타일들이 모자이크처럼 보이는데, 이것 하나하나가 바로 픽셀이다. 각 픽셀은 고유한 색상 정보를 담고 있다. 이 색상은 빛의 삼원색인 빨강(Red), 초록(Green), 파랑(Blue)의 조합, 즉 'RGB' 값으로 표현된다. 각 색깔은 보통 0부터 255까지의 숫자로 나타내는데, (255, 0, 0)은 빨간색, (0, 0, 0)은 검은색, (255, 255, 255)는 흰색이 되는 식이다. 결국 컴퓨터에게 '사진'이란 가로세로로 늘어선 거대한 숫자판(행렬)일 뿐이다. 인공지능이 강아지와 고양이 사진을 구별하는 것도 바로 이 숫자 패턴을 분석하는 것이다. 강아지 사진의 픽셀 숫자 배열과 고양이 사진의 배열에 미묘한 통계적 차이가 있음을 수학적으로 찾아내는 것이다. 우리가 보는 화려한 디지털 세상은 사실 0부터 255 사이의 숫자들이 촘촘하
요즘 챗GPT와 같은 인공지능이 사람처럼 자연스럽게 대화하는 것을 보면 마치 안에 사람이 들어있는 것 같은 착각이 든다. 하지만 이 기술의 핵심은 마법이나 자아가 아니라 철저히 수학적인 확률 계산이다. 이를 전문 용어로 거대 언어 모델이라고 부른다. AI가 글을 쓰는 방식은 친구와 빈칸 채우기 놀이를 하는 것과 매우 비슷하다. 예를 들어 "오늘 급식 메뉴는 정말 [ ? ]"라는 문장이 있다고 해보자. 빈칸에 들어갈 말로 맛있다, 맛없다, 매웠다 등은 확률이 아주 높지만, 갑자기 비행기다, 책상이다 같은 단어가 올 확률은 거의 0에 가깝다. AI는 인터넷에 있는 수억 개의 문장 데이터를 학습하여, 특정 단어 뒤에 어떤 단어가 따라오는 것이 가장 자연스러운지 통계적으로 계산해 둔 상태다. 우리가 질문을 던지면 AI는 그 질문의 문맥을 파악한 뒤, 다음에 올 수 있는 수만 가지 단어 중에서 가장 확률이 높은 단어를 하나씩 선택해서 이어 붙인다. 이것은 마치 수많은 단어 카드를 펼쳐 놓고, 현재 상황에 가장 알맞은 카드를 주사위 굴리듯 확률에 따라 뽑는 과정의 연속이다. 즉, AI는 문장을 한 번에 완성하는 것이 아니라, 앞 단어를 보고 뒷 단어를 예측하는 과정을
수학 공식 중에 유명한 이야기가 있다. 1.01을 365번 곱하면 약 37.8이 되지만, 0.99를 365번 곱하면 약 0.03이 된다는 것이다. 매일 1퍼센트만 성장하면 1년 뒤에는 37배나 성장하지만, 매일 1퍼센트씩 요령을 피우거나 퇴보하면 결국 아무것도 남지 않게 된다는 뜻이다. 생산 현장에서도 이 수학 공식처럼 매일 조금씩 발전하는 것을 목표로 삼는 활동이 있다. 바로 '카이젠(Kaizen)'이다. 우리말로는 '개선'이라고 부르며, 현재보다 더 좋은 방향으로 바꾼다는 의미를 담고 있다. 흔히 혁신이라고 하면 천재적인 발명가가 나타나거나 사장님이 큰 결단을 내려 공장을 통째로 바꾸는 것을 상상하기 쉽다. 하지만 카이젠은 다르다. 현장에서 직접 기계를 만지는 작업자들이 스스로 불편한 점을 찾아내어 아주 사소한 것부터 고쳐 나가는 방식이다. 예를 들어 작업대 높이가 맞지 않아 허리가 아프다면 작업대 다리에 받침대를 고여 높이를 조절한다. 공구를 가지러 가는 거리가 멀다면 공구함을 작업자 바로 옆으로 옮긴다. 이런 활동은 큰돈이 들지도 않고 누구나 당장 시작할 수 있다. 겨우 3초를 단축하기 위해 무거운 책상을 옮기는 것이 무슨 의미가 있냐고 반문할 수 있
"우리 반 학생들의 평균 용돈은 얼마일까?"라는 질문을 받으면 우리는 자연스럽게 모든 학생의 용돈을 더한 뒤 학생 수로 나누는 '평균'을 떠올린다. 이처럼 평균은 대푯값으로 가장 널리 쓰이지만, 때로는 현실을 완전히 왜곡하는 거짓말쟁이가 될 수도 있다. 상상을 한 번 해보자. 평범한 우리 교실에 갑자기 세계적인 부자인 빌 게이츠가 전학을 왔다. 그리고 우리 반 학생들의 '평균 재산'을 다시 계산해 본다. 아마도 우리 반 학생 모두가 억만장자인 것처럼 평균값이 치솟을 것이다. 하지만 실제로 내 주머니 사정이 나아진 것은 아니다. 빌 게이츠라는 극단적으로 큰 값(이상치) 하나가 전체 평균을 엉뚱한 방향으로 끌고 갔기 때문이다. 이럴 때 필요한 것이 바로 '중앙값'이다. 학생들을 재산 순서대로 줄 세웠을 때, 정확히 한가운데에 있는 학생의 재산이 바로 중앙값이다. 빌 게이츠가 아무리 부자여도 그는 맨 끝에 줄을 서게 될 뿐, 가운데에 있는 평범한 학생의 값은 변하지 않는다. 따라서 소득이나 집값처럼 격차가 큰 데이터를 다룰 때는 평균보다 중앙값이 훨씬 더 정확한 현실을 보여준다. 데이터 분석에서는 어떤 값을 대푯값으로 쓸지 결정하는 것이 매우 중요하다. 뉴스에서
우리가 마트에서 유통기한이 짧은 신선식품을 살 때를 생각해 보자. 미리 잔뜩 사서 냉장고에 쟁여두면 공간만 차지하고 나중에는 상해서 버리게 된다. 공장도 마찬가지다. 물건을 미리 만들어 쌓아두면 창고 비용이 들고, 유행이 지나면 팔리지 않는 악성 재고가 되어 회사의 자금을 묶어버린다. 그래서 등장한 혁신적인 방식이 바로 '적시 생산(Just-In-Time, JIT)'이다. JIT는 말 그대로 '필요한 물건을, 필요한 때에, 필요한 만큼만' 만드는 생산 방식이다. 마치 회전초밥집이 아니라 주문을 받자마자 셰프가 신선한 초밥을 쥐어주는 고급 초밥집과 같다. 미리 만들어 놓으면 밥은 딱딱해지고 생선은 마르기 때문에, 가장 맛있는 상태를 유지하기 위해 주문 즉시 만드는 것이다. 이 방식은 자동차 회사 도요타가 처음 도입했는데, 그들은 재고를 '생산 현장의 모든 악의 근원'이라고 보았다. 과도한 재고는 공장의 문제점을 숨기는 바닷물과 같다. 물이 가득 차 있으면 바닥에 있는 뾰족한 암초(기계 고장, 불량품, 작업 지연)가 보이지 않는다. 하지만 JIT를 통해 재고라는 물을 걷어내면 숨겨진 문제들이 암초처럼 드러난다. 그때 비로소 문제를 근본적으로 해결하고 공장의 체질
주말에 스마트폰으로 영상 하나를 클릭했을 뿐인데, 정신을 차려보니 서너 시간이 훌쩍 지나간 경험이 누구나 한 번쯤은 있을 것이다. 내가 좋아할 만한 영상을 귀신같이 찾아내 계속해서 보여주는 이 마법 같은 기술의 정체는 바로 '추천 알고리즘'이다. 도대체 컴퓨터 프로그램이 어떻게 나보다 내 취향을 더 잘 알고 있는 것일까. 가장 대표적인 원리는 '비슷한 취향을 가진 사람들을 연결하는 것'이다. 이를 데이터 과학 용어로 '협업 필터링'이라고 부른다. 원리는 간단하다. 만약 학생 A와 학생 B가 평소에 비슷한 게임 영상을 즐겨 봤다고 가정해 보자. 그런데 학생 B가 최근에 새로 나온 요리 예능 영상을 아주 재미있게 끝까지 시청했다. 그러면 알고리즘은 A와 B의 취향 패턴이 비슷하다는 것을 근거로, A에게도 그 요리 영상을 슬며시 추천 목록에 띄운다. 나와 비슷한 행동 패턴을 보인 수만 명의 데이터를 분석해, 내가 좋아할 확률이 높은 미지의 콘텐츠를 골라내는 방식이다. 하지만 단순히 어떤 영상을 클릭했는지만 보는 것은 아니다. 알고리즘은 훨씬 더 정교한 데이터를 수집한다. 영상을 클릭하고 나서 10초 만에 껐는지 아니면 끝까지 시청했는지, 영상을 보다가 잠시 멈췄는
누구나 급하게 써야 할 물건이 제자리에 없어 한참을 찾느라 시간을 허비한 경험이 있을 것이다. 개인의 책상에서도 이런 일이 생기면 작업 흐름이 끊기는데, 분초를 다투며 거대한 기계가 돌아가는 공장에서 이런 일이 발생한다면 어떨까. 아마 작업은 중단되고 엄청난 비용 손실이 발생할 것이다. 그래서 생산 현장에서는 5S라는 활동을 가장 기본적이면서도 중요한 철칙으로 삼는다. 5S란 정리, 정돈, 청소, 청결, 습관화를 의미한다. 이것은 단순히 빗자루로 바닥을 쓸고 닦는 미화 활동이 아니다. 공장에서의 정리는 필요한 것과 불필요한 것을 명확히 구분하여 불필요한 것을 과감히 작업장에서 치우는 것에서 시작한다. 그다음 정돈을 통해 필요한 공구나 부품을 누구든지 쉽게 찾고, 사용 후 즉시 제자리에 돌려놓을 수 있도록 지정된 위치를 정한다. 예를 들어 공구함에 공구 모양대로 그림을 그려 놓으면, 멀리서 봐도 어떤 공구가 빠져 있는지 단번에 알 수 있다. 만약 작업자가 렌치 하나를 찾느라 10분을 소비했다면, 그 공장은 10분만큼 생산을 멈춘 것과 같다. 이처럼 정돈은 보이지 않는 낭비 시간을 찾아내 없애는 과정이다. 또한 잘 정돈된 환경은 안전과 직결된다. 바닥에 떨어진
서울에서 먹은 프랜차이즈 햄버거와 뉴욕 한복판에서 먹은 햄버거의 맛은 거의 똑같다. 만드는 사람이 다르고, 사용된 재료의 산지가 다를 수도 있는데 어떻게 이런 일이 가능할까. 그 비결은 바로 '표준화(Standardization)'에 있다. 요리사의 손맛에 의존하는 것이 아니라, 빵을 굽는 온도, 패티를 익히는 시간, 소스의 양까지 모든 과정이 0.1초, 1그램 단위로 정해져 있기 때문이다. 생산 현장에서 표준화란 '가장 안전하고, 품질이 좋으며, 효율적인 작업 방법'을 하나로 정해두는 것을 말한다. 만약 자동차를 조립하는데 작업자마다 나사를 조이는 순서나 힘이 제각각이라면 어떻게 될까. 어떤 차는 튼튼하고 어떤 차는 금방 고장이 날 것이다. 이런 들쑥날쑥한 품질을 막기 위해 기업은 '작업 표준서'라는 매뉴얼을 만든다. 이것은 일종의 교과서이자 법이다. 표준화가 잘 되어 있는 공장에서는 누가 작업을 하더라도 결과물이 똑같다. 어제 입사한 신입 사원이라도 매뉴얼을 정확히 따른다면 10년 차 베테랑과 거의 비슷한 품질의 제품을 만들어낼 수 있다. 또한 문제가 생겼을 때 원인을 찾기도 쉽다. 정해진 기준대로 했는지 안 했는지만 확인하면 되기 때문이다. 반대로 기준
요즘 우리는 '빅데이터'라는 말을 매일 듣는다. 수천만 명의 구매 기록이나 검색어 순위 같은 방대한 데이터가 세상을 바꾼다고 한다. 하지만 거대한 데이터의 파도 속에서 정작 중요한 단서를 놓치는 경우가 있다. 이때 필요한 것이 바로 '스몰 데이터'이다. 빅데이터가 '거대한 숲'을 보여준다면, 스몰 데이터는 '나무 한 그루'의 상태를 자세히 보여주는 돋보기와 같다. 빅데이터는 우리에게 '무엇'이 일어났는지 알려준다. 예를 들어 특정 운동화의 판매량이 갑자기 줄었다는 사실을 알려주는 식이다. 하지만 '왜' 줄었는지는 명확히 말해주지 않는다. 이때 데이터 분석가는 고객의 일상을 직접 관찰하는 스몰 데이터를 수집한다. 관찰 결과, 운동화 끈이 너무 잘 풀려서 불편해하는 고객의 사소한 행동을 발견할 수 있다. 이 작은 단서 하나가 디자인을 수정하고 다시 판매량을 올리는 핵심 열쇠가 된다. 실제로 유명한 레고(LEGO) 사도 한때 위기를 겪었으나, 아이들이 낡은 운동화를 자랑스러워하는 모습이라는 스몰 데이터에서 힌트를 얻었다. 아이들은 어려운 도전을 극복하고 성취감을 느끼길 원한다는 사실을 깨닫고, 더 복잡하고 정교한 블록을 만들어 재기에 성공했다. 이처럼 숫자의 양이
데이터를 다루다 보면 두 개의 숫자가 마치 친구처럼 함께 움직이는 것을 자주 보게 된다. 하나가 늘면 다른 하나도 늘고, 하나가 줄면 다른 하나도 줄어드는 현상이다. 우리는 이것을 '상관관계'가 있다고 말한다. 예를 들어, 여름철 아이스크림 판매량이 늘어나면 수영장에서의 익사 사고도 늘어나는 경향을 보인다. 그렇다면 아이스크림이 익사 사고의 원인일까? 물론 아니다. 여기서 우리가 주의해야 할 중요한 개념이 바로 '인과관계'이다. 인과관계는 한 사건이 다른 사건의 직접적인 원인이 될 때 성립한다. 아이스크림 판매량과 익사 사고의 상관관계는 '더위'라는 제3의 요인 때문에 발생한다. 날씨가 더워지면 사람들이 아이스크림을 더 많이 먹고, 동시에 물놀이도 더 많이 하게 되므로 익사 사고의 위험도 자연스레 증가하는 것이다. 아이스크림이 직접적으로 익사 사고를 유발하는 것이 아니며, 이 둘은 단지 '상관'만 있을 뿐 '인과' 관계는 없는 것이다. 데이터 분석에서 이러한 상관관계와 인과관계를 명확히 구분하는 것은 매우 중요하다. 만약 상관관계만을 보고 인과관계로 오해한다면, 잘못된 정책이나 사업 결정을 내릴 수 있다. 기업이 아이스크림 판매를 줄여 익사 사고를 막으려 한
친구들과 한 줄로 서서 물동이를 나르는 게임을 한다고 상상해 보자. 맨 앞사람이 아무리 물을 빨리 퍼내도, 중간에 있는 사람이 물을 늦게 전달하면 뒷사람은 물을 받을 수 없다. 결국 전체 팀이 나를 수 있는 물의 양은 가장 느리게 움직이는 사람의 속도에 맞춰진다. 이것이 바로 생산 현장에서 말하는 '병목(Bottleneck)' 현상이다. 병목이란 병의 목 부분이 좁아지면서 액체의 흐름이 느려지는 것에서 유래한 말로, 전체 공정 중 가장 처리 능력이 떨어지는 구간을 의미한다. 공장은 여러 단계의 작업이 사슬처럼 연결되어 있다. 원재료가 투입되어 가공, 조립, 검사, 포장 단계를 거쳐 완제품으로 탄생한다. 이때 특정 기계의 성능이 부족하거나 작업 시간이 오래 걸리면 그 공정 앞에는 처리되지 못한 재고가 산더미처럼 쌓이게 된다. 반면 그 뒤의 공정들은 작업 물량이 넘어오지 않아 기계를 놀리게 된다. 아무리 다른 공정들이 최첨단 고속 설비를 갖추고 있어도, 병목 공정이 막혀 있다면 전체 공장의 생산성은 병목 공정의 수준을 넘을 수 없다. 따라서 생산 효율을 높이기 위해서는 무작정 모든 기계를 업그레이드하는 것이 아니라, 숨어 있는 병목을 찾아내는 것이 최우선이다.
우리는 흔히 평균이나 표준편차 같은 통계 수치만 확인하면 데이터를 완벽하게 이해했다고 착각하기 쉽다. 하지만 숫자가 보여주는 요약 정보 뒤에는 전혀 예상하지 못한 반전이 숨어 있기도 한다. 이를 가장 명확하게 보여주는 사례가 바로 앤스컴의 4인조 데이터이다. 통계학자 프랜시스 앤스컴이 고안한 이 자료는 네 가지의 서로 다른 데이터 집합으로 구성되어 있다. 놀라운 점은 네 집합의 평균, 분산, 상관계수 등 모든 통계 수치가 소수점 아래 자리까지 거의 일치한다는 사실이다. 만약 우리가 그래프를 그려보지 않고 숫자만 보고 받았다면, 이 네 가지 데이터가 모두 비슷한 성질을 가졌을 것이라고 판단했을 것이다. 그러나 막상 이 데이터들을 평면 위에 점으로 찍어 시각화해보면 완전히 다른 모습이 나타난다. 첫 번째 집합은 평범한 선형 관계를 보이지만, 다른 집합들은 곡선 형태를 띠거나 특정 지점에만 데이터가 몰려 있는 등 전혀 다른 패턴을 가진다. 심지어 한두 개의 튀는 데이터 때문에 전체 통계치가 왜곡된 경우도 발견된다. 이는 시각화 과정 없이 숫자만으로 의사결정을 내리는 것이 얼마나 위험한지를 단적으로 보여주는 예시이다. 데이터 시각화는 단순히 정보를 예쁘게 꾸미는 작