우리가 매일 인터넷에 남기는 댓글, 쇼핑몰의 상품 후기, 소셜 미디어의 짧은 글들은 모두 소중한 데이터이다. 하지만 이런 글들은 숫자로 딱 떨어지는 표와 달리 형태나 규칙이 정해져 있지 않다. 이처럼 일정한 규격이 없는 데이터를 비정형 데이터라고 부른다. 컴퓨터는 숫자는 계산하기 쉽지만 사람의 복잡한 언어는 바로 이해하지 못한다. 그래서 이 거친 비정형 데이터를 컴퓨터가 이해할 수 있는 형태로 다듬고 길들이는 과정이 필요한데 이를 텍스트 마이닝이라고 한다. 텍스트 마이닝의 대표적인 활용 방법 중 하나가 바로 감성 분석이다. 수만 개의 상품 리뷰를 사람이 일일이 읽고 좋은지 나쁜지 판단하려면 엄청난 시간이 걸릴 것이다. 하지만 감성 분석 기술을 활용하면 텍스트 속의 단어들을 분석해 사람들이 긍정적인지, 부정적인지, 혹은 중립적인 감정을 느끼는지 순식간에 분류할 수 있다. 예를 들어 최고, 추천, 만족 같은 단어가 많으면 긍정으로 분류하고 최악, 실망, 환불 같은 단어가 나오면 부정으로 파악하는 원리이다. 이렇게 가공된 감성 데이터는 파이 차트나 막대그래프 등 다양한 형태로 시각화되어 나타난다. 기업은 이 시각화된 자료를 보고 새롭게 출시한 상품에 대한 대중의
요즘 챗GPT와 같은 인공지능이 사람처럼 자연스럽게 대화하는 것을 보면 마치 안에 사람이 들어있는 것 같은 착각이 든다. 하지만 이 기술의 핵심은 마법이나 자아가 아니라 철저히 수학적인 확률 계산이다. 이를 전문 용어로 거대 언어 모델이라고 부른다. AI가 글을 쓰는 방식은 친구와 빈칸 채우기 놀이를 하는 것과 매우 비슷하다. 예를 들어 "오늘 급식 메뉴는 정말 [ ? ]"라는 문장이 있다고 해보자. 빈칸에 들어갈 말로 맛있다, 맛없다, 매웠다 등은 확률이 아주 높지만, 갑자기 비행기다, 책상이다 같은 단어가 올 확률은 거의 0에 가깝다. AI는 인터넷에 있는 수억 개의 문장 데이터를 학습하여, 특정 단어 뒤에 어떤 단어가 따라오는 것이 가장 자연스러운지 통계적으로 계산해 둔 상태다. 우리가 질문을 던지면 AI는 그 질문의 문맥을 파악한 뒤, 다음에 올 수 있는 수만 가지 단어 중에서 가장 확률이 높은 단어를 하나씩 선택해서 이어 붙인다. 이것은 마치 수많은 단어 카드를 펼쳐 놓고, 현재 상황에 가장 알맞은 카드를 주사위 굴리듯 확률에 따라 뽑는 과정의 연속이다. 즉, AI는 문장을 한 번에 완성하는 것이 아니라, 앞 단어를 보고 뒷 단어를 예측하는 과정을