본문 바로가기

김보경/이슈 & 트렌드

AI 챗봇과 멀티 모달 (ChatGPT, Bing Chatbot의 미래는 어떤 모습일까?)

Chat GPT에 이어서 마이크로소프트의 Bing 챗봇의 등장으로 AI와 챗봇 산업에 지각변동이 일고 있다.

2021년까지의 데이터에 기반해 답을 내놓는 chatGPT와 달리, 이번에 선보인 Bing 챗봇의 경우 실시간으로 웹에 업로드되는 데이터를 통해 유저들과 상호작용 할 수 있기에 활용성이 다각화될 수 있다는 데에서 큰 의미를 지니고 있다.

이처럼 더 이상 기능적, 일상적 대화를 하던 형식에서 벗어나 AI를 통한 검색과 아이디에이션, 모든 소통이 가능해짐에 따라 기존의 '챗봇'에 대한 인식과 확장성에 대해서 보다 깊게 고민해야 하는 시점이라고 생각한다. 

따라서 이번 글에서는 Chatbot이 메타버스 안에서 어떻게 활용될 수 있을지를 멀티 모달을 통해 풀어보려고 한다. 현재까지 대학원 내에서도 논의가 되고 있는 연구주제인 만큼, 보다 많은 사람들이 관심과 흥미를 가지고 미래의 가상인간에 대한 고민에 함께할 수 있는 계기가 되었으면 좋겠다. 

 

메타버스에서 챗봇의 활용을 살펴보기 전에 먼저 챗봇이 무엇인지에 대해 간단하게 설명해 보겠다. 

 

What is a Chatbot?

"A chatbot is a computer program that uses artificial intelligence (AI) and natural language processing (NLP) to understand customer questions and automate responses to them, simulating human conversation."

 

What is Natural Language Processing? | IBM

Natural language processing enables machines to understand and respond to text or voice data.

www.ibm.com

▶ IBM의 정의에 따르면 챗봇은 인공지능(AI)과 자연어처리(NLP)를 이용해 고객의 질문을 이해하고 자동으로 응답하는 컴퓨터 프로그램으로 인간의 대화를 시뮬레이션한다. 

 

여기서 NLP 자연어처리란 Natural Language Processing의 약자로, 인간이 텍스트 기반 소통을 할 때와 동일한 방식으로 컴퓨터가 텍스트와 구어를 이해할 수 있는 능력을 컴퓨터에 제공하는 것을 의미하며, 이와 관련된 컴퓨터 과학의 한 분야, 보다 구체적으로는 인공 지능 또는 AI의 한 분야를 뜻한다.

 

쉽게 설명해 인간의 언어에 존재하는 규칙들을 프로그래밍하여 마치 실제 사람이 이야기하는 것과 같이 자연스럽게, 맥락에 맞는 대화가 가능하도록 구현을 할 수 있게 도움을 주는 AI 분야라고 이해하면 될 것 같다.

 

 

그렇다면 Chatbot에서 가장 중요한 것은 무엇일까?

1. 오늘의 날씨가 어때?

2. 주변에 맛집을 알려줘

3. 멀티 모달 관련 연구를 위한 실험 설계 방법을 알려줘

 

질문자의 입장에서는 사실 챗봇이 어떻게 구동할지 보다, 어떤 대답을 내놓는지에 더 집중을 하기 마련이다.

하지만 어떤 질문을 할지에 따라서 사용되는 데이터는 천차만별이다.

 

1. 한국 서울의 실시간 날씨 정보가 될 수도 있고,

2. GPS 기반 네이버 지도의 4.5 별점 이상의 식당 리스트가 될수도 있고,

3. 웹상에 존재하는 멀티모달과 관련 논문들 중 Impact factor가 가장 높은 저널 랭킹 중 상위 5개 만을 노출시킬 수도 있다.

 

단순히 데이터만을 수집하는 것이 아니라, 나름대로의 '규칙'과 '기준'대로 이를 필터링해서 유저가 만족해할 만한 데이터를 보여주거나 혹은 '올바른 질문'을 유도하는 것이 이제 챗봇의 주요 과제가 되었다.

 

이전에는 보다 많은 데이터를 수집하고 저장하고 출력하는 것이 주요 과제였다면, 이제는 Bing 챗봇을 시작으로 실시간으로 연동되는 웹상의 데이터를 어떻게 '더 잘, 정확하게, 요구에 맞게' 보여줄수 있을까?로 질문의 방향성이 변화하고 있는 것이다. 

 

ChatGPT 구동 화면

 

▶ 실제로 ChatGPT의 경우, 실시간으로 데이터를 끌어오지 못하기 때문에 원하는 데이터를 얻기 위해서 '어떤 방법'을 사용해야 할지를 안내하는 방식으로 AI가 답을 내놓지 못할 경우 유저들이 스스로 원하는 정보를 찾을 수 있게끔 도움을 주고 있다.

 

반대로 Bing 챗봇에 같은 질문을 물어보자.

Bing Chat 구동 화면

▶ Bing Chatbot의 경우,내가 정확히 어느 국가, 어떤 도시의 날씨를 알려달라고 얘기하지 않아도 서버에 저장된 GPS 데이터에 기반해 실시간으로 날씨 정보를 알려준다. 이처럼 Chat GPT의 한계를 보완한 형태로 챗봇의 구동이 이제 가능해진 것이다.

 

 

어떻게 질문에 대한 답을 '더 잘' 보여줄 수 있을까?

나는 멀티모달을 통해서 위 질문을 해결할 수 있을 거라 생각한다.

멀티모달이란 간단히 설명해 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 뜻한다. 그리고, 모달(=모달리티, modality)은 인터랙션 과정에서 사용되는 의사소통 채널을 말한다

 

아래 이미지를 참고해서 이해하면, 이렇듯 다양한 '채널'을 활용해 음성, 표현, 시선을 동시에 활용해 소통을 할 수 있는 환경을 일컫는 개념이라고 볼 수 있다. 

 

출처: 멀티모달 인터페이스 개발을 위한 휴먼-컴퓨터 인터랙션 설계, 임미정, 2006

 

이게 Chatbot과 무슨 상관이 있을까?

옳은 질문만 한다면, 이제 Chatbot은 텍스트 기반의 Chat에서 벗어나 Visualization이 가능한 Chat까지도 구현이 가능해질 거라고 생각한다. 즉, 멀티 모달의 환경에서의 구동으로도 발전이 가능하다는 것이다. 

 

예를 들어, 기존에는 "오늘 날씨가 어때?" 하는 텍스트 기반의 질문을 PC나 모바일 스크린을 통해 던지고,

텍스트 기반으로 답변을 받았다면,

이제는 챗봇에서 바로 그림 혹은 이미지를 함께 출력하여 날씨가 표현되는 수준에서 애니메이션,

그리고 더 나아가 Virtual Reality 혹은 Augmented Reality의 결합을 통해 3D 경험을 전달하는 데까지 확장할 수 있다. 

 

다른 말로, Chatbot 그 자체를 메타버스 안으로 가져올수 있다면 텍스트나 voice 기반의 검색 시스템이 아니라

보고 듣고 경험할 수 있는 검색 환경이 도입될 수 있다

 

 

멀티모달 환경이 왜 중요한가?

메타버스 안에서 배제할수 없는 것이 바로 '실재감'과 '몰입감'이다.

다양한 환경 안에서 최대한으로 몰입감을 유도할 수 있는 방법으로 경험을 제공하는 것이 콘텐츠의 승부수를 가를 수도 있는 중요한 요인으로 작용하는 메타버스이기 때. 문. 에

새로운 인터페이스로써 챗봇을 활용하는 것이 아예 새로운 메타버스 생태계를 구축할 수 있는 기회를 가져올 수 있다.

 

 

이상(理想)으로만 남겨질 미래인가?

물론 이러한 가정이 현실이 되기 위해선 '정보의 오감(五感)' 그 중에서도 시각적, 청각적 데이터 구현이라는 전제가 우선적으로 성립되어야 한다.

 

챗봇의 검색 기능을 구동하면서 동시에

Text에 적절한 이미지를 필터링해 자동으로 3D화 시키거나(시각),

이미지에 적합한 소리를 자동으로 입히거나(청각),

혹은 실제로 존재하는 2D 이미지를 실시간으로 입체적으로 보여주거나 하는 기술의 도입이 필요하다.

 

하나의 플랫폼 안에서 이 모든 기능을 연동해서 구축하는 작업은 매우 매우 까다롭고 힘든 것이 사실이다.

그래서 지금은 그저 개인의 가설과 희망으로만 먼저 미래를 그려보는 것에서 글을 마치려 한다. 

 

하지만 이미 Nerf (Neural Radience Fields)를 포함해 실시간 3D 렌더링 AI 기술들이 발전에 발전을 거듭해 오고 있는 중인 만큼, 곧 이런 글로써만 상상하던 챗봇의 미래가 도래하지 않을까 기대해 본다. 


*본 글은 개인의 견해와 주관으로 작성되었습니다. 문제의 소지가 있는 내용이 있을 경우 댓글로 연락 부탁드립니다.