본문 바로가기
TREND/인공지능

멀티모달로 진화하는 AI

by inniable 2023. 3. 30.

멀티모달로 진화하고 있는 AI

 

오픈AI의 챗GPT와 같은 인공지능 챗봇을 비롯하여, 구글의 알파폴드(단백질 구조 분석 AI) 등 LLM(대형언어모델, Large Language Model)이 주로 사용되고 있습니다. LLM은텍스트로 명령어를 입력해야 작동을 합니다. 그런데 이런 언어모델이 텍스트 명령어가 아닌, 소리, 이미지 및 영상 등을 입력해도 작동하는 멀티모달 언어모델을 목표로 MS, 구글 등이 연구에 박차를 가하고 있습니다.

 

1. 멀티모달이란?

예를 들어, 사람이 태어나서 처음 사과라는 개념을 이해하기 위해서는 맛을 보고, 먹는 소리를 듣고, 사과의 색깔과 크기 그리고 사과를 사용한 여러가지 요리 등을 맛보고 느끼며 인지하게 됩니다. 즉, 단순히 글자로서 사과가 아닌 제대로 된 사과를 인식하게 되는 것입니다. 인공지능도 이처럼 사과라는 개념을 온전히 이해하기 위해서는 텍스트가 아닌 다양한 감각을 통해 인식해야 사람과 제대로 소통할 수 있는 AI가 되는 것입니다.

 

여기서 등장한 용어가 '멀티 모달러티(Multi Modality)'입니다. Modality의 사전적 의미는 '양상' '양태' '법성'이란 뜻입니다. 보통 어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식을 말하는 것입니다. 그래서 인공지능에서 말하는 멀티모달이란 시각, 청각을 비롯한 여러 인터페이스를 통해서 정보를 주고 받는 것을 말하는 개념입니다. 이렇게 다양한 채널의 모달리티를 동시에 받아들어 학습하고 사고하는 AI를 '멀티모달 AI'라고 부릅니다.

 

2. 멀티모달 AI

 

가. 마이크로소프트 코스모스-1

마이크로소프트는 멀티모달형 언어모델 코스모스-1을 공개했습니다.

KOSMOS-1은 텍스트와 이미지를 인식하고 지시에 따른 작업뿐만 아니라 다중 모드 작업에 대한 상황을 학습할 수 있는 멀티모달 언어모델입니다.(사진 Microsoft)

오픈AI에 대한 투자와는 별개로 MS 자체적으로 개발하는 모델인 듯 합니다. 코스모스-1의 주요기능은 다음과 같습니다.

1) 이미지의 내용을 읽고

2) 시각적 퍼즐을 풀고,

3) 이미지 속 텍스트를 인식하고,

4) 자연어로 주어진 지시를 이해합니다.

다양한 입력 모드를 통합한 MLLM(멀티모달 대형 언어모델, Multi-Modal Large Language Model)은 인간 수준에서 일반 작업을 수행할 수 있는 범용인공지능(AGI)를 구축하는 데 핵심 단계로 꼽힙니다. AGI는 오픈AI나 구글 자회사 딥마인드의 명시적인 사업목표입니다.

 

나. 구글 PaLM-E

구글은 업무를 사전 훈련 없이 수행하는 범용 로봇 AI 모델을 공개하였습니다. 시각적인 정보와 언어를 통합한 MLLM 생성AI로 매개변수(파라미터)가 5천620억개에 달한다고 합니다. 이 모델은 구글과 베를린 공과대학 AI연구원과 함께 2023년 3월에 공개되었습니다.

PaLM-E가 탑재된 로봇이 명령을 수행하는 모습

이 AI는 높은 수준의 명령을 받은 후 카메라로 주위 사물을 인식하고 순차적 작업 계획을 만들어 스스로 수행합니다. 예를 들어 '서랍에서 쌀가루 가져와'라는 명령을 내리면 팔을 가진 로봇이 사전에 정해진 훈련을 받지 않아도 작업을 실행할 수 있습니다.로봇의 카메라는 비전 데이터를 분석하여 이를 수행합니다. 사람이 사전에 데이터를 처리하거나 주석을 달지 않아도 되며, 자율적인 로봇제어가 이루어집니다.

 

다양한 용도의 범용 로봇AI를 만들기가 어렵습니다. 기존 로봇은 인간에게 특정 작업 흐름을 안내받아 작동하고, 고도의 AI라고 하여도 데이터의 입력과 학습을 거쳐야 하기 때문입니다. 반면, PaLM-E는 복잡한 시퀀스를 가진 작업도 스스로 만들 수 있습니다. 인간의 지시에 따라 탐색과 조작 작업을 계획합니다. 만약 '음료수를 쏟았는데 치울 것을 가져다 줄래?'라는 지시를 받으면 '스폰지 찾기-스폰지 집기-스폰지 가져오기-내려놓기' 등의 시퀀스를 계획하고 수행합니다. 또한 주변환경을 탄력적으로 반응하고 적응합니다. 애초 계획된 흐름을 방해하는 상황을 만나면 즉시 새로운 행동계획을 수립합니다.

반응형

'TREND > 인공지능' 카테고리의 다른 글

sLLM 기반의 인공지능  (0) 2023.04.04
인공지능의 발전과 위험  (0) 2023.03.31
MS 365 코파일럿  (0) 2023.03.30
ChatGPT Plugin  (0) 2023.03.29
챗GPT 및 AI활용 사례 세번째  (0) 2023.03.29