[퓨처드릴] 구글 ‘제미나이’로 알아보는 멀티모달 AI

멀티모달 AI 제미나이의 모든 것을 알려 Drill 게요!

2023. 12. 17.

2023.12.18 | vol. 9 | 구독하기 | 지난 호 모아보기

미래에 할 수 있는 경험을 사전 예약하신 퓨처드릴 구독자, 드릴러 🛠️ 님 안녕하세요! AI 서비스 사용 경험, 요점만 저장해 drill 퓨처드릴 에디터 플로피 💾 입니다.

최근 구글에서 공개한 AI 모델 ‘제미나이(Gemini)’로 AI 생태계의 새로운 지평이 열림을 예감할 수 있었는데요. 이미 경쟁이 시작된 AI 시장에서 제미나이가 주목 받는 중심에는 바로 ‘멀티모달 AI’라는 차별점이 있었습니다.

오늘은 멀티모달 AI는 무엇인지, 기존의 AI 모델과 어떤 점이 다른지, 구글 제미나이는 멀티모달 AI로서 어떠한 일들을 수행할 수 있는지 쉽고 재밌게 설명해 drill게요 🤓

시작하기 - Turning On the Drill

들어가기에 앞서, 멀티모달이란 무엇일까요?

멀티 모달리티(Multi-Modality)의 줄임말로, 인간과 컴퓨터가 소통하는 다양한 환경을 뜻합니다. 처음 단어를 접한 후 그 의미를 제대로 이해하기 어려운 분들을 위해, 디스콰이엇 채널에 업로드 된 글 ‘멀티모달이 무엇이고 왜 중요할까?’를 추천드려요!

출처 : https://inlpcenter.org/nlp-submodalities-courtney/

우리, 즉 인간은 소통을 할 때 시각, 청각, 촉각 등 다양한 감각을 활용합니다. 위의 그림처럼요.

그렇다면 무형의 AI는 어떻게 정보나 상황을 인지하고 이해할까요? 인터랙션 과정에서 어떤 채널(모달)을 활용할까요?

우리에게 시각, 청각, 촉각과 같은 감각은 AI에게는 데이터와 같습니다. 데이터의 종류는 다양한데요. 이미지🖼️, 자연어🔡, 오디오🗣️ 등이 있습니다. 이는 각각 CV(computer vision), NLP(Natural Language Processing)과 같은 기술들로 가공됩니다. 멀티모달 AI는 이처럼 다양한 형태의 데이터를 동시에 분석하고 결과를 출력할 수 있는 능력을 갖추고 있습니다.

기존 AI와 멀티모달 AI의 차이를 알 수 있는 쉬운 예시를 한 가지 가져왔습니다.

멀티모달이 없는 텍스트 기반 대화형 챗봇에 ‘해바라기🌻’를 검색하는 상황을 상상해볼게요. 이때, AI는 사람들이 남긴 텍스트 형태의 흔적을 기반으로 인간의 언어와 질문을 이해하고 답변을 제공합니다. 즉, 해바라기에 대해 알려진 데이터를 수집하고 분석해 설명할 순 있으나 해바라기의 노란색은 어떤 색인지, 크기는 얼마나 큰지와 같은 실제 해바라기의 모습을 ‘인식’할 수는 없습니다.

이를 인식할 수 있는 다양한 감각 기관을 AI에게 붙여주는 기술이 바로 멀티모달입니다. 멀티모달 AI의 대표적인 예시로 OpenAI의 이미지 생성형 모델 ‘달리(DALL-E)’를 가져와보았는데요. 아래의 두 그림을 보며 설명해보겠습니다.

출처: DALL-E, OpenAI

두 그림은 모두 달리에 텍스트를 입력한 후 이미지의 형태로 출력한 결과물입니다.

두 사진은 각각 ‘반 고흐 스타일로 그린 미국 풋볼 선수’, ‘맑고 화창한 날 들판의 꽃 한 가운데에 선글라스를 낀 채로 서있는 해바라기 사진’이라는 텍스트를 입력한 결과입니다.

이 그림을 출력하기 위해서는 AI에게 반 고흐의 작품, 미국 풋볼 선수, 선글라스, 해바라기 등과 같은 텍스트와 이미지의 관계를 학습시키는 과정이 선행되어야 합니다. 이 과정을 통해 AI는 텍스트의 실제 형태를 이해하게 되고, 여러 이미지 속에서 기억하고 있는 개체를 발견하거나 분별합니다. 이를 기반으로 요청에 알맞은 결과물을 직접 이미지로 그려낼 수 있는 것이죠!

제미나이, “Anything to Anything”

출처: Google

구글의 AI 모델 제미나이(Gemini)는 ‘Anything to Anything’이라는 슬로건으로 자신들의 강점을 드러내고 있습니다. 멀티모달 AI로서, 어떠한 형태든 입출력 데이터를 처리할 수 있다는 점이죠.

연속 추론이 가능한 CoT 답변 방식

출처: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Wei et al. (2022)

특히 제미나이의 답변 방식은 CoT(Chain of Thought, 생각의 사슬)를 기반으로 연속 추론이 가능하다는 특징이 있습니다. 즉, 문제를 해결하기 위한 추론의 과정을 AI가 스스로 단계별로 분해하여 설명할 수 있다는 것인데요. 사전에 학습시킨 유사한 예시를 기반으로 답변을 생성하는 5-shot 방식보다 더욱 명시적이고 논리적 오류가 적은 결과를 도출할 수 있습니다.

출처: Multimodal Chain-of-Thought Reasoning in Language Models, Zhang et al. (2023)

텍스트 뿐만 아니라 이미지, 영상, 오디오 등 다양한 형태의 데이터를 자유롭게 입출력할 수 있다면, CoT 프롬프팅은 얼마나 더 강력할지 예상이 가시나요? 멀티모달 CoT의 추론 과정 예시를 가지고 와보았는데요.

크래커와 감자튀김 두 사진을 보여주며 “두 물체의 공통점으로 가장 알맞은 단어를 골라줘.”라는 요청을 했습니다. 그러자 두 이미지가 어떤 물체인지, 물체의 특징은 무엇인지를 설명하고 공통점을 발견해내는 과정을 AI가 직접 설명하고 있습니다.

이처럼 멀티모달 정보를 기반으로 근거를 생성한 후, 이를 기반으로 답변을 도출함을 알 수 있습니다. 텍스트 위주의 기존 CoT와는 달리 텍스트와 이미지와 같은 여러 형태의 데이터를 통합할 수 있습니다.

태생적 멀티모달 (natively multimodal) AI 모델

출처: Google

제미나이는 개발 초기 단계부터 여러 종류의 모달리티로 학습한 ‘태생적 멀티모달(natively multimodal)’ AI 모델입니다. 처음부터 여러 형태의 데이터를 동시다발적으로 학습하며 제미나이만이 가진 강점을 견고히 다질 수 있었죠. 구글은 공식 유튜브 채널을 통해 새로운 멀티모달 AI인 제미나이의 기능 테스트 영상📽️을 공개했는데요. 제미나이에 몇 가지 이미지를 보여주고 보이는 것을 추론하는 과정에서 흥미로운 상호작용의 가능성을 보여주고 있습니다.

출처: 구글 유튜브 영상 'Hands-on with Gemini: Interacting with multimodal AI'

본 영상의 첫 번째 예시로 ‘파란 오리 그리기🦢’가 등장했습니다. 인간이 그리는 오리 그림을 보고, 제미나이는 다음의 결과를 출력했어요:

테이블 위에 종이를 올려두는 모습이 보여요. 구불구불한 선이 보여요. 윤곽선이 부드럽게 흐르듯 그러졌어요. 뾰족한 각, 삐죽삐죽한 모서리 없이요.
새처럼 보여요. 새가 물에서 수영하고 있네요. 긴 목과 부리를 가지고 있네요. 이것은 오리군요. 오리는 거위, 백조와 친척 관계예요.
이 오리는 파란색이네요. 파란색은 오리에게 보편적인 색이 아니죠. 하지만 가끔 파란색의 오리도 존재하긴 해요. 갈색이나 검은색, 흰색이 더 일반적인 색입니다.

이후 그림과 똑같은 모습의 오리 모형을 보여주며, 이 오리가 물에 뜰 수 있을지 그리고 오리라는 단어를 다른 언어로 알려달라는 요청에 다음의 수행 결과를 보여주었습니다.

어떤 재료로 이 오리가 만들어졌는지는 모르겠지만 고무나 플라스틱처럼 보여요. (…) 이것은 분명 물에 뜰 거예요. 고무 오리니까요. 물보다 밀도가 낮은 재료로 만들어졌죠.
(스페인어, 프랑스어, 한국어, 일본어, 중국어 등 다양한 언어로 ‘오리’ 단어를 알려주며)
중국어로 오리를 발음할 때에는 1성으로 발음해야 해요. 중국어는 총 4개의 성조가 있어요. 단어의 의미를 구별할 때 필수적이죠. (…)

이 과정에서 제미나이는 사람이 그리는 그림이 무엇인지 설명하는 것과 더불어, 물체를 다양한 언어로 번역하고 발음하는 방법을 오디오🔈를 통해 들려주기도 했습니다.

AI와 사람이 할 수 있는 상호작용의 범위가 한층 넓고 자연스러워짐을 체감할 수 있는 영상이에요.

멀티모달 AI ‘제미나이’ 테스팅하기

위 기술들을 기반으로 향후 제미나이는 어떠한 일들을 수행할 수 있을까요? 구글은 유튜브를 통해 Testing Gemini 영상 시리즈를 업로드하며 이에 대한 실마리를 제공하고 있습니다. 그중에서도 이해하기 쉽고 재미난 예시 몇 가지를 소개하려 합니다.

1) 이미지를 코드로 바꾸기

아래는 제미나이에게 나무 사진을 보여준 후 요청한 사항과 결과물입니다.

Q. 이 이미지를 반응형 HTML/JS 데모 버전으로 바꿔줄 수 있어?
Can you turn this image an interactive HTML/JS demo?

A. HTML과 자바스크립트 코드를 사용하여 이 나무를 표현할 수 있어요. 이것을 위한 알고리즘을 우리는 보통 ‘프랙탈 트리’라고 불러요. 그것은 재귀적으로 갈라지는 가지들을 포함해요.

We can definitely represent this tree using HTML and Javascript code. A common algorithm for this is called a “fractal tree”. It includes recursively splittng branches.

출처: 구글 유튜브 영상 ‘Testing Gemini: Turning Images into code’

요청사항에 대한 결과물로 프리뷰 그리고 코드를 모두 완벽하게 제공함을 볼 수 있습니다.

‘프랙탈 트리’라는 알고리즘에 대한 결과물 설명은 할루시네이션 현상이 아닐까 생각했었는데요. 검색해보니 실제로 알고리즘의 종류 중 프랙탈 구조를 나무 모양으로 나타낸, 재귀함수를 도형으로 만든 ‘프랙탈 트리’가 있음을 알 수 있었어요 👀

수학적 추론 등 다양한 사회적 지식을 바탕으로 활용해 이미지를 반응형 코드로 재탄생시킨 제미나이의 창의력이 신기했던 예시입니다.

2) 영화 제목 맞추기

두 번째 항목은 마치 AI와 예능 방송에서 게임을 하는 듯한 재미를 느낄 수 있었던 ‘영화 제목 맞추기🎞️’입니다.

제미나이에게 몇 가지 이미지를 보여주며 연상되는 영화 제목을 추론하는 요청을 했습니다. 여러분도 아래의 이미지를 보고 어떤 영화일지 맞춰보세요!

출처: 구글 유튜브 영상 'Testing Gemini: Guess the movie'

좌측의 예시에서는, 아침식사(Breakfast) 그리고 클럽 혹은 파티 이미지를 조합해 제미나이가 ‘더 브렉퍼스트 클럽’라는 제목을 추론해냈습니다.

우측의 예시는 다소 어려운 난이도와 조합이었는데요. 제미나이는 숲(Forrest)와 G라는 알파벳 그리고 범프에서 B를 빼라는 의미를 이해하고 최종적으로 ‘포레스트 검프’라는 제목을 맞췄습니다😬

이외에도 이미지와 텍스트의 연관성을 분석해 ‘문라이즈 킹덤’, ‘오즈의 마법사’ 등 유명한 영화들을 척척 맞췄는데요. 본 테스트 영상으로 제미나이가 복합적인 형태의 데이터를 활용해 문제 해결을 위해 직접 추론하는 사고력이 어마무시하다는 것을 알 수 있었습니다.

3) 핏 체크(Fit Check) 하기

출처: 구글 유튜브 영상 'Testing Gemini: Fit Check'

제미나이는 아웃핏👗을 체크하고, 관련한 아이디어를 제안하는 일 또한 수행할 수 있습니다.

상단 좌측 이미지는 옷을 상황에 맞게 잘 입었는지 확인하는 핏 체크(Fit Check)를 요청한 결과입니다. 이 옷을 가장 잘 입을 수 있는 사람(상황)이 무엇일지 질문을 하자, 제미나이는 다음과 같이 답변합니다.

A. 그들은 추운 툰드라에서 따뜻하게 입고 있어요. 자켓 색깔인 파란색은 빙하와도 잘 어울리는 색깔이죠.

They are wearing warm in a cold tundra. The jacket is also blue, which is good color blending in with glacial ice.

옷의 이미지를 보고 이것이 자켓이라는 점을 발견하고, 추운 날씨에 입어야 한다는 점 그리고 색깔이 잘 어울리는 환경이 무엇인지까지 추론한 답변이었습니다.

뿐만 아니라 우측 이미지처럼 자켓에 우주 비행사 헬멧과 색소폰이라는 독특한 아이템을 추가한 코디를 보여주었는데요. 그리고는 이 스타일을 하나의 용어로 만들어달라고 요청하자, 제미나이는 ‘문코어(Mooncore)’라는 센스 있는 신조어를 만들어냈습니다.

마무리하기 - Turning Off the Drill

멀티모달이 탑재된 제미나이는 AI로서 높은 성능을 증명하는 다양한 수치적 결과들을 발표했는데요. 일례로 수학, 법률, 물리 등 여러 복합적인 주제를 기반으로 지식 및 문제 해결 능력을 평가하는 테스트에서는 ‘인간’ 전문가보다 훨씬 높은 기록 90.04%라는 점수를 받았습니다.

하지만 구글 ‘제미나이’에 대한 논란 또한 존재하는데요. 바로 구글에서 공개한 시연 영상들이 조작되었다는 논란이 있었기 때문입니다. 인간과 제미나이가 음성으로 대화를 나누고 물리적 개체를 인식하는 등의 모습을 보여준 것은 사실 정지 화면을 편집했다는 내용인데요. 구글은 영상 편집 사실은 인정하며 제미나이의 인터랙션 가능성을 나타내려는 의도였다고 해명하기도 했습니다.

현재 구글은 나노, 프로, 울트라 세 버전으로 구성되어 있으며, 구글 바드에서 프로 버전을 사용할 수 있는데요. 초기 테스트 결과 간단한 번역이나 정보 파악도 수행하지 못해 불만족스럽다는 의견이 연달아 등장하며 제미나이의 능력은 과대포장되었다는 평가도 나오고 있습니다.

드릴러 여러분들의 의견은 어떠신가요? 아직 출시 초기 단계인 제미나이가 멀티모달 AI로서 우리 일상에 어떠한 도움을 줄 수 있을지, 정말 ChatGPT를 능가하는 기술을 보여줄 수 있을지 향후 방향이 궁금해지는 내용이었습니다.

오늘은 멀티모달 AI의 기술적 원리부터 시작해 제미나이와 관련한 여러 뉴스 또한 알아보았는데요. 기술적 배경을 바탕으로 어떻게 인류에게 도움을 주는 형태로 발전해나갈지 기대하는 마음으로 오늘의 글 마치겠습니다. 읽어주셔서 감사합니다 💌

📝 오늘의 AI 단어 : 멀티모달 AI (Multi-modal AI)

멀티모달 AI란 텍스트, 오디오, 이미지 등 다양한 형태의 데이터 형식 및 채널 간의 상호작용을 동시에 수행하는 인공지능 기술을 의미합니다.

기존의 AI는 텍스트 혹은 자연어에 기반해 개발되었기 때문에 텍스트를 다른 형태의 데이터로 이해하는 데에는 한계가 있었습니다.

예를 들어, 기존의 AI는 ‘강아지’라는 단어를 학습된 텍스트 데이터를 기반으로 설명할 수 있지만 실제로 강아지가 어떻게 생겼고 어떤 소리를 내는지와 같은 심도 있는 이해를 하지 못했습니다.

멀티모달 AI는 서로 다른 데이터의 연관성을 학습시키는 원리입니다. 멀티모달 AI에게 강아지의 이미지를 보여주면 견종부터 색상 등 다양한 정보를 추론하고 결과값을 도출할 수 있습니다.

AI 관련 인사이트를 공유하며 한 해 마무리를 퓨처드릴 팀원들과 함께 할 수 있어 감사합니다.

본 뉴스레터는 모두의연구소 AIX LAB에서 발행하고 있습니다.

📬퓨처드릴 구독하기

💌피드백으로 응원하기

👇🏻 퓨처드릴 인스타그램 계정 팔로우하고, 빠르게 소식을 확인하세요 👇🏻

퓨처드릴 - AIX를구독하고 이메일로 받아보세요

AI Experience (AIX)의 이모저모를 전해드리는 '퓨처드릴'입니다!

이전 뉴스레터

[퓨처드릴] 노코드로 나만의 AI 머신러닝 모델 만들기

2023. 12. 10.

다음 뉴스레터

[퓨처드릴] 특별호 - 퓨처드릴은 어떻게 시작되었나용 🐉

2024. 1. 8.

퓨처드릴 - AIX

AI Experience (AIX)의 이모저모를 전해드리는 '퓨처드릴'입니다!

이 페이지는 스티비로 만들었습니다.