AI와 친구처럼 수다 떠는 시대? 구글 제미나이의 목소리가 '진짜 사람'처럼 변합니다

AI Summary

구글이 제미나이 2.5 및 3.1 모델에 '네이티브 오디오' 기능을 강화하여, 기계적인 음성을 넘어 사람처럼 자연스럽고 복잡한 대화를 수행할 수 있는 혁신적인 음성 경험을 제공합니다.

AI가 드디어 ‘진짜 목소리’를 찾았습니다

상상해보세요. 낯선 외국 도시의 카페에서 주문을 하려는데 말이 통하지 않아 당황스러운 순간, 스마트폰을 꺼내 AI에게 도움을 요청합니다. 그런데 이 AI가 예전처럼 딱딱한 기계음으로 문장을 읽어주는 게 아니라, 옆에 있는 친구처럼 자연스러운 억양과 속도로 대신 말을 건넵니다. 심지어 상대방의 대답까지 실시간으로 통역해준다면 어떨까요?

Enhanced Gemini Audio Models Drive More Powerful Voice Experiences에 따르면, 구글 딥마인드는 사용자들이 훨씬 더 자연스럽고 강력한 음성 경험을 누릴 수 있도록 제미나이(Gemini) 모델의 오디오 기능을 대폭 업그레이드했습니다. 이제 AI는 단순히 텍스트를 소리로 변환하는 단계를 넘어, 소리 데이터를 변환 과정 없이 직접 처리하는 ‘네이티브 오디오(Native Audio)’ 시대로 접어들고 있습니다.

이게 왜 중요한가요?

우리는 일상에서 목소리로 소통할 때 단순히 단어만 전달하지 않습니다. 말의 빠르기, 억양, 그리고 대화의 맥락에 따라 같은 단어도 전혀 다른 의미를 갖게 되죠. 그동안의 AI 음성은 글자를 소리로 바꾸는 ‘읽어주기(TTS)’ 방식에 가까워 이런 미묘한 뉘앙스를 살리기가 어려웠습니다.

하지만 이번 업데이트를 통해 제미나이는 사람처럼 대화하는 능력을 갖추게 되었습니다. Improved Gemini audio models for powerful voice interactions에서 언급된 것처럼, 업그레이드된 제미나이 2.5 네이티브 오디오 모델은 실시간 통역과 더욱 강력한 음성 비서(Live Agent) 기능을 제공합니다.

이러한 변화는 우리의 일상을 획기적으로 바꿀 수 있습니다.

스마트한 온라인 쇼핑: 쇼핑몰에서 AI 상담원과 마치 매장 직원과 이야기하듯 자연스럽게 대화하며 물건을 고를 수 있습니다. [Gemini 2.5 Flash Native Audio: AI Voice Interactions

](https://supermaker.ai/voice/gemini-flash-native-audio/)에서는 이것이 훨씬 직관적이고 자연스러운 쇼핑 경험을 만들어낼 것이라고 설명합니다.

검색의 진화: 이제 검색창에 타이핑하는 대신, 궁금한 점을 말로 물어보면 AI가 소리를 직접 이해하고 최적의 답변을 찾아줍니다. Google Gemini Launches Native Audio Model for Enhanced Search에 따르면 구글은 ‘서치 라이브(Search Live)’ 기능을 강화하여 이러한 경험을 현실로 만들고 있습니다.

쉽게 이해하기: ‘네이티브 오디오’가 대체 뭔가요?

이 기술을 쉽게 이해하기 위해 ‘악보 읽기’와 ‘연주하기’의 차이를 비유해보면 좋습니다.

예전의 AI 방식은 악보(텍스트)를 보고 한 음 한 음 기계적으로 건반을 누르는 방식이었습니다. 반면, 네이티브 오디오 방식은 AI가 음악의 감정과 리듬을 직접 느끼고 즉흥 연주를 하는 연주자와 같습니다. 소리를 중간 단계(텍스트 변환) 없이 직접 이해하기 때문에 훨씬 더 생생하고 풍부한 표현이 가능해진 것입니다. 쉽게 말해서, AI가 언어뿐만 아니라 ‘목소리의 맛’까지 이해하게 된 셈이죠.

특히 구글은 두 가지 강력한 모델을 선보였습니다:

제미나이 3.1 플래시 라이브(Gemini 3.1 Flash Live): 구글이 제공하는 가장 높은 품질의 오디오 모델로, 실시간 대화에서 끊김 없고 신뢰할 수 있는 성능을 보여줍니다. Gemini 3.1 Flash Live: Google’s latest AI audio model
제미나이 2.5 플래시 & 프로: 이 모델들은 마치 스튜디오에서 녹음한 것 같은 고품질 음성을 만들어낼 수 있습니다. 특히 놀라운 점은 ‘다중 캐릭터 대화(Multi-character dialogue)’ 기능입니다. Google Gemini 2.5 Text-to-Speech Update — Studio-Quality Voice …에 따르면, AI가 여러 명의 목소리를 번갈아 내며 대화하는 상황도 자연스럽게 연출할 수 있습니다. 마치 한 명의 성우가 여러 명의 캐릭터를 완벽하게 연기하는 라디오 드라마처럼 변신하는 것입니다.

현재 상황: AI의 ‘듣기 능력’ 시험 점수는?

AI가 얼마나 말을 잘 알아듣고 복잡한 일을 처리하는지 확인하기 위해 전문가들은 ‘ComplexFuncBenchAudio’라는 시험을 치르게 합니다. 일종의 ‘AI용 수능 듣기 평가’라고 볼 수 있는데요. 업그레이드된 제미나이 2.5 네이티브 오디오 모델은 이 시험에서 71.5%라는 높은 점수를 기록했습니다. Improved Gemini audio models for powerful voice interactions 이는 AI가 단순히 말을 알아듣는 수준을 넘어, 복잡한 업무 지시를 정확히 이해하고 실행하는 능력이 크게 향상되었음을 의미합니다.

또한, 이 새로운 오디오 모델은 이미 다양한 플랫폼에서 활약 중입니다. Improved Gemini audio models for powerful voice interactions에 따르면, 현재 이 모델은 ‘구글 AI 스튜디오’와 ‘버텍스 AI’에서 개발자들이 사용할 수 있으며, 일반 사용자들을 위한 ‘제미나이 라이브’와 ‘서치 라이브’에도 순차적으로 적용되고 있습니다.

여기에 시각적인 결과물을 만들어내는 도구인 ‘나노 바나나 프로(Nano Banana Pro)’ 모델 등 구글의 다른 AI 도구들과 결합하여 더욱 풍성한 멀티미디어 경험을 제공하고 있습니다. Gemini 2.5 Flash Native Audio brings more natural, smarter

앞으로의 전망: 대화 파트너로 거듭나는 AI

구글의 이러한 행보는 AI를 우리의 일상 속에 더 깊숙이 스며들게 할 것입니다. 이제 우리는 AI를 차가운 ‘검색 도구’가 아니라 따뜻한 ‘대화 파트너’로 인식하게 될지도 모릅니다.

개발자들은 ‘제미나이 라이브 API(Gemini Live API)’를 통해 자신만의 강력한 음성 비서를 만들 수 있게 되었고, Build More Powerful Voice Agents with the Gemini Live API, 구글 번역 앱을 통해서는 언어의 장벽이 거의 느껴지지 않는 수준 높은 실시간 통역 서비스를 경험하게 될 것입니다. Improved Gemini audio models for powerful voice interactions

또한, 구글은 제미나이 2.5 모델에 ‘딥 싱크(Deep Think)’라고 불리는 새로운 추론 모드를 도입하여, AI가 단순히 대답하는 것을 넘어 더 깊이 고민하고 논리적으로 사고할 수 있도록 개선하고 있습니다. Google says Gemini 2.5 models are only getting better with Deep

결국 미래의 AI는 우리의 목소리 톤에서 미묘한 감정을 읽어내고, 상황에 맞는 가장 적절한 대답을 건네며, 복잡한 업무까지 척척 처리해주는 든든한 조력자가 될 것입니다.

MindTickleBytes의 AI 기자 시선

이번 구글의 업데이트는 AI가 인간의 영역인 ‘감성적인 소통’에 한 발짝 더 다가섰음을 보여줍니다. 기계가 사람의 말을 이해하는 수준을 넘어, 말투와 뉘앙스까지 닮아가는 모습은 편리함을 주는 동시에 우리가 기술과 맺는 관계에 대해 새로운 질문을 던지게 합니다. 이제 목소리는 단순한 입력 수단(인터페이스)이 아니라, AI가 우리와 정서적인 관계를 맺는 가장 강력한 도구가 될 것입니다. 훗날 우리는 AI의 목소리만 듣고도 그 ‘성격’을 떠올리는 시대를 살게 되지 않을까요?

참고자료

Gemini 2.5 Native Audio upgrade, plus text-to-speech model
Gemini 3.1 Flash Live: Google’s latest AI audio model
Google Gemini Launches Native Audio Model for Enhanced Search
Gemini 2.5 Flash Native Audio brings more natural, smarter
Gemini 2.5: Our most intelligent models are getting even better
Improved Gemini audio models for powerful voice experiences
Google says Gemini 2.5 models are only getting better with Deep
[Gemini 2.5 Flash Native Audio: AI Voice Interactions ](https://supermaker.ai/voice/gemini-flash-native-audio/)

[Google Gemini is about to sound totally different

Android](https://www.androidcentral.com/apps-software/google-gemini-is-about-to-sound-totally-different)

Improved Gemini audio models for powerful voice interactions
Improved Gemini audio models for powerful voice interactions
Enhanced Gemini Audio Models Drive More Powerful Voice Experiences
Improved Gemini audio models for powerful voice interactions
Google Gemini 2.5 Text-to-Speech Update — Studio-Quality Voice …
Build More Powerful Voice Agents with the Gemini Live API

FACT-CHECK SUMMARY

Claims checked: 15
Claims verified: 14
Verdict: PASS

Share this article:

이 글을 얼마나 이해했나요?

Q1. 구글이 발표한 모델 중 '가장 품질이 높은 오디오 모델'로 꼽히는 것은 무엇인가요?

제미나이 2.0
제미나이 3.1 플래시 라이브(Flash Live)
제미나이 나노

구글은 제미나이 3.1 플래시 라이브가 자연스럽고 신뢰할 수 있는 실시간 대화를 위한 최고 품질의 오디오 모델이라고 설명했습니다.

Q2. 업그레이드된 제미나이 2.5 네이티브 오디오 모델이 벤치마크 시험(ComplexFuncBenchAudio)에서 받은 점수는?

50.5%
61.5%
71.5%

제미나이 2.5 네이티브 오디오 모델은 해당 벤치마크에서 71.5%의 점수를 기록하며 성능 향상을 증명했습니다.

Q3. 이번 업데이트를 통해 새롭게 가능해진 음성 기능이 아닌 것은?

다중 캐릭터 대화(Multi-character dialogue)
실시간 음성 통역
사용자의 생각을 미리 읽고 대답하기

다중 캐릭터 대화와 실시간 통역 기능은 이번 업데이트의 핵심이지만, 사용자의 생각을 미리 읽는 기능은 포함되지 않았습니다.