Google DeepMind의 2026년 전략 해부 — Gemini·Veo 3·Project Astra가 만드는 멀티모달 AI 제국
2023년 4월 Google Brain과 DeepMind의 통합으로 출범한 Google DeepMind는 3년 만에 Gemini 시리즈, Veo 3, Project Astra, AlphaFold 3를 포괄하는 멀티모달 AI 인프라 레이어를 구축했다. 이 보고서는 각 제품 라인의 기술적 현황과 전략적 의미를 분석하고, Google 생태계 전체의 AI화가 어떤 방식으로 진행되고 있는지를 규명한다.
1. 통합의 완성: Google Brain × DeepMind가 만든 무기
2023년 4월, 구글은 AI 역사에서 가장 중요한 조직적 결정 중 하나를 단행했다. 구글 내부의 응용 AI 연구 조직인 Google Brain과, 런던 기반의 독립 AI 연구소 DeepMind를 단일 조직으로 통합하여 Google DeepMind를 출범시킨 것이다. CEO 자리는 DeepMind의 공동창업자이자 전 CEO인 Demis Hassabis가 맡았고, Google Brain의 수장이었던 Jeff Dean은 Chief Scientist로 전환되며 전략적 자문 역할을 담당하게 됐다.
이 통합의 배경에는 명확한 위기 인식이 있었다. OpenAI가 2022년 11월 ChatGPT를 공개하고 2023년 3월 GPT-4를 출시하면서, 구글은 검색 시장에서 수십 년 만에 처음으로 실질적 위협에 직면했다. 수천 명의 연구자와 수조 원의 컴퓨팅 자원을 보유하고 있으면서도 제품 출시 속도와 대중적 존재감에서 뒤처지는 역설적 상황이었다. 통합은 이 문제에 대한 구조적 해법이었다.
두 조직의 문화적 충돌은 예상된 난관이었다. DeepMind는 장기적 순수 연구를 중시하는 학술적 문화를, Google Brain은 구글 제품에 직접 연결되는 응용 연구 중심의 엔지니어링 문화를 갖고 있었다. 실제로 통합 이후 일부 연구자들의 이탈이 보고됐다. 그러나 2026년 현재 시점에서 평가하면, 약 3,000명 이상의 AI 연구자를 보유한 Google DeepMind는 단일 조직으로서 세계 최대 규모의 AI 연구 인력을 집결시키는 데 성공했다.
전략적 의미는 단순한 규모의 경제를 넘어선다. DeepMind의 강점은 기초 과학에 뿌리를 둔 장기 연구였다. AlphaGo, AlphaFold, AlphaCode 등은 모두 수년간의 근본적 연구에서 비롯된 결과물이다. 반면 Google Brain은 구글 제품에 즉각 통합 가능한 ML 연구에 특화되어 있었다—Google 번역, Google 사진, Search의 순위 알고리즘 등이 여기서 나왔다. 두 역량의 결합은 이론적으로 “과학적 깊이를 갖춘 제품 AI”를 가능하게 한다.
Gemini 시리즈는 그 첫 번째 실증이다. 기존 Google의 LaMDA, PaLM 계열 모델과 달리, Gemini는 처음부터 멀티모달 아키텍처로 설계됐고, DeepMind의 강화학습 기법과 Google Brain의 대규모 분산 학습 인프라가 융합된 결과물이다. 통합 없이는 나올 수 없었던 모델이라는 것이 내부 평가다.
2. Gemini 시리즈 — 벤치마크를 넘어 인프라로
2025년 하반기부터 2026년 상반기에 걸쳐 Google DeepMind는 Gemini 2.5 시리즈를 순차 출시했고, 이는 2026년 2분기 현재 Gemini 3.1로 이어지고 있다. 이 모델 계보는 Google DeepMind의 전략이 단순한 성능 경쟁에서 인프라 레이어 장악으로 이동했음을 보여주는 연속된 사례다.
Gemini 2.5 라인업 구조는 세 단계로 정리된다. Gemini 2.5 Flash는 비용 효율성과 속도를 최우선으로 설계된 경량 모델로, API 호출 단가를 낮춰 스타트업과 개발자 생태계 확장에 주력한다. Gemini 2.5 Pro는 균형형 모델로 100만 토큰 컨텍스트 창을 제공하며, 코딩 벤치마크에서 1위를 기록했다—특히 HumanEval, SWE-bench 계열 태스크에서 경쟁 모델을 앞섰다. Gemini 2.5 Ultra는 최고 성능 플래그십으로, 멀티모달 추론 태스크 전반에서 GPT-4o 대비 주요 벤치마크 우위를 보이며 출시됐다.
멀티모달 통합의 범위가 경쟁 모델과 구별되는 지점이다. Gemini 2.5 시리즈는 텍스트, 이미지, 오디오, 비디오, 코드, 수학적 추론을 단일 모델 내에서 처리한다. 특히 오디오 입력에서의 감정·톤 인식, 비디오 내 시계열 추론은 GPT-4o의 멀티모달 기능과 비교해도 질적으로 차별화된 역량으로 평가된다.
아래는 Gemini 2.5 Ultra 출시 시점(2025년 하반기) 기준 당시 경쟁 플래그십 모델과의 비교다.
| 벤치마크 | Gemini 2.5 Ultra | GPT-4o (OpenAI) | Claude Sonnet 4.6 (Anthropic) |
|---|---|---|---|
| MMLU (지식 이해) | 92.3% | 88.7% | 91.1% |
| HumanEval (코딩) | 87.5% | 90.2% | 88.0% |
| MATH (수학 추론) | 91.8% | 87.5% | 90.2% |
| MMMU (멀티모달 이해) | 80.2% | 77.4% | 73.6% |
| Video-MME (영상 QA) | 74.1% | 68.3% | 비지원 |
| 컨텍스트 창 | 1M 토큰 | 128K 토큰 | 200K 토큰 |
출처: 각 사 공개 기술 보고서 및 독립 벤치마크 기관 집계 (2025년 하반기 출시 시점 기준). 수치는 대표적 공개 벤치마크 기반 근사값이며, 최신 수치는 각 사 공식 모델 카드에서 확인할 것.
그러나 벤치마크 수치보다 전략적으로 중요한 것은 제품 통합 범위다. Gemini 2.5는 Google Workspace(Gmail 자동 작성, Docs 요약, Sheets 데이터 분석), Google Search의 AI Overviews, Google Cloud의 Vertex AI 플랫폼, Android의 온디바이스 AI 기능까지 전면 통합됐다. 이는 단일 API 호출이 아니라, 수십억 명의 기존 사용자가 모르는 새에 Gemini 모델을 일상적으로 사용하게 되는 구조다. 이것이 Google DeepMind가 “모델 판매”가 아닌 “인프라 장악”을 추구한다는 평가의 근거다.
2026년 상반기 현재, OpenAI의 GPT-5.5와 Anthropic의 Claude Opus 4.7 등 차세대 모델이 등장하며 순수 벤치마크 지형은 다시 격전 상태다. Google DeepMind도 Gemini 3.1을 공개하며 대응에 나섰다. 그러나 경쟁의 핵심 축은 이미 ‘모델 성능 순위’에서 ‘생태계 통합 깊이’로 이동하고 있다는 것이 업계의 중론이다 — Gemini가 Gmail·Search·Android에 내장된 방식은 경쟁사가 단기간에 복제하기 어려운 구조적 해자(垓子)다.
3. Veo 3 — 영상 생성의 새 기준선
Google I/O 2025에서 발표된 Veo 3는 단순히 영상 생성 품질을 끌어올린 버전 업그레이드가 아니었다. 이 모델의 결정적 차별화 요소는 영상과 오디오를 동시에 생성한다는 점이다. 배경음악, 환경 효과음, 인물 대화까지 영상 컨텐츠에 맞게 합성하는 기능은 경쟁 모델 중 처음으로 실용 수준에 도달했다는 평가를 받았다.
이전 버전인 Veo 2와의 비교에서 가장 두드러진 변화는 세 가지다. 첫째, 물리 법칙 준수 정확도가 크게 향상됐다. 물이 흐르는 방향, 천의 접힘, 연기의 확산 같은 유체역학적 요소들이 이전 세대 모델에서는 종종 비현실적으로 렌더링됐으나, Veo 3에서는 눈에 띄게 개선됐다. 둘째, 카메라 무브먼트 제어가 정밀해졌다—달리, 팬, 줌인, 크레인 샷 등 영화적 카메라 언어를 텍스트 프롬프트로 제어할 수 있다. 셋째, 시간적 일관성이 강화됐다. 10초 이상의 영상에서 인물의 외형, 장면의 조명, 배경 요소들이 일관되게 유지된다.
경쟁 구도를 놓고 보면, OpenAI Sora는 2024년 출시 이후 영상 생성의 아이콘적 존재가 됐으나 실제 상업 접근성과 오디오 통합에서 한계를 드러냈다. Veo 3는 Google의 대규모 배포 인프라를 등에 업고 YouTube Shorts 크리에이터 도구와 통합됐고, 이는 수억 명의 콘텐츠 생산자가 즉시 접근 가능한 유통 경로를 의미한다. Sora가 없는 것이 이 구조다.
크리에이터 경제에 대한 함의는 이중적이다. 긍정적으로는, 예산이 없는 독립 크리에이터가 영화급 비주얼을 제작할 수 있게 된다. 부정적으로는, 영상 제작 분야의 중하위 직군—스톡 영상 촬영, 간단한 광고 영상 편집—은 수요가 급감할 가능성이 높다. 미디어 산업에서는 가짜 뉴스 영상 제작 장벽이 낮아진다는 우려도 현실화되고 있다. Google DeepMind는 SynthID 워터마크 기술로 AI 생성 영상을 식별할 수 있다고 밝히지만, 그 실효성에 대한 검증은 계속 진행 중이다.
4. Project Astra — 실시간 멀티모달 에이전트의 현실화
Project Astra는 Google DeepMind가 제시하는 “미래 AI 어시스턴트”의 프로토타입이다. 그 핵심 개념은 스마트폰의 카메라와 마이크를 통해 사용자의 물리적 환경을 실시간으로 이해하고, 대화 맥락을 장기간 유지하며, 즉각적인 응답을 제공하는 것이다.
기존 AI 어시스턴트와의 본질적 차이는 환경 인식의 지속성에 있다. 기존 모델은 각 대화 세션이 독립적으로 시작된다. Astra는 이전 대화에서 카메라로 포착한 정보—“저번에 내가 보여준 책상 위 물건들”—를 기억하고 이후 대화에서 참조할 수 있다고 시연했다. 완전한 영속적 기억이 아니라 세션 간 컨텍스트 브리지에 가깝지만, 사용자 경험의 연속성 측면에서는 의미 있는 차별화다.
Google I/O 2025 데모에서는 AR 안경 통합 버전이 공개됐다. 안경을 착용한 상태에서 대화를 나누면, Astra가 시야 내 사물을 인식하고 즉각적인 정보를 제공한다—식물의 종류를 식별하거나, 회로 기판의 결함을 찾아내거나, 악보를 읽고 연주 방법을 안내하는 식이다. 이는 Apple Vision Pro의 공간 컴퓨팅과 구별되는 접근이다. Apple이 몰입형 디스플레이를 강조한다면, Astra는 물리 세계 위에 정보를 덧씌우는 오버레이 인텔리전스를 지향한다.
웹 기반 에이전시 측면에서는 Project Mariner와의 관계가 중요하다. Mariner는 크롬 브라우저에서 작동하는 웹 탐색 에이전트로, 사용자 대신 폼을 작성하고 정보를 검색하며 예약을 처리한다. Astra가 물리 세계 에이전트라면, Mariner는 디지털 세계 에이전트다. 두 프로젝트는 별도로 운용되고 있으나 장기적으로 통합이 예정되어 있다—사용자가 “이 물건 온라인에서 주문해줘”라고 말하면 Astra가 사물을 인식하고 Mariner가 실제 구매를 처리하는 방식이다.
2026년 현재 기준으로, Project Astra는 구글 픽셀 기기의 제한적 베타 프로그램과 일부 지역의 Google One AI Premium 구독자에게 제공되고 있다. 일반 사용자 전면 출시 일정은 명확히 공개되지 않았으나, 2026년 하반기 출시가 유력하다고 내부 소식통들은 전한다. 성능과 배터리 소모 사이의 균형 최적화가 최대 과제로 남아 있다.
5. AlphaFold 3의 확산 — 과학 AI에서 임상 AI로
2024년 10월, 스웨덴 왕립과학원은 노벨 화학상을 Demis Hassabis, John Jumper(Google DeepMind), David Baker(워싱턴 대학교)에게 수여했다. Hassabis와 Jumper는 단백질 구조 예측 AI인 AlphaFold의 개발로, Baker는 독자적인 단백질 설계 연구로 각각 수상했다. AI 시스템 개발자가 노벨 과학상을 수상한 것은 이례적인 사건이었고, AI가 기초과학의 방법론적 혁신이 될 수 있음을 공식화하는 상징적 계기였다.
AlphaFold 3는 전작과 비교해 예측 대상 분자의 범위를 획기적으로 넓혔다. AlphaFold 2가 주로 단백질 구조 예측에 집중했다면, AlphaFold 3는 DNA, RNA, 소분자 화합물, 금속 이온까지 구조 예측 범위를 확장했다. 이는 신약 개발에서 결정적 의미를 갖는다. 약물 분자(소분자)가 단백질 표적과 어떻게 결합하는지—이른바 단백질-리간드 결합 예측—를 기존 X선 결정학 또는 냉동전자현미경(Cryo-EM) 실험 없이 계산으로 추정할 수 있게 된다.
AlphaFold Database는 2026년 현재 2억 개 이상의 단백질 구조를 무료 공개하고 있다. 이는 인간 게놈 내 모든 단백질을 포함하며, 광범위한 생물 종의 단백질까지 망라한다. 연구자들은 이 데이터베이스를 활용해 과거 수년이 걸리던 타깃 확인 작업을 수일~수주로 단축하고 있다.
빅파마 파트너십이 구체화되는 양상이다. Novartis, AstraZeneca, Eli Lilly 등은 Google DeepMind와 협력해 AlphaFold를 신약 개발 파이프라인에 통합하고 있다고 밝혔다. 이 파트너십의 수익 구조는 비공개이나, 고성능 AlphaFold 3 API 접근(AlphaFold Server의 유료 기업용 티어), 맞춤형 분자 설계 컨설팅, Google Cloud 기반 컴퓨팅 패키지 판매로 구성된 것으로 알려져 있다.
생명과학 AI의 다음 단계는 구조 예측에서 기능 예측 및 설계로 이동할 것으로 전망된다. 이미 Isomorphic Labs(Google DeepMind의 신약 개발 자회사)는 AlphaFold 기반으로 새로운 약물 분자를 설계하는 프로그램을 운영 중이다. 2026년 기준 초기 임상 진입 후보 물질이 나오기 시작했다는 발표가 있었으나 구체적 데이터는 아직 미공개 상태다. 만약 AlphaFold 기반 신약이 임상에서 성과를 낸다면, 이는 AI가 순수 예측 도구를 넘어 신약 생성의 주도 엔진으로 도약하는 이정표가 된다.
6. 리스크 지형 — 규제·경쟁·신뢰의 삼각 긴장
Google DeepMind의 확장 속도에는 세 축의 긴장이 함께 따라온다.
규제 리스크는 복수의 방향에서 동시에 가해지고 있다. EU AI Act는 2024년 발효되어 고위험 AI 시스템에 대한 투명성 의무와 적합성 평가를 요구한다. Gemini 2.5 Ultra가 의료, 법률, 금융 분야에서 사용될 경우 해당 규정의 적용을 받는다. 규정 준수를 위한 문서화, 감사 로그 유지, 인간 감독 시스템 구축은 상당한 엔지니어링 자원을 소모한다. 한편 미국에서는 연방 차원의 AI 규제가 아직 명확히 정립되지 않은 상태이나, 주(州) 단위 규제가 빠르게 증가하고 있어 다층적 컴플라이언스 부담이 커지고 있다.
신뢰 위기는 2024년 초 Gemini 이미지 생성 논란에서 현재화됐다. Gemini 1.0의 이미지 생성 기능이 역사적 인물을 묘사할 때 부정확한 인종 표현을 반복하는 문제가 공개됐고, 이는 구글 내부의 제품 검수 프로세스에 대한 의문을 낳았다. 회사는 기능을 일시 중단하고 수정 버전을 재출시했으나, 초기 대응의 미숙함은 브랜드 신뢰도에 타격을 줬다.
반독점 리스크는 검색 시장 독점 판결에서 파생된다. 미국 법무부는 2024년 구글이 검색 시장에서 반경쟁적 행위를 했다는 판결을 이끌어냈다. 이 판결이 강제 분리(디베스티처)로 이어질 경우, Google DeepMind의 Gemini를 Search와 연계하는 전략 자체가 타격을 받는다. 현재 항소 중이지만, 불확실성은 중장기 전략 계획에 지속적 리스크 요인이다.
인재 경쟁도 심화되고 있다. OpenAI가 2024~2025년에 걸쳐 수십 명의 구글 출신 연구자를 영입했고, Anthropic 역시 전 구글 직원 비중이 높다. Meta AI는 Yann LeCun을 중심으로 오픈소스 전략으로 연구자 커뮤니티를 공략하고 있다. 시장 급여가 기록적 수준으로 상승한 상황에서 Google DeepMind가 스톡옵션과 연봉만으로 인재를 붙잡는 것은 한계가 있으며, 연구 자율성과 장기 프로젝트 지원 여부가 핵심 유지 요인이 되고 있다.
데이터 프라이버시 우려도 구조적 이슈로 남아 있다. Gmail, Docs, Search 사용 데이터가 Gemini 학습에 활용될 수 있다는 가능성은 기업 사용자들의 도입 장벽이 되고 있다. Google은 기업용 Workspace 데이터는 모델 학습에 사용하지 않는다는 정책을 명시하고 있으나, 투명성 검증 메커니즘이 부족하다는 비판은 계속된다.
7. 전략적 함의 — Google DeepMind가 판매하는 것의 본질
Google DeepMind를 단순히 “강력한 AI 모델을 만드는 회사”로 정의하면 전략의 핵심을 놓친다. 이 조직이 실제로 구축하고 있는 것은 AI 인프라 레이어다.
모델은 이 레이어의 표면이다. 진짜 제품은 그 아래에 있다—수십억 사용자의 일상 워크플로에 깊이 내장된 AI 기능들이다. Gmail에서 이메일을 작성할 때 자동으로 완성되는 문장, Google 문서에서 요약을 클릭할 때 나오는 결과, YouTube에서 추천되는 영상, Google 지도에서 최적화된 경로 계산. 이 모든 것이 Gemini 기반으로 재구축되고 있다. 사용자는 API를 호출하지 않는다. 그들은 그냥 구글 제품을 사용한다.
이 전략의 경제적 함의는 명확하다. Google은 AI 역량 경쟁에서 OpenAI나 Anthropic처럼 API 호출 단가 경쟁에서 이길 필요가 없다. 이미 수십억 명의 사용자와 수만 개의 기업 고객을 갖고 있기 때문이다. Google DeepMind의 AI 발전은 기존 구글 제품의 가치를 높이는 방식으로 수익화된다—이것이 누적 우위(accumulated advantage)다.
과학 AI와 제품 AI의 융합은 장기적으로 Google DeepMind의 가장 독특한 포지셔닝을 만들어낸다. AlphaFold가 노벨상을 받는 수준의 기초과학 AI와, Gemini가 Gmail을 개선하는 응용 제품 AI가 동일 조직 내에서 공존한다. 이 융합에서 나올 수 있는 것은—예를 들어 AlphaFold의 분자 구조 이해가 Gemini의 과학 추론 역량을 강화하고, 이것이 다시 의료 AI 제품으로 연결되는 파이프라인—은 분산된 AI 생태계가 쉽게 복제할 수 없는 시너지다.
2026년 이후 Google DeepMind의 전개 방향에서 주목해야 할 변수는 세 가지다. 첫째, 반독점 판결의 최종 결과—구글 검색 사업의 구조 변화는 Gemini 통합 전략 전체를 재설계하게 만들 수 있다. 둘째, 양자컴퓨팅 AI의 실용화 시점—Google의 Willow 양자칩과 AI 연구의 교차점에서 나올 응용이 있다면 Google DeepMind가 선두에 설 가능성이 높다. 셋째, AlphaFold 기반 신약의 임상 결과—성공한다면 제약/바이오 산업에서의 존재감이 비약적으로 커지고, 신규 수익원이 열린다.
Google DeepMind는 AI 경쟁에서 가장 많은 자원을 가진 플레이어가 반드시 승자가 된다는 전제 위에서 움직이고 있다. 그 전제가 옳은지는 아직 시장이 검증 중이다. 그러나 현재까지의 궤적은—벤치마크 1위, 노벨상, 수십억 사용자 기반—그 전제를 뒷받침하는 방향으로 흘러가고 있다.