Gemini 2.5
技术全解析
基于 Google DeepMind「Gemini 2.5 Technical Report」,从推理突破到多模态架构、从百万级上下文到 Agent 能力,7 章节系统拆解 Google 旗舰模型。
Chapter 01
Gemini 2.5 全景
Google 的旗舰 AI 模型家族——从 Flash 到 Pro,Gemini 2.5 标志着"思考型模型"时代的到来。
核心定位
Gemini 2.5 Pro 不仅是一个更大的模型,它是 Google 第一个原生思考型模型(Thinking Model)。与传统模型"直觉式"回答不同,它能在回答前进行深度内部推理,像人类专家一样"先想清楚再说"。
Gemini 模型家族
Gemini 2.5 Pro
旗舰级思考模型。在推理、编码、数学、科学等领域全面领先。支持 100 万 token 上下文窗口。
Gemini 2.5 Flash
速度与性价比优先。同样具备思考能力,但推理预算可配置,适合大规模部署和低延迟场景。
核心能力矩阵
深度推理
扩展思考链
代码生成
Agentic Coding
数学推理
竞赛级水准
原生多模态
图/音/视频
Benchmark 高光数据速览
Gemini 2.5 Pro 在多个权威基准测试中刷新纪录:
- GPQA Diamond(研究生级科学推理)— 达到 84.0%,超越所有公开模型
- AIME 2025(数学竞赛)— 达到 86.7%,接近人类竞赛选手水平
- SWE-bench Verified(真实代码修复)— 达到 63.8%,领先所有模型
- MMLU-Pro(综合知识推理)— 达到 81.6%
- LiveCodeBench(实时编程竞赛)— 稳居第一梯队
这些数据的意义不在于具体百分比,而在于一个趋势:思考型模型在几乎所有需要深度推理的任务上都大幅超越了传统模型。
Gemini 2.5 vs 2.0:代际飞跃
从 Gemini 2.0 到 2.5 的升级不是简单的性能提升,而是架构范式的转变:
- 推理模式 — 2.0 是直觉式生成,2.5 引入扩展思考(Extended Thinking),模型可以在回答前"思考"多步
- 上下文窗口 — 维持 100 万 token,但检索精度和长文本理解能力显著提升
- 编码能力 — 从"代码补全"进化到"Agentic Coding",能理解整个代码库并自主修复 bug
- 工具使用 — 更强的 function calling 能力,支持更复杂的多步工具调用链
Google 的 AI 战略布局
Gemini 2.5 在 Google 的 AI 战略中扮演关键角色:
- AI Studio — 开发者快速原型验证的入口
- Vertex AI — 企业级部署和管理平台
- Google Workspace — Gemini 深度集成到文档、邮件、表格等日常工具
- Android / Chrome — 端侧 AI 能力(Flash 模型)
- Search — AI Overview 改造搜索体验
核心逻辑:用最强模型占领开发者心智,用 Flash 模型压低成本实现大规模部署,用生态整合形成闭环。
核心能力深度拆解
推理 / 多模态 / 代码 / 长上下文 / Agent
Chapter 02
推理能力
"思考"模型的突破——Extended Thinking 让 AI 在回答前进行深层推理链。
Extended Thinking(扩展思考)
传统模型是"直觉型选手"——看到问题立刻回答。Gemini 2.5 的扩展思考机制让模型成为"深度思考型选手"——先拆解问题,逐步推理,验证中间结论,最后给出高质量答案。
扩展思考机制详解
思考预算(Thinking Budget)是 Gemini 2.5 的关键创新:
- 动态分配 — 模型自动判断问题复杂度,简单问题快速回答,复杂问题投入更多思考
- 可配置上限 — 开发者可以设置最大思考 token 数,平衡质量和延迟
- 思考过程可见 — API 可以返回思考过程(thinking tokens),便于调试和理解模型推理
这解决了一个根本问题:传统模型在困难问题上表现差,不是因为"不够聪明",而是因为没有"时间"思考。Extended Thinking 给了模型"思考的时间"。
推理基准测试
| 基准测试 | 测试内容 | Gemini 2.5 Pro | GPT-4o | Claude 3.5 | o1 |
|---|---|---|---|---|---|
| GPQA Diamond | 研究生级科学问答 | 84.0% | 49.9% | 65.0% | 78.0% |
| AIME 2025 | 数学竞赛 | 86.7% | 9.3% | 16.0% | 79.2% |
| MATH-500 | 数学推理 | 97.2% | 74.6% | 78.3% | 96.4% |
| MMLU-Pro | 综合知识推理 | 81.6% | 72.6% | 78.0% | 80.3% |
| HumanEval | 代码生成 | 95.7% | 90.2% | 92.0% | 94.3% |
思考预算如何影响性能
Google 的实验显示了思考预算与性能之间的有趣关系:
- 低预算(1K tokens) — 性能接近传统非思考模型,适合简单事实性问答
- 中预算(8K tokens) — 大多数推理任务的甜蜜点,性价比最优
- 高预算(32K+ tokens) — 在最难的数学和科学问题上有显著提升,但边际收益递减
实践建议:大多数应用场景下,8K 思考预算已经足够。只有在处理竞赛级数学题或复杂科研问题时才需要更高预算。
与 o1/o3 推理模型的对比
OpenAI 的 o1/o3 系列是 Gemini 2.5 Pro 在推理领域的主要竞争对手。两者的核心差异:
- 思考过程可见性 — Gemini 2.5 Pro 可以暴露思考 token;o1 最初完全隐藏思考过程,后来逐步开放
- 多模态推理 — Gemini 2.5 Pro 可以在图片、视频、音频上做推理;o1 主要是文本推理
- 思考预算控制 — Gemini 2.5 提供精细的预算控制;o1 的控制粒度较粗
- 科学推理 — 两者在 GPQA 上都表现极强,Gemini 2.5 Pro 略微领先
- 数学竞赛 — AIME 2025 上 Gemini 2.5 Pro 大幅领先 o1,与 o3 接近
总体来看:Gemini 2.5 Pro 的优势在于多模态+推理的结合,而非纯文本推理上的绝对碾压。
数学推理深度分析:AIME 与 MATH
AIME(American Invitational Mathematics Examination)是美国数学竞赛的重要环节,题目需要多步推理、创造性思考和精确计算。
Gemini 2.5 Pro 在 AIME 2025 上的 86.7% 意味着:
- 模型能解决大多数需要 5-10 步推理的竞赛题
- 在组合数学、数论、几何等领域都有强劲表现
- 仍然在某些需要极其巧妙构造的题目上会失败
MATH-500 上 97.2% 的准确率则说明,对于大学级数学问题,Gemini 2.5 Pro 已经接近完美。剩余的 2.8% 错误主要来自极端复杂的多步推理或容易产生歧义的题目表述。
Chapter 03
多模态架构
不是"给语言模型加上视觉",而是从底层就原生支持图像、视频、音频的统一架构。
架构哲学
大多数多模态模型是"拼接式"——先用视觉编码器提取特征,再喂给语言模型。Gemini 从训练之初就是原生多模态的,图像、音频、视频 token 和文本 token 在同一个 Transformer 中共同训练。这意味着模型真正"理解"跨模态关系,而非简单映射。
四大模态能力
图像理解
从简单的图像描述到复杂的图表分析、文档 OCR、科学图形解读。能够理解图像中的文字、数据关系、空间布局。
视频理解
支持长视频分析(数小时级别)。能追踪事件时间线、理解因果关系、识别关键片段。
音频处理
原生音频理解,不只是语音转文字。能理解语气、情感、环境声音,支持多语言。
跨模态推理
真正的能力跃迁:结合图+文+音频做联合推理。例如看视频并回答关于视频内容的复杂问题。
图像理解能力详解
Gemini 2.5 Pro 的图像理解远超"看图说话":
- 文档 OCR — 精确识别复杂排版的文档,包括表格、公式、多栏布局
- 图表分析 — 理解柱状图、折线图、散点图中的数据趋势和异常
- 科学图形 — 解读分子结构、电路图、建筑蓝图等专业图形
- 多图关联 — 在多张图片之间建立联系,比较差异
- 空间推理 — 理解物体的空间关系、方向、大小比例
在 MathVista(数学视觉推理)和 AI2D(科学图表理解)基准测试上,Gemini 2.5 Pro 均达到 SOTA 水平。
视频理解:长视频分析能力
借助 100 万 token 的上下文窗口,Gemini 2.5 Pro 可以处理长达数小时的视频内容:
- 时间线追踪 — 精确定位视频中特定事件发生的时间
- 因果推理 — 理解事件之间的因果关系
- 内容总结 — 生成结构化的视频摘要
- 细节检索 — 回答关于视频中细节的问题
技术实现:视频被采样为关键帧序列,每帧转化为视觉 token,与音频 token 交织排列在上下文中。模型不是"看每一帧",而是智能采样关键帧。
在 Video-MME 和 EgoSchema 等视频理解基准上表现领先。
原生多模态 vs 拼接式多模态
| 维度 | 原生多模态(Gemini) | 拼接式多模态 |
|---|---|---|
| 训练方式 | 所有模态共同预训练 | 视觉编码器单独训练后接入 |
| 跨模态理解 | 深层语义融合 | 表面特征映射 |
| 推理能力 | 可在模态间自由推理 | 受限于映射层质量 |
| 效率 | 统一处理,效率更高 | 多模块串行,延迟更大 |
| 扩展性 | 新模态整合更自然 | 每加一个模态需要新的编码器 |
这就是为什么 Gemini 在跨模态推理任务上通常表现更好——它不是在"翻译"不同模态,而是在统一的表示空间中直接理解。
Chapter 04
代码与工具使用
从代码补全到 Agentic Coding——Gemini 2.5 Pro 正在重新定义 AI 编程的边界。
编码基准测试
| 基准测试 | 测试内容 | Gemini 2.5 Pro | Claude 3.5 Sonnet | GPT-4o |
|---|---|---|---|---|
| SWE-bench Verified | 真实 GitHub issue 修复 | 63.8% | 49.0% | 33.2% |
| HumanEval | 函数级代码生成 | 95.7% | 92.0% | 90.2% |
| LiveCodeBench | 实时编程竞赛 | Top 1 | Top 3 | Top 5 |
| Natural2Code | 自然语言转代码 | 92.1% | 87.3% | 86.8% |
Agentic Coding
Gemini 2.5 Pro 在 SWE-bench 上的表现标志着 AI 编程从"代码补全"进入"自主编程"阶段。模型不是在写一个函数,而是在理解整个代码库的上下文后,定位 bug、规划修复方案、编写代码并验证。
理解
阅读代码库
定位
找到 Bug 根因
规划
设计修复方案
修复
编写+验证代码
SWE-bench 表现深度分析
SWE-bench Verified 是目前评估 AI 代码能力最接近真实世界的基准:
- 每个测试用例都是一个真实的 GitHub issue,来自 Django、Flask、scikit-learn 等知名开源项目
- 模型需要理解 issue 描述、定位相关代码文件、编写修复 patch
- 修复必须通过项目的现有测试套件验证
Gemini 2.5 Pro 的 63.8% 意味着它能独立修复近三分之二的真实 Bug。相比 GPT-4o 的 33.2%,几乎翻倍。
这个差距主要来自两个优势:
- 长上下文 — 能一次性读入更多代码文件,理解更完整的上下文
- 扩展思考 — 在定位 bug 和规划修复时,多步推理产生更精确的方案
工具使用与 Function Calling
Gemini 2.5 Pro 的工具使用能力是其 Agentic 能力的基础:
- 结构化输出 — 能精确生成 JSON Schema 格式的函数调用参数
- 多步工具链 — 自动规划"先调用A获取数据,再调用B处理,最后调用C保存"的多步流程
- 错误恢复 — 工具调用失败时能自动分析原因并重试或选择替代方案
- 并行调用 — 识别可以并行执行的工具调用,提高效率
在 BFCL(Berkeley Function Calling Leaderboard)上,Gemini 2.5 Pro 排名前列。
多语言代码生成能力
Gemini 2.5 Pro 在主流编程语言上的代码生成质量均处于顶级水平:
| 语言 | 强项 | 典型任务 |
|---|---|---|
| Python | 数据科学、ML、脚本 | 端到端 ML pipeline、API 开发 |
| TypeScript/JS | Web 前后端 | React 组件、Node.js 服务 |
| Java/Kotlin | 企业应用、Android | Spring Boot 服务、Android App |
| Go | 系统编程、云原生 | 微服务、CLI 工具 |
| Rust | 系统级高性能 | 内存安全的系统组件 |
| C/C++ | 底层系统 | 驱动、嵌入式、高性能计算 |
趋势判断
SWE-bench 63.8% 的突破性在于:我们正在从"AI 辅助编程"过渡到"AI 自主编程"。当这个数字超过 80%,人类开发者的角色将从"写代码"彻底转变为"审查代码+定义需求"。
Chapter 05
长上下文能力
100 万 token 上下文窗口——不只是"能装更多",而是根本性地改变了 AI 能做什么。
100 万 token 意味着什么
100 万 token 约等于 75 万个英文单词,相当于10-15 本书、一整个中型代码库、或数小时的音视频内容。这不是渐进式提升——从 8K 到 1M 是 125 倍的跃迁。
Needle in a Haystack
在百万 token 的"干草堆"中精确找到一个"针"。Gemini 2.5 Pro 在所有位置的检索准确率超过 99.7%。
文档理解
一次性理解整本技术手册、法律合同、或学术论文集。支持跨文档关联分析。
代码库级理解
将整个项目的源码装入上下文,理解模块间依赖、架构模式、潜在问题。
"Needle in a Haystack" 测试详解
这是评估长上下文能力的经典测试:在大量无关文本中插入一条特定信息,然后要求模型找到它。
- 测试方法 — 在不同长度(10K 到 1M token)和不同位置(开头、中间、结尾)插入目标信息
- Gemini 2.5 Pro 表现 — 在所有长度和位置组合上准确率超过 99.7%
- 关键发现 — 不存在"迷失在中间"(Lost in the Middle)问题,中间位置的检索和开头/结尾一样准确
这意味着你可以放心地把大量信息塞入上下文,不需要担心模型"忘记"中间部分。
长上下文的实际应用场景
100 万 token 上下文窗口带来了全新的应用可能性:
- 整本书的分析 — 一次读入一本 500 页的技术书籍,然后回答跨章节的复杂问题
- 法律文档审查 — 同时分析合同全文和相关法律条款,发现潜在风险
- 代码审计 — 将整个项目代码装入上下文,进行安全审计或架构分析
- 会议记录分析 — 分析数小时的会议记录,提取行动项和决策
- 多文档综合研究 — 同时处理十几篇论文,做综述级别的知识整合
核心价值:消除了"信息分批处理"的需求。传统模型需要人工拆分文档、分别处理、再汇总。长上下文模型可以一步到位。
长上下文 vs RAG:什么时候用什么
100 万 token 上下文让很多人问:还需要 RAG 吗?答案是两者互补:
| 维度 | 长上下文 | RAG |
|---|---|---|
| 数据量 | 百万 token 以内 | 理论上无上限 |
| 实时性 | 需要重新装入 | 可以实时更新索引 |
| 成本 | 每次调用按 token 计费 | 检索后只传入相关片段 |
| 理解深度 | 完整上下文理解 | 依赖检索质量 |
| 适用场景 | 需要全局理解的任务 | 精确检索+大规模知识库 |
经验法则:如果你的数据能装进 100 万 token 且需要全局理解,用长上下文。如果数据量超出或需要实时更新,用 RAG。最强方案是两者结合。
Chapter 06
Agent 能力
从"回答问题"到"完成任务"——Gemini 2.5 Pro 作为 Agent 核心引擎的能力全景。
Agentic 能力概览
一个强大的 Agent 需要三种核心能力:规划(知道做什么)、工具使用(知道怎么做)、反思(知道做得对不对)。Gemini 2.5 Pro 的扩展思考机制为这三种能力都提供了质的提升。
规划能力
将复杂任务分解为可执行的子步骤
工具使用
精确调用 API、数据库、搜索引擎
自我反思
评估执行结果,动态调整策略
Agentic 基准测试
| 基准测试 | 测试内容 | Gemini 2.5 Pro | 说明 |
|---|---|---|---|
| SWE-bench | 自主代码修复 | 63.8% | 真实 GitHub issue,端到端修复 |
| BFCL | 函数调用准确率 | Top 3 | 2000+ 测试用例 |
| WebArena | 网页操作任务 | 领先 | 在真实网站上完成任务 |
| OSWorld | 桌面操作系统任务 | 领先 | 操作真实 OS 环境 |
| tau-bench | 工具使用效率 | Top 2 | 多步工具调用优化 |
Computer Use / Browser Use 能力
Gemini 2.5 Pro 能够作为 Agent 直接操作计算机界面:
- 网页浏览 — 理解网页结构,点击按钮、填写表单、导航链接
- 桌面操作 — 识别 UI 元素,执行鼠标和键盘操作
- 截图理解 — 从截图中理解当前状态,决定下一步操作
在 WebArena(网页操作基准)和 OSWorld(桌面操作基准)上,Gemini 2.5 Pro 均展现了强劲的表现。这意味着它不仅能"说",还能真正"做"——浏览网页、操作软件、完成多步任务。
多步任务完成能力分析
真正的 Agent 价值体现在多步任务上。Gemini 2.5 Pro 在以下多步任务类型上展现了强大能力:
- 研究型任务 — 搜索信息 → 筛选 → 交叉验证 → 综合报告
- 编程型任务 — 理解需求 → 搜索代码库 → 编写代码 → 运行测试 → 修复 Bug
- 数据分析任务 — 加载数据 → 清洗 → 分析 → 可视化 → 生成洞见
- 工作流自动化 — 读取邮件 → 提取信息 → 填入系统 → 发送确认
成功关键:扩展思考让模型在每一步之前都能"想清楚",减少了多步执行中的错误累积。传统模型在 5 步任务中每步 90% 准确率意味着整体只有 59%;思考型模型将每步准确率提升到 95%+ 后,整体准确率可以达到 77%+。
Google 生态整合
Gemini 2.5 Pro 的 Agent 能力与 Google 生态深度整合:
- Google Search — 实时搜索+Grounding,确保信息准确和时效性
- Google Workspace — 操作 Gmail、Docs、Sheets、Calendar
- Google Cloud — 调用 BigQuery、Cloud Storage、Vertex AI 等服务
- Google Maps — 地理位置相关的任务执行
- Android — 在移动设备上执行操作
这种深度整合是 Google 相比竞争对手的独特优势:Agent 不是在一个沙盒里模拟操作,而是真正能触达用户的日常工具链。
趋势
2025 年是 Agent 从"Demo"走向"Production"的转折年。Gemini 2.5 Pro 的推理+工具+长上下文组合拳,让生产级 Agent 第一次成为现实可能。
评测与展望
安全、责任 AI 与竞争格局
Chapter 07
安全与评测总览
能力越大,责任越大——Google 如何评估和保障 Gemini 2.5 Pro 的安全性。
安全评估体系
Red Teaming
内部和外部安全专家团队对模型进行对抗性测试,尝试触发有害输出、越狱、信息泄露。
安全策略层
多层安全过滤器:输入过滤、输出审查、内容分类、有害内容拦截。可配置安全等级。
负责任 AI 原则
遵循 Google AI 原则:公平性、可解释性、隐私保护、安全性、问责制。
Red Teaming 详解
Google 对 Gemini 2.5 的安全测试包括多个层面:
- Prompt 注入攻击 — 测试模型是否会被恶意 prompt 劫持,执行非预期操作
- 越狱测试 — 尝试绕过安全限制,让模型生成有害内容
- 信息提取 — 测试是否能从模型中提取训练数据或系统 prompt
- 偏见检测 — 评估模型在种族、性别、宗教等维度上的公平性
- 能力滥用 — 评估模型在生物、化学、网络安全等领域的潜在风险
值得注意的是,思考型模型带来了新的安全挑战:思考过程中的中间推理步骤可能包含模型"绕过"安全限制的痕迹。Google 对此的应对是同时审查最终输出和思考过程。
旗舰模型综合 Benchmark 对比
| Benchmark | 评测维度 | Gemini 2.5 Pro | GPT-4o | Claude 3.5 Sonnet | Llama 3.1 405B |
|---|---|---|---|---|---|
| MMLU-Pro | 综合知识 | 81.6% | 72.6% | 78.0% | 73.3% |
| GPQA Diamond | 科学推理 | 84.0% | 49.9% | 65.0% | 51.1% |
| MATH-500 | 数学推理 | 97.2% | 74.6% | 78.3% | 73.8% |
| AIME 2025 | 数学竞赛 | 86.7% | 9.3% | 16.0% | — |
| HumanEval | 代码生成 | 95.7% | 90.2% | 92.0% | 89.0% |
| SWE-bench | 代码修复 | 63.8% | 33.2% | 49.0% | — |
| 上下文窗口 | 最大长度 | 1M tokens | 128K | 200K | 128K |
| 原生多模态 | 模态支持 | 文/图/音/视频 | 文/图/音 | 文/图 | 文/图 |
Benchmark 数据怎么看:避免数字陷阱
看 Benchmark 对比表时需要注意几个关键点:
- 思考模型 vs 非思考模型 — Gemini 2.5 Pro 是思考模型(类似 o1/o3),而 GPT-4o 和 Claude 3.5 Sonnet 是非思考模型。在推理密集型任务上,思考模型天然占优。公平对比应该是 Gemini 2.5 Pro vs o1/o3 vs Claude 3.5 Opus
- 成本效率 — 思考模型消耗的 token 更多(思考 token 计费),同样的任务成本可能是非思考模型的 3-10 倍
- 延迟差异 — 思考模型响应时间更长,不适合所有场景
- 版本更新 — 各家模型更新频率不同,对比数据可能基于不同时期的版本
正确的看法:不要执着于某个 Benchmark 的百分比差异,而是看趋势和适用场景。选模型的关键是你的具体需求,不是排行榜。
各模型定位与适用场景
| 模型 | 最强项 | 最佳场景 | 局限 |
|---|---|---|---|
| Gemini 2.5 Pro | 多模态+推理+长上下文 | 复杂分析、代码库级编程、视频理解 | 延迟较高、成本较高 |
| GPT-4o | 均衡、生态完善 | 通用对话、创意写作、快速交互 | 推理深度不及思考模型 |
| Claude 3.5 Sonnet | 长文本、编码、安全性 | 文档分析、代码审查、安全敏感场景 | 多模态能力相对较弱 |
| Llama 3.1 405B | 开源、可自部署 | 数据隐私、定制化、研究用途 | 无原生 Agent 生态 |
Gemini 2.5 对 AI 格局的影响
Gemini 2.5 的发布对 AI 竞争格局有几层意义:
- 思考模型成为标配 — 继 OpenAI o1 之后,Google 也推出了思考模型,这将成为下一代 AI 模型的标准能力
- 多模态是差异化关键 — 在纯文本推理上各家差距在缩小,多模态成为真正的差异化战场
- 长上下文重塑应用架构 — 100 万 token 窗口让很多传统需要 RAG 的场景可以简化为直接装入上下文
- Agent 竞争白热化 — Google 的 Agent 生态(Vertex AI + Google 工具链)vs OpenAI 的 GPTs vs Anthropic 的 MCP,是 2025 年最重要的竞争维度
- 开源追赶加速 — Gemma(Google 开源模型)和 Llama 正在快速缩小与闭源旗舰的差距
对开发者的启示:不要赌一家。理解每个模型的优势,建立模型无关的架构,根据任务特性选择最合适的模型。
Gemini 2.5 Flash:性价比之选
如果说 Gemini 2.5 Pro 是"不计成本追求最强",那么 Gemini 2.5 Flash 就是"在成本约束下追求最优"。
- 可调思考预算 — 开发者可以精确控制思考 token 上限,甚至关闭思考
- 成本降低 80%+ — 相比 Pro,Flash 的单 token 价格大幅降低
- 延迟更低 — 适合需要快速响应的交互式应用
- 仍然很强 — 在大多数任务上,Flash with thinking 超过上一代 Pro 的水平
选型建议:
- 日常对话、简单问答、内容生成 → Flash(关闭思考)
- 需要一定推理的任务 → Flash(中等思考预算)
- 复杂推理、编程、科研 → Pro(完整思考)
全文结语
Gemini 2.5 不是一个简单的版本升级——它标志着 AI 从"回答问题"到"深度思考"的范式转变。100 万 token 上下文、原生多模态、扩展思考机制的三位一体,让"通用 AI 助手"第一次有了成为现实的技术基础。对于开发者和企业而言,现在是重新评估 AI 能力边界并调整产品策略的关键时刻。