Gemini
Gemini是Google DeepMind开发的多模态大语言模型系列,继承LaMDA和PaLM 2的技术路线,于2023年12月6日正式发布[^c1]。该系列以原生多模态能力为核心特征——从设计之初就联合预训练文本、图像、音频、视频和代码,而非像传统方法那样将不同模态的组件分别训练后拼接。
Gemini系列包含多个规模层级:Ultra(旗舰版本,面向高度复杂任务)、Pro(通用版本)、Flash(轻量高效变体)和Nano(端侧设备版本)。Gemini 1.0 Ultra在发布时成为首个在MMLU基准上超过90%的模型[^c2],在32项学术基准中的30项上达到当时最优水平[^c4]。Gemini 1.5引入了稀疏混合专家架构,支持最高1000万token的上下文窗口并实现近乎完美的检索召回率[^c3]。
2025年,Gemini 2.5系列正式引入"思考模型"概念——模型在生成回答前先进行推理[^c7]。同年11月发布的Gemini 3 Pro将上下文窗口扩展至100万token[^c8],并推出Deep Think并行推理模式,可同时评估多条推理路径以提升复杂任务准确率[^c9]。2026年5月,Gemini 3.5 Flash以"为行动而生,而非仅为回答"的定位成为Google默认AI模型[^c5],在编码和智能体基准测试中超越Gemini 3.1 Pro[^c11]。
Gemini的快速迭代得益于Google在软硬件垂直整合方面的系统性优势——自研TPU加速器、OCS光交换网络、JAX/XLA软件栈和RLAIF自动化训练流程共同构成了其技术护城河,使完整训练周期可压缩至约三个月[^c12]。该系列被描述为Google"最强大、最通用的AI模型"[^c6],已深度集成到搜索、广告等全线产品中,并通过与Apple的合作伙伴关系覆盖超过22亿台活跃设备[^c10]。
Gemini同时在安全性和准确性方面经历了多起争议,包括图像生成偏见、事实性错误和内容过滤问题,促使Google持续加强模型的安全防护机制。