Gemini

Gemini是Google DeepMind开发的多模态大语言模型系列，继承LaMDA和PaLM 2的技术路线，于2023年12月6日正式发布[^c1]。该系列以原生多模态能力为核心特征——从设计之初就联合预训练文本、图像、音频、视频和代码，而非像传统方法那样将不同模态的组件分别训练后拼接。

Gemini系列包含多个规模层级：Ultra（旗舰版本，面向高度复杂任务）、Pro（通用版本）、Flash（轻量高效变体）和Nano（端侧设备版本）。Gemini 1.0 Ultra在发布时成为首个在MMLU基准上超过90%的模型[^c2]，在32项学术基准中的30项上达到当时最优水平[^c4]。Gemini 1.5引入了稀疏混合专家架构，支持最高1000万token的上下文窗口并实现近乎完美的检索召回率[^c3]。

2025年，Gemini 2.5系列正式引入"思考模型"概念——模型在生成回答前先进行推理[^c7]。同年11月发布的Gemini 3 Pro将上下文窗口扩展至100万token[^c8]，并推出Deep Think并行推理模式，可同时评估多条推理路径以提升复杂任务准确率[^c9]。2026年5月，Gemini 3.5 Flash以"为行动而生，而非仅为回答"的定位成为Google默认AI模型[^c5]，在编码和智能体基准测试中超越Gemini 3.1 Pro[^c11]。

Gemini的快速迭代得益于Google在软硬件垂直整合方面的系统性优势——自研TPU加速器、OCS光交换网络、JAX/XLA软件栈和RLAIF自动化训练流程共同构成了其技术护城河，使完整训练周期可压缩至约三个月[^c12]。该系列被描述为Google"最强大、最通用的AI模型"[^c6]，已深度集成到搜索、广告等全线产品中，并通过与Apple的合作伙伴关系覆盖超过22亿台活跃设备[^c10]。

Gemini同时在安全性和准确性方面经历了多起争议，包括图像生成偏见、事实性错误和内容过滤问题，促使Google持续加强模型的安全防护机制。