大模型工程面试知识库
大模型工程面试知识库是一份面向服务端研发与算法工程师的系统性参考资料,涵盖从基础原理到生产部署的完整技术栈。2024—2026 年间,国内一线互联网公司的大模型岗位面试呈现出明显的趋势:纯算法八股文减少,工程实践能力成为考察重点,微调经验与部署能力是最能提升通过率的技术点[^c1]。面试官关注的核心维度包括算法原理、开发实践与系统交付能力三项[^c2]。2026 年的 AI 工程师技能栈进一步扩展至十层架构,涵盖软件工程基础、ML 基础、LLM 应用层、RAG 接地层、Agent 工作流层、评估与 LLMOps、部署与安全等[^c13]。评估体系已形成四大技术范式:标准化基准测试、确定性验证、交互式竞技场和语言模型裁判,业界已梳理出涵盖通用能力、专业领域、安全对齐三大类别的 283 个主流评测基准[^c23]。
Transformer 架构是大模型技术的基石,其自注意力机制通过 Query/Key/Value 计算 token 间的相关性,多头注意力使模型能够在不同子空间并行建模语义关系[^c3][^c12]。现代 LLM 架构已呈现明确的趋同方向:RoPE 位置编码、RMSNorm 归一化、SwiGLU 激活函数和 GQA/MLA 注意力变体成为主流选择。在训练阶段,预训练通过自监督学习在大规模语料上学习语言知识,微调则将模型适配到特定任务。参数高效微调方法(如 LoRA)可在节省 4~16 倍显存的前提下实现接近全量微调的效果[^c4]。2026 年提出的专业预训练(SPT)挑战了"微调始终最廉价"的假设,将领域数据提前融入预训练可减少最高 1.75 倍的 token 需求[^c26]。分布式训练支撑了百亿乃至万亿参数模型的训练,ZeRO 优化器通过分阶段切分优化器状态、梯度和模型参数,大幅降低单 GPU 显存占用[^c5]。从训练到推理的全链路显存优化涵盖算子融合、内存复用与计算通信重叠等技术[^c18]。
推理部署是大模型真正面临的工程挑战——训练一次,推理百万次[^c6]。推理全过程分为计算密集的 Prefill 阶段和显存带宽密集的 Decode 阶段,优化需针对不同阶段差异化施策。KV Cache 通过缓存先前 token 的 Key 和 Value 张量避免重复计算,其显存开销随序列长度线性增长[^c7][^c24]。FlashAttention 通过分块和在线 Softmax 实现 2~5 倍加速[^c8]。FP8 量化在所有模型规模上几乎无损,配置良好的 INT8 仅损失 1–3% 精度。vLLM 的 PagedAttention 借鉴操作系统内存分页思想,将显存利用率从 20–38% 提升至 96.3%,在 100 并发下吞吐量为传统方案的 3.67 倍。Albireo 推理系统(2026)通过在调度和 I/O 层面消除不可扩展开销,在 vLLM 基础上进一步实现 1.9 倍吞吐量提升和 48% 延迟降低[^c25]。推测解码已成为工程实践中的标准加速手段,DeepSeek-R1 的 MTP 方案实现 2.33 倍加速。连续批处理在 H100 上将 128 并发的吞吐量从 700 tok/s 提升至 1,900 tok/s(2.7 倍),CHunked Prefill 将 32K 长上下文的 p95 TTFT 从 2,800ms 降至 890ms。Google Cloud 归纳的五大推理优化实践涵盖语义路由、Prefill/Decode 解耦、量化、上下文感知路由和推测解码。
检索增强生成(RAG)与智能体(Agent)是工程落地中的高频考点。RAG 通过外挂知识库增强模型的事实准确性,其评估的核心指标不是准确率,而是能够回答与拒答的稳定性及事实一致性[^c10]。嵌入模型选型需综合评估上下文窗口、向量维度、分词方式等多重维度,在多语言 RAG 生产环境中 BGE-M3(自托管)是默认首选。[[工程实践/Agent系统|Agent 系统]]的设计要点在于可审计、可回滚、可解释的任务执行流程[^c11],可形式化为包含策略、记忆、工具、验证器和环境的元组。2025 年开放协议 MCP 与 A2A 的落地为 Agent 互联互通奠定基础——MCP 专注于模型到工具的标准化连接(类比 USB-C),A2A 专注于智能体间的任务协调(类比以太网),两者在实践中互补而非竞争。[[工程实践/MCP协议|MCP 协议]]经历了 2025 年的无状态化改造和治理结构正式化等重大版本更新,已成为企业级工具调用的标准协议[^c22]。在生产环境中,监控体系覆盖延迟指标、GPU 资源利用率、数据漂移等维度,需要基于五层指标体系和事件驱动检测机制实现 24/7 可靠性保障[^c20]。
提示工程(Prompt Engineering)作为模型交互的核心技能,其三大范式(Zero-Shot、Few-Shot、Chain-of-Thought)的对比与选型是面试中的常见考点。据统计,约 70% 的模型输出偏差源于 Prompt 设计缺陷,优化提示策略可使任务成功率提升数倍。嵌入模型的自托管部署方案包括 HuggingFace TEI、vLLM 和 Ollama 三条主流路径,分别适用于不同规模的生产或原型场景。