【零基础实战】大模型入门面试 100 问：基础概念 + 环境实操（一问一答版，直接背诵）-Seo优化-塔城地区网站建设公司

痛点引入

备战大模型入门岗面试，最高效的方式就是刷高频问答：不用自己整理零散知识点，一问一答精准对应考点，背诵效率高，还能直接模拟面试作答场景。

本文整理了大模型入门岗 100 道高频面试题，采用纯问答形式，覆盖基础概念核心考点与环境实操高频问题两大模块，每道题配标准答案 + 得分要点 + 易错提醒，适配校招、转行、初级 AI 开发、大模型应用工程师、提示词工程师等岗位。所有考点均来自真实企业面试题，拒绝偏题怪题，新手吃透这 100 问，能覆盖 80% 以上的入门面试场景。

💡 面试答题黄金原则：先给核心结论，再补充定义解释，加 1 个落地场景 / 优缺点收尾；有项目经验的顺带提一句实操踩坑点，逻辑清晰比堆砌术语更加分。

📚 第一部分：大模型基础概念篇（60 问）

模块 1：大模型基础定义与常识

Q1：什么是大语言模型（LLM）？ A：大语言模型是基于海量文本数据训练的深度学习模型，参数规模通常在十亿级以上，通过学习语言规律来预测下一个 Token，具备理解和生成自然语言的能力，可实现问答、翻译、摘要、代码生成等多种 NLP 任务。 💡 得分要点：预测下一个 Token、自然语言理解与生成、大参数量 ⚠️ 易错提醒：不要说成 “存储了所有知识的数据库”，模型知识是通过参数权重编码的，不是直接存储文本。

Q2：大模型的 “参数” 是什么？ A：参数是模型训练过程中学习到的数值权重，是模型存储语言知识、逻辑规律的载体；参数规模越大，通常模型的语义理解、复杂推理能力越强，但训练和推理的算力、显存成本也越高。

Q3：什么是 Token？ A：Token 是大模型处理文本的最小单位，是对文本进行分词后的片段。英文场景下 1 个 Token 约对应 0.75 个单词，中文场景下 1 个 Token 约对应 1~2 个汉字；大模型的上下文长度限制、调用计费均以 Token 数量为单位。 💡 加分点：不用单个汉字作为单位，是因为分词可以大幅缩短序列长度，提升计算效率，同时保留语义完整性。

Q4：大模型的 “上下文窗口” 是什么？ A：上下文窗口指大模型单次请求能够处理的最大 Token 长度，包含输入的提示词和输出的回复，超出窗口长度的内容模型无法感知，会出现 “失忆” 或直接报长度超限错误。 💡 行业参考：入门级开源模型多为 4K/8K 窗口，商用主流模型支持 128K 窗口，部分长文本模型可达百万级 Token。

Q5：大模型是有状态的还是无状态的？ A：大模型本身是无状态的，每一次 API 调用都是完全独立的，不会自动记住上一次的对话内容。我们感受到的 “多轮记忆”，本质是通过把历史对话按格式拼接进本次请求的上下文来实现的。

Q6：什么是预训练？ A：预训练是大模型训练的第一阶段，使用互联网海量通用文本数据进行大规模训练，让模型学习通用语言知识、世界常识和基础逻辑，产出的模型称为基座模型。预训练成本极高，通常只有头部厂商会做。

Q7：什么是微调（Fine-tuning）？ A：微调是在预训练基座模型的基础上，使用特定领域的小规模标注数据继续训练，让模型适配特定场景（如客服、代码生成、专业问答），提升垂直领域的表现。其中最常用的是监督微调（SFT），即用标注好的指令 - 回复对进行训练。

Q8：基座模型和对话模型有什么区别？ A：基座模型（Base Model）是预训练完成的原始模型，擅长文本续写，不擅长指令遵循和对话问答；对话模型（Chat Model）是在基座模型基础上，经过指令微调、人类对齐训练得到的，更符合人类对话习惯，是日常 AI 助手的主流形态。

Q9：什么是对齐（Alignment）？ A：对齐是让大模型的输出符合人类价值观、指令要求和安全规范的过程，目标是让模型 “有用、诚实、无害”。常见对齐手段包括指令微调、RLHF、RLAIF，避免模型输出有害、违规、虚假内容。

Q10：RLHF 是什么？ A：RLHF 即基于人类反馈的强化学习，是目前主流的大模型对齐技术，分为三个阶段：

监督微调：用人工标注的优质回复训练模型，让模型学会遵循指令；
奖励模型训练：人工对多个回复排序，训练奖励模型来打分；
强化学习优化：用奖励模型的分数作为反馈，通过强化学习算法优化大模型。

Q11：什么是零样本（Zero-shot）学习？ A：零样本指不给模型任何示例，只通过自然语言描述任务要求，模型就能完成对应任务，是大模型涌现出的核心能力之一，优势是灵活通用，不用准备样本。

Q12：什么是少样本（Few-shot）学习？ A：少样本指在提示词中给模型提供 2~5 个输入输出示例，再让模型执行同类任务。通过示例可以更精准地约束输出格式与逻辑，通常比零样本效果更稳定，适合格式要求严格的结构化输出场景。

Q13：什么是大模型的涌现能力？ A：涌现能力指当模型参数规模达到一定阈值后，突然具备了小模型没有的复杂能力，比如上下文学习、逻辑推理、指令遵循、多步解题等。这种能力无法通过小模型的表现线性预测，是大模型的核心特性之一。

Q14：生成式 AI 和传统 AI 有什么区别？ A：传统 AI 以分类、预测、判断为主，输出是固定类别或数值，比如人脸识别、垃圾邮件分类；生成式 AI 能够生成全新的内容，包括文本、图片、音频、代码等，大语言模型是生成式 AI 最核心的分支。

Q15：常见的开源 / 闭源大模型有哪些？ A：

国内开源主流：通义千问 Qwen、智谱 ChatGLM、百川 Baichuan、DeepSeek；
海外开源主流：Meta Llama 系列、Mistral 系列；
闭源商用：GPT 系列、Claude、文心一言、讯飞星火。 💡 落地建议：入门落地优先选国内开源模型，中文效果好、合规性强、下载方便。

模块 2：提示词工程基础

Q16：什么是提示词工程（Prompt Engineering）？ A：提示词工程是通过设计、优化输入给大模型的文本指令，引导大模型输出更高质量、更符合预期结果的技术。它是零成本提升大模型效果的核心手段，不需要改动模型，只靠优化输入就能大幅提升产出质量。

Q17：优质提示词的核心要素有哪些？ A：核心要素可概括为五点：明确的角色人设、清晰的任务目标、具体的输出要求、必要的背景信息、合适的示例约束；核心原则是减少模型的猜测空间，越明确具体，输出效果越稳定。

Q18：什么是角色提示（Role Prompting）？ A：角色提示是在提示词开头给模型设定明确的身份与专业背景，比如 “你是一个资深 Python 后端开发工程师”，让模型切换到对应领域的知识体系，输出更专业、更贴合场景的结果，是最常用的提示词优化技巧之一。

Q19：什么是思维链（CoT, Chain of Thought）？ A：思维链是引导大模型在回答问题时，先输出推理步骤，再给出最终答案的提示词技术，能够显著提升模型解决数学计算、逻辑推理、复杂规划类问题的准确率。 💡 零样本思维链：只需要在问题结尾加上 “请一步步思考并给出答案”，就能获得明显的效果提升。

Q20：少样本提示和思维链怎么结合？ A：在少样本的示例中，不仅给出输入和最终输出，同时写出完整的中间推理过程，让模型模仿示例的推理步骤解题，也叫 Few-shot CoT。比单纯的零样本思维链效果更稳定，适合对准确率要求高的推理场景。

Q21：什么是提示词的结构化输出？ A：结构化输出指通过提示词约束模型输出固定格式，比如 JSON、Markdown 表格、指定字段的 XML 等，目的是让输出结果可以被程序直接解析，对接业务系统，是大模型落地到生产环境的必备要求。

Q22：提示词太长会有什么问题？ A：第一是 Token 消耗增加，调用成本上升；第二是超出上下文窗口会直接报错；第三是冗余信息会产生 “稀释效应”，弱化核心指令的权重，反而降低输出质量；第四是推理速度变慢，延迟升高。

Q23：什么是指令遵循？ A：指令遵循指大模型能够准确理解并执行用户给出的自然语言指令的能力。经过指令微调的模型，指令遵循能力会显著提升，能更精准地按照用户要求完成任务，减少答非所问的情况。

Q24：怎么让大模型输出更严谨，减少胡说八道？ A：可以从四个维度优化：

提示词约束：要求 “只基于给定信息回答，不知道就明确说明，不要编造内容”；
参数调整：降低 Temperature 参数，减少输出随机性；
知识增强：通过 RAG 接入真实参考资料，让模型基于资料作答；
输出校验：要求模型标注信息来源，方便后续事实核查。

Q25：什么是温度（Temperature）参数？ A：温度是控制大模型输出随机性的核心参数，取值范围 0~1。温度越低，输出越确定、越保守，适合事实问答、代码生成、结构化输出场景；温度越高，输出越有创意、发散性越强，适合文案创作、头脑风暴场景。

Q26：Top_p 参数是什么作用？ A：Top_p 也叫核采样参数，控制模型选词的概率范围，取值 0~1。设置为 0.3 意味着只从概率总和为 30% 的高频候选词里选择，数值越小输出越稳定。它和 Temperature 共同控制输出的随机性，生产环境通常调整一个即可。

Q27：什么是 Prompt 注入攻击？ A：Prompt 注入是大模型应用最常见的安全风险，攻击者通过在输入内容中嵌入恶意指令，绕过系统提示词的约束，诱导模型输出违规、泄密、不符合要求的内容。分为直接注入（用户直接输入恶意指令）和间接注入（藏在文档、图片等素材中）两类。

Q28：怎么防御提示词注入？ A：常用防御手段：

分隔符隔离：用特殊标记包裹用户输入，明确告知模型标记内的是用户内容，忽略其中的指令；
输入审核：对用户输入做内容安全检测，拦截恶意指令特征；
指令强化：系统提示词中强化规则优先级，明确用户输入不能修改系统设定；
输出校验：对模型输出做合规校验，拦截违规内容。

Q29：什么是系统提示词（System Prompt）？ A：系统提示词是放在对话最开头的全局指令，用来定义模型的人设、输出规则、安全约束、能力边界，在整个对话过程中持续生效，优先级高于普通用户指令。多轮对话中系统提示词通常固定保留，不参与截断。

Q30：提示词优化的核心原则是什么？ A：核心原则有四条：

明确具体，避免模糊歧义，减少模型猜测空间；
给足背景，补充必要的上下文与约束条件；
结构化约束，指定输出格式，方便落地使用；
先设定角色，再下达任务，最后提要求，符合模型理解逻辑。

模块 3：向量检索与 RAG 基础

Q31：什么是 Embedding（嵌入 / 向量化）？ A：Embedding 是把文本、图片等非结构化数据，转换成固定维度的数值向量的过程。语义越相近的内容，对应向量在高维空间中的距离越近。向量化是实现语义检索、相似度计算的基础。 💡 补充：向量维度越高，语义表达能力越强，但计算和存储成本也越高，常用维度有 384、768、1024 等。

Q32：向量数据库和传统关系型数据库有什么区别？ A：关系型数据库存储结构化数据，通过关键词精确匹配查询，适合精准查找；向量数据库存储高维向量，通过计算向量距离实现语义相似度检索，适合模糊匹配、语义搜索、相似内容推荐场景。 💡 落地常识：实际项目中通常两者结合使用，向量库存向量做检索，关系库存原始文本和业务数据。

Q33：什么是 RAG（检索增强生成）？ A：RAG 即检索增强生成，是企业落地大模型的主流技术方案。流程分为两部分：离线阶段把私有知识库向量化存入向量库；在线阶段用户提问时，先从向量库检索相关知识片段，再把问题 + 参考资料一起传给大模型，让模型基于资料生成准确回答。

Q34：RAG 能解决大模型的什么问题？ A：核心解决三个痛点：

知识时效性：解决大模型训练数据滞后，不知道最新信息的问题；
私有知识：让模型能使用企业内部文档、业务数据等非公开知识；
幻觉问题：给模型提供参考依据，减少编造内容，提升回答准确率。同时不用微调模型，成本更低，知识库更新灵活。

Q35：RAG 的完整流程是什么？ A：

离线构建阶段：文档加载 → 文档清洗 → 文本分块 → 文本向量化 → 向量 + 元数据入库；
在线检索阶段：用户提问 → 查询向量化 → 向量库检索 TopK → （可选：重排序） → 拼接提示词 → 大模型生成回答 → 返回结果。

Q36：什么是文档分块（Chunking）？ A：文档分块是把长文档切分成多个短小文本片段的过程，是 RAG 的关键步骤。分块太大容易包含冗余信息，稀释核心语义；分块太小容易丢失上下文，导致语义不完整。常用分块大小为 256、512、1024 字符，根据文档类型调整。

Q37：常见的向量数据库 / 工具有哪些？ A：

轻量本地工具：FAISS（Meta 开源，纯检索，适合本地快速落地）、Chroma（轻量嵌入式，自带持久化）；
开源分布式：Milvus、Qdrant，适合生产级大数据量场景；
云服务：Pinecone、阿里云向量检索、腾讯云向量数据库。

Q38：余弦相似度和 L2 欧氏距离的区别？ A：

度量方式	取值范围	核心特点	适用场景
L2 欧氏距离	0 ~ 正无穷，越小越相似	计算空间直线距离，对向量绝对值敏感	短文本精确匹配、聚类场景
余弦相似度	-1 ~ 1，越接近 1 越相似	关注向量方向，忽略文本长度差异	通用语义检索、长文本匹配

💡 实用技巧：向量归一化后，L2 距离和余弦相似度的排序结果完全等价。

Q39：什么是 TopK 检索？ A：TopK 指向量检索时，返回与查询向量最相似的前 K 个结果。K 值太小可能漏过相关内容，召回率低；K 值太大可能引入冗余无关信息，增加 Token 消耗，通常取 3~10。 💡 进阶玩法：高阶 RAG 中会先召回较大的 TopK（比如 20 条），再通过重排序模型（Rerank）做二次精排，最终返回前 3~5 条，兼顾召回率和准确率。

Q40：RAG 中为什么要对查询语句做改写？ A：用户的提问可能表述模糊、有指代、口语化，直接检索效果差。通过大模型对查询语句做改写，补充上下文、优化表述、拆解多问题，能大幅提升检索的召回率和准确率，是进阶 RAG 的常用优化手段。

Q41：什么是召回率？ A：召回率指检索出来的结果中，真正相关的内容占所有相关内容的比例，衡量检索能不能把相关的内容都找出来。召回率越高，漏检越少，对应 “找得全”。

Q42：什么是精确率？ A：精确率指检索返回的结果中，真正相关的内容占返回结果的比例，衡量返回结果的准确度。精确率越高，无关内容越少，对应 “找得准”。 ⚠️ 易错点：召回率和精确率通常是权衡关系，扩大召回会降低精确率，反之亦然，要根据业务场景找平衡点。

Q43：FAISS 是什么？有什么优势？ A：FAISS 是 Meta 开源的高性能向量检索库，支持 CPU/GPU 运行，提供多种索引类型，纯本地部署无额外费用，速度快、接口简单，是轻量 RAG 项目、本地向量检索、入门学习的首选工具。

Q44：RAG 和微调怎么选？ A：

维度	RAG 检索增强生成	模型微调
核心目标	补充外部知识，减少幻觉	让模型掌握风格、格式、特定能力
更新成本	极低，新增文档直接入库	较高，需要重新训练
知识时效性	强，可实时更新	弱，训练后知识固定
数据需求量	不需要标注数据	需要一定量标注数据
适用场景	知识库问答、文档助手、内部资料查询	风格模仿、特定话术、垂直能力增强

💡 行业共识：知识类需求优先用 RAG，风格 / 能力类需求再考虑微调，生产环境通常两者结合。

Q45：RAG 会出现的常见问题有哪些？ A：

检索不准：相关内容排不上前几位，召回率低；
上下文缺失：分块不合理，检索到的片段语义不完整；
内容冗余：检索到大量无关信息，稀释有效内容；
模型不听：大模型不参考检索内容，自由发挥产生幻觉；
多轮失效：多轮对话中查询指代不清，检索偏离主题。

模块 4：微调与模型应用常识

Q46：全参数微调和参数高效微调有什么区别？ A：全参数微调会更新模型的所有参数，效果最好，但训练成本极高，需要大算力和大量数据，容易出现灾难性遗忘；参数高效微调（PEFT）只更新模型的少量参数，训练成本低、速度快，效果接近全量微调，且不会破坏原模型，是目前的主流方案。

Q47：什么是 LoRA？ A：LoRA 是目前最主流的参数高效微调方法，核心是在模型的注意力层旁插入低秩矩阵，训练时只更新低秩矩阵的参数，不改动原模型权重。优势是显存占用低、训练速度快、可插拔使用、不破坏基座模型，适配性极强。

Q48：什么是量化？ A：量化是降低模型参数的数值精度（比如从 FP16 半精度降到 INT8/INT4 整数），从而大幅减少模型显存占用、提升推理速度的技术，代价是极小的精度损失，是本地部署大模型、生产环境降本的必备技术。 💡 常见量化格式：GGUF（本地推理主流，适配 CPU/GPU）、GPTQ/AWQ（GPU 高速推理）。

Q49：4bit 量化和 8bit 量化怎么选？ A：8bit 量化精度损失更小，显存占用中等，适合显存充足、追求效果稳定的生产场景；4bit 量化显存占用更低（约为 FP16 的 1/4），精度损失稍大，适合显存有限的个人部署、测试场景。 💡 实用结论：7B 模型 4bit 量化后，8G 显存即可流畅运行，是个人使用的性价比首选。

Q50：什么是推理？ A：推理是把输入传给训练好的模型，模型计算并输出结果的过程。我们日常调用大模型 API、本地运行模型生成内容，都属于推理阶段。推理关注的核心指标是速度、显存占用、吞吐量。

Q51：推理速度受什么因素影响？ A：主要受六个因素影响：模型参数量、量化精度、上下文长度、硬件性能（显卡算力）、并发请求数量、是否开启 KV 缓存优化。参数越小、量化程度越高、上下文越短、显卡性能越强，推理速度越快。

Q52：什么是 KV 缓存？ A：KV 缓存是大模型推理的核心优化技术，把之前计算好的注意力键值对缓存起来，生成下一个 Token 时不用重复计算历史部分，能大幅提升多轮对话、长文本生成的推理速度。 ⚠️ 注意点：KV 缓存会占用显存，上下文越长，缓存占用的显存越多。

Q53：什么是流式输出？ A：流式输出指模型生成一个 Token 就返回一个，不用等全部生成完再一次性返回。用户可以边看边生成，体感响应速度更快，是绝大多数 AI 对话产品的标配功能。

Q54：什么是多模态大模型？ A：多模态大模型指能够同时处理和理解多种类型数据的大模型，比如文本、图片、音频、视频，不仅能进行文本对话，还能实现看图问答、语音交互、视频理解等能力。

Q55：什么是 Agent（智能体）？ A：大模型 Agent 是以大模型为核心大脑，具备规划、工具调用、记忆、反思能力的智能程序，能够自主拆解复杂任务、调用外部工具、分步执行、校验结果，最终完成用户目标。比如自动写代码、自动查资料、自动处理办公流程。

Q56：Agent 的核心组成部分有哪些？ A：核心分为四大模块：

大模型大脑：负责任务规划、决策、推理；
记忆模块：包含短期对话记忆和长期知识记忆；
工具调用模块：对接外部工具、API、数据库，扩展能力边界；
规划反思模块：拆解任务、校验结果、修正错误。

Q57：什么是函数调用（Function Calling）？ A：函数调用是大模型的一项核心能力，开发者预先定义好工具函数的名称、参数、功能说明，模型可以根据用户需求，自主判断是否需要调用工具、调用哪个工具、传入什么参数。它是 Agent 实现工具调用的基础。 💡 典型场景：查天气、查数据库、执行计算、调用第三方 API。

Q58：什么是幻觉（Hallucination）？ A：幻觉指大模型生成的内容看似逻辑通顺、表述合理，但实际上是编造的、不符合事实的，比如虚构数据、捏造知识点、错误引用、编造不存在的事物，是大模型最核心的缺陷之一。

Q59：降低幻觉的常用方法有哪些？ A：

检索增强：通过 RAG 接入真实参考资料，让模型有据可依；
参数调节：降低 Temperature，减少输出随机性；
提示约束：明确要求不许编造，不知道就说明；
事实校验：对输出结果做事实核查，交叉验证；
模型选型：选择事实性更强、对齐更好的模型。

Q60：大模型落地有哪些常见的应用场景？ A：常见落地场景包括：智能客服、企业知识库问答、代码辅助开发、内容批量生成、文档智能处理（摘要 / 分类 / 提取）、办公自动化、数据分析助手、文案创作、翻译润色、智能运维助手等。

🛠️ 第二部分：环境部署与实操问题篇（40 问）

模块 1：Python 环境与依赖管理

Q61：大模型开发为什么推荐用 Python？ A：Python 拥有最完善的 AI 开发生态，PyTorch、Transformers 等主流深度学习框架原生支持；海量开源工具库，开发效率极高；社区活跃，问题解决方案丰富，是 AI 与大模型开发的事实标准语言。

Q62：常用的 Python 环境管理工具有哪些？ A：

venv：Python 官方自带的虚拟环境工具，轻量简单，适合小型项目；
conda：数据科学领域常用，支持多 Python 版本，能管理非 Python 依赖（如 CUDA），大模型开发首选；
poetry：精细化依赖版本管理，适合需要严格复现环境的生产项目。

Q63：pip 安装包速度慢怎么办？ A：切换国内 PyPI 镜像源，比如清华源、阿里源。

临时使用：安装命令后加-i参数指定镜像

pip install faiss-cpu -i https://pypi.tuna.tsinghua.edu.cn/simple

永久配置：一行命令设置全局镜像

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

Q64：安装依赖出现版本冲突怎么解决？ A：排查解决步骤：

优先使用虚拟环境，避免全局环境包混杂；
根据报错信息，降级 / 升级对应包到兼容版本；
避免安装功能互斥的包，比如faiss-cpu和faiss-gpu不能同时安装；
复杂依赖用 conda、poetry 等工具自动解析版本。

Q65：为什么大模型项目推荐用虚拟环境？ A：不同项目依赖的包版本差异很大，比如不同模型需要不同版本的 PyTorch、Transformers，全局安装极易出现版本冲突。虚拟环境可以为每个项目隔离独立的依赖环境，互不影响，方便环境复现和项目部署。

Q66：CUDA 是什么？和大模型部署有什么关系？ A：CUDA 是 NVIDIA 推出的并行计算平台与编程模型，让 NVIDIA 显卡可以用于通用并行计算。大模型训练和推理的计算量极大，CPU 运行速度很慢，需要通过 GPU 加速，CUDA 是 NVIDIA 显卡运行 AI 程序的必备基础环境。

Q67：怎么查看自己的 CUDA 版本？ A：有两个常用命令，对应不同含义：

# 查看显卡驱动支持的最高CUDA版本 nvidia-smi # 查看当前安装的CUDA运行时版本 nvcc -V

⚠️ 易错点：两个版本不一致是正常的，只要运行时版本 ≤ 驱动支持的最高版本，就能正常使用。

Q68：没有 GPU 能跑大模型吗？ A：可以，纯 CPU 也能运行大模型，但推理速度会慢很多，仅适合小参数模型、测试场景。个人使用推荐用量化后的小模型（如 7B 参数 4bit 量化的 GGUF 格式），搭配 llama.cpp/Ollama，CPU 也能跑出可用的速度。

Q69：PyTorch 怎么安装对应 CUDA 版本？ A：去 PyTorch 官网选择对应系统、CUDA 版本的安装命令，不要直接pip install torch，默认会安装 CPU 版本。

安装后验证 GPU 是否可用：

import torch print(torch.cuda.is_available()) # 输出True则GPU可用 print(torch.cuda.device_count()) # 输出可用GPU数量

⚠️ 常见报错：输出 False 大概率是装了 CPU 版 PyTorch，卸载后重装对应 CUDA 版本即可。

Q70：Python 导入模块报错 ModuleNotFoundError 怎么排查？ A：按三步排查：

确认包是否安装：执行pip list查看对应包是否存在；
确认环境一致：检查当前运行的 Python 解释器和安装包的环境是不是同一个，避免多环境混乱；
核对导入名称：注意包名和导入名可能不一致，比如包名是sentence-transformers，导入是sentence_transformers。

模块 2：模型本地部署常见问题

Q71：本地部署大模型需要什么硬件配置？ A：

入门测试：7B 模型 4bit 量化，8G 显存即可流畅运行；
日常使用：13B 模型 4bit 量化，建议 16G 显存；
进阶开发：34B 模型 4bit 量化，建议 32G 以上显存；
纯 CPU 运行：16G 以上内存，仅适合轻量测试，速度较慢。

Q72：常用的本地大模型部署工具有哪些？ A：

Ollama：最简单，一键安装，一行命令跑模型，新手首选；
LM Studio：图形化界面，不用敲命令，可视化选择模型，适合非开发人员；
vLLM：高性能推理框架，吞吐量大，生产环境部署首选；
Text Generation WebUI：功能最全，支持各种参数调整、插件，适合研究调试。

Q73：Ollama 是什么？有什么优势？ A：Ollama 是一款轻量级大模型本地部署工具，一键安装，自动处理模型下载、量化、环境配置，一行命令就能运行开源大模型，对新手极其友好。同时自带 API 服务，兼容 OpenAI 接口格式，原有代码可以无缝切换。

常用命令：

ollama pull qwen2:7b # 下载模型 ollama run qwen2:7b # 运行并对话 ollama list # 查看本地模型 ollama serve # 启动API服务，默认端口11434

Q74：本地跑模型显存不足怎么办？ A：按优先级从高到低尝试：

更换更低精度的量化版本，比如从 8bit 换成 4bit，显存占用直接减半；
选择参数更小的模型，比如从 13B 换成 7B；
开启 CPU 内存卸载，把部分参数放到内存里，牺牲速度换显存；
减小上下文窗口长度，降低 KV 缓存占用；
升级显卡显存。

Q75：模型加载速度慢是什么原因？ A：主要原因有四个：

存储介质慢：机械硬盘读取大模型文件很慢，换固态硬盘会有大幅提升；
模型参数大：参数量越大，加载文件越大，耗时越长；
首次初始化：首次加载需要分配显存、初始化算子，会慢一些；
量化程度低：低精度量化模型文件更小，加载速度更快。

Q76：本地模型输出速度慢怎么优化？ A：常用优化手段：

使用更高量化程度的模型，降低计算量；
开启 KV 缓存，避免重复计算；
减小上下文长度，降低计算复杂度；
使用 GPU 推理，比 CPU 快数倍到数十倍；
更换 vLLM 等高性能推理框架；
限制最大生成长度，避免无效生成。

Q77：本地模型生成中文效果差是什么原因？ A：大概率是使用了纯英文基座的模型，没有经过中文优化训练，对中文语义理解差。解决方法是更换中文优化的开源模型，比如通义千问 Qwen、智谱 ChatGLM、DeepSeek 中文系列，中文表现会有质的提升。

Q78：什么是 GGUF 格式？ A：GGUF 是目前主流的大模型量化文件格式，由 llama.cpp 团队推出，替代了早期的 GGML 格式。它兼容性强、文件体积小、加载速度快，支持 CPU/GPU 混合推理，是本地部署大模型的标准格式，Ollama、LM Studio 等工具都原生支持。

Q79：怎么让本地大模型提供 API 接口？ A：主流部署工具都自带 API 服务，无需额外开发：

Ollama：执行ollama serve，默认端口 11434，提供兼容 OpenAI 格式的接口；
vLLM：启动时指定--api-key等参数，启动 OpenAI 兼容接口； 💡 优势：原有对接商用 API 的代码，只需要修改 base_url 和密钥，就能无缝切换成本地模型。

Q80：本地部署大模型有什么优势？ A：核心优势有四点：

数据安全：所有数据本地处理，无隐私泄露风险，适合敏感数据场景；
成本可控：没有调用费用，一次性部署长期使用，高频调用成本远低于 API；
离线可用：无网络依赖，内网、断网环境都能使用；
高度定制：可以自由微调、修改配置，适配个性化需求。

模块 3：向量库与工具链实操

Q81：FAISS 安装报错怎么办？ A：按常见场景逐一排查：

版本不兼容：确认 Python 版本在 3.8~3.12 之间，升级 pip 到最新版重试；
包冲突：检查是否同时安装了faiss-cpu和faiss-gpu，必须卸载其中一个；
Windows DLL 错误：安装 VC++ 2019 运行库，或改用 conda 安装；
网络失败：切换国内 PyPI 镜像源再安装。

Q82：FAISS 的 IndexFlatL2 是什么索引？ A：IndexFlatL2 是精确检索索引，暴力计算所有向量的 L2 欧氏距离，召回率 100%，无需训练，使用简单，适合十万条以内的小数据量场景。数据量超过 10 万条后，检索速度会明显下降，需要切换近似索引。 💡 对应内积版本：IndexFlatIP，用于计算内积，向量归一化后等价于余弦相似度。

Q83：FAISS 向量维度不匹配报错怎么解决？ A：报错原因是创建索引时指定的维度，和 Embedding 模型输出的向量维度不一致。

最佳实践：永远通过代码动态获取向量维度，不要硬编码数值。

dimension = corpus_embeddings.shape[1] # 动态获取维度 index = faiss.IndexFlatL2(dimension)

Q84：sentence-transformers 是什么？ A：sentence-transformers 是最常用的文本向量化 Python 库，封装了大量开源的 Embedding 模型，一行代码就能实现文本转向量，支持中文、多语言模型，接口简单易用，是 RAG 项目、文本相似度计算的标配工具。

Q85：首次使用 sentence-transformers 下载模型慢怎么办？ A：配置 HuggingFace 国内镜像源，加速模型下载：

Linux/macOS：

export HF_ENDPOINT=https://hf-mirror.com

Windows PowerShell：

powershell

$env:HF_ENDPOINT = "https://hf-mirror.com"

也可以手动下载模型文件到本地，加载时指定本地文件夹路径。

Q86：向量化的时候为什么要统一预处理？ A：入库时的向量化预处理逻辑，和查询时的预处理逻辑必须完全一致，包括是否归一化、文本清洗规则、模型选择，否则向量处于不同的空间分布，检索结果会完全失效。 ⚠️ 易错点：入库做了归一化，查询没做，会导致相似度计算完全不准。

Q87：Chroma 和 FAISS 怎么选？ A：

追求极致性能、纯检索功能、轻量快速验证，选 FAISS；
需要完善的 Python API、自带元数据管理、轻量持久化、快速搭建小型项目，选 Chroma； 💡 两者都是本地轻量方案，生产环境大数据量建议上 Milvus 等分布式向量数据库。

Q88：向量库可以直接存原始文本吗？ A：主流向量库（包括 FAISS）只存储向量和对应的 ID，不存储原始文本和元数据。原始文本、业务字段需要自行维护映射关系，通常存入关系型数据库或本地文件，通过向量 ID 进行关联。

Q89：怎么实现向量的增量添加？ A：FAISS 支持多次调用index.add()方法动态添加新向量，不需要重建索引，适合知识库持续更新的场景。 ⚠️ 注意事项：新增向量的维度必须和原有索引完全一致；自定义 ID 模式下，ID 不能重复，否则会覆盖。

Q90：本地做 RAG 的最简技术栈是什么？ A：Python + LangChain（流程编排） + FAISS（向量检索） + sentence-transformers（文本向量化） + Ollama（本地大模型），全程开源免费，纯本地运行，数据不出域，新手入门学习首选，半天就能搭出可用的私有知识库。

模块 4：API 调用与报错排查

Q91：调用大模型 API 报上下文长度超限怎么办？ A：常用解决方案：

对输入内容做精简，移除冗余信息；
多轮对话使用滑动窗口截断，只保留最近几轮历史；
长文档场景用 RAG 检索，只传入相关片段，不要全量传入；
更换支持更长上下文窗口的模型；
对长文本先做摘要，再传入摘要信息。

Q92：大模型 API 调用频率超限怎么处理？ A：对应 HTTP 状态码通常为 429，解决手段：

添加重试 + 指数退避机制，失败后间隔递增时间再重试；
控制并发请求数，避免瞬间大量请求；
引入请求队列做削峰，平滑请求量；
向服务商申请更高的调用配额；
缓存高频重复请求的结果，减少重复调用。

Q93：调用 API 出现网络超时怎么办？ A：排查解决步骤：

检查本地网络连接是否正常；
适当增加超时时间，避免网络波动导致失败；
添加重试机制，超时后自动重试；
调用海外 API 需配置合规代理，优先选择国内服务商 API；
检查服务商是否有服务故障公告。

Q94：为什么要给 API 调用加重试机制？ A：网络波动、服务限流、临时服务故障都可能导致单次调用失败，加重试机制可以大幅提升接口可用性，是生产环境的标配。 ⚠️ 注意：重试必须搭配指数退避，不要高频密集重试，否则会加重服务端压力，反而更容易被限流。

Q95：大模型输出的 JSON 格式不稳定怎么解决？ A：多层保障方案：

提示词优化：明确给出 JSON 字段定义 + 示例，要求 “只输出纯 JSON，不要任何解释文字、markdown 标记”；
模型能力：使用模型自带的结构化输出 / 函数调用能力，强制输出 JSON；
参数调节：降低 Temperature，减少输出随机性；
后置修复：输出后做格式校验，异常时自动修复或让模型重生成。

Q96：对接多个大模型 API 怎么设计更合理？ A：采用统一抽象层设计：

封装统一的调用接口，适配不同厂商的 SDK，业务层只调用统一接口；
配置化管理模型密钥、参数、地址，切换模型不用改业务代码；
统一错误处理、重试、限流逻辑，避免重复开发；
通过工厂模式动态切换模型，方便扩展新的模型供应商。

Q97：调用大模型怎么控制成本？ A：常用降本手段：

优化提示词，移除冗余内容，减少无效 Token 消耗；
使用滑动窗口控制上下文长度，避免历史消息无限增长；
分级调用：简单问题用小模型，复杂问题再调用大模型；
缓存高频重复请求的结果，减少重复调用；
高频场景评估本地部署，替代 API 调用。

Q98：怎么保证大模型调用的数据安全？ A：

敏感数据不调用公网 API，使用本地部署的模型；
对输入数据做脱敏处理，移除身份证、手机号、核心机密等信息；
选择合规的服务商，确认数据隐私条款，不用于训练；
做好接口鉴权，避免未授权访问；
日志记录做脱敏，不存储敏感的输入输出内容。

Q99：多轮对话实现的核心逻辑是什么？ A：服务端为每个会话维护独立的历史消息列表，用户每次提问时，把历史消息 + 当前问题一起组装成请求传给大模型；收到模型回复后，把回复也加入该会话的历史列表；同时通过滑动窗口、摘要等策略控制历史长度，避免 Token 超限。

Q100：大模型应用上线前要做哪些测试？ A：分为四大类测试：

功能测试：验证问答、多轮对话、工具调用、结构化输出等功能是否正常；
效果测试：验证回答准确率、幻觉率、格式合规性、指令遵循率；
性能测试：验证并发能力、响应速度、稳定性、资源占用；
安全测试：验证提示注入防御、违规内容拦截、数据隐私合规性。

⚠️ 面试避坑与突击建议

1. 答题避坑红线

不懂就坦诚说明，不要编造概念和参数，很容易被追问识破，反而严重减分；
回答问题先给结论，再展开解释，不要绕半天说不到重点；
有实操经验一定要提，比如 “我之前用 FAISS+Ollama 搭过本地知识库，踩过分块大小的坑”，比背概念说服力强得多。

2. 不同岗位复习侧重

开发岗：重点看 RAG 落地、环境部署、报错排查、API 对接、工具链使用；
产品 / 运营岗：重点看基础概念、应用场景、提示词优化、落地价值；
测试 / 运维岗：重点看环境部署、问题排查、性能指标、安全风险。

3. 3 天突击复习计划

第 1 天：过完 100 问所有基础概念，标记不熟悉的知识点；
第 2 天：动手实操核心工具，安装 Ollama 跑一个模型，用 FAISS 跑通一次向量检索，动手过一遍比纯背印象深得多；
第 3 天：复盘错题，整理自己的项目话术，把知识点和自己的经历结合起来。

✅ 全文总结

本文整理了大模型入门面试的 100 道高频考题，采用纯问答形式方便刷题背诵，覆盖大模型基础概念、提示词工程、RAG 与向量检索、微调常识、环境部署、工具实操、API 报错排查全场景，每道题配套标准答案、得分要点与易错提醒，适配初级 AI 开发、大模型应用工程师、提示词工程师等入门岗位。

大模型入门面试的核心不是考察高深的算法推导，而是考察对核心概念的理解、对主流工具的实操能力、对常见问题的排查思路。把这 100 问答吃透，再配合动手实操核心工具，应对绝大多数入门岗位面试完全足够。

【零基础实战】大模型入门面试 100 问：基础概念 + 环境实操（一问一答版，直接背诵）

痛点引入

📚 第一部分：大模型基础概念篇（60 问）

模块 1：大模型基础定义与常识

模块 2：提示词工程基础

模块 3：向量检索与 RAG 基础

模块 4：微调与模型应用常识

🛠️ 第二部分：环境部署与实操问题篇（40 问）

模块 1：Python 环境与依赖管理

模块 2：模型本地部署常见问题

模块 3：向量库与工具链实操

模块 4：API 调用与报错排查

⚠️ 面试避坑与突击建议

1. 答题避坑红线

2. 不同岗位复习侧重

3. 3 天突击复习计划

✅ 全文总结

Java依赖注入：为何@注解成技术隐患？官方推荐方案揭秘

nexus作为go代理，内存最少要配多少

现代 LLM 的核心架构设计其二：SwiGLU

齿轮设计必修课：闭式软/硬齿面传动，失效形式与校核原则一次讲透！

局域网共享软件哪个好局域网共享软件有哪些

第26篇：数据分类分级：DISC架构下的数据敏感度标记体系

痛点引入

📚 第一部分：大模型基础概念篇（60 问）

模块 1：大模型基础定义与常识

模块 2：提示词工程基础

模块 3：向量检索与 RAG 基础

模块 4：微调与模型应用常识

🛠️ 第二部分：环境部署与实操问题篇（40 问）

模块 1：Python 环境与依赖管理

模块 2：模型本地部署常见问题

模块 3：向量库与工具链实操

模块 4：API 调用与报错排查

⚠️ 面试避坑与突击建议

1. 答题避坑红线

2. 不同岗位复习侧重

3. 3 天突击复习计划

✅ 全文总结

Java依赖注入：为何@注解成技术隐患？官方推荐方案揭秘

nexus作为go代理，内存最少要配多少

现代 LLM 的核心架构设计其二：SwiGLU

齿轮设计必修课：闭式软/硬齿面传动，失效形式与校核原则一次讲透！

局域网共享软件哪个好 局域网共享软件有哪些

第26篇：数据分类分级：DISC架构下的数据敏感度标记体系

局域网共享软件哪个好局域网共享软件有哪些