AI API 相关概念学习笔记 - 20260409

· 2026-04-09 ·

一、大语言模型训练阶段

大语言模型的诞生通常需要经历以下三个关键阶段，能力层层递进：

预训练 (Pre-training)核心机制：使用海量的未标注文本数据来调整模型参数，让其学习底层语言规律与丰富的世界知识。阶段成果：模型具备了良好的文本生成能力（即“接话茬”的能力）。
有监督微调 (Supervised Fine-Tuning, SFT)核心机制：使用高质量的“指令-回复”对（语料）来微调模型，将其文本生成能力转化为对用户有价值的回复。阶段成果：模型具备了基本的能力，能够遵循人类指令回答问题或者执行特定任务。
对齐训练 (Alignment)核心机制：定义“什么是好的回复”，综合考虑有用性 (Helpful)、无害性 (Harmless)、诚实性 (Honest) 这 3H原则来塑造模型的价值观。阶段成果：进一步调整模型，优化输出的质量与人类期望的符合度。

LoRA (Low-Rank Adaptation) 属于参数高效微调 (PEFT) 技术的一种主流方法。

在调用 API 生成文本时，通过调整以下参数可以控制输出的多样性与确定性：

高温 (High Temperature)：导致推理解码阶段的候选词分布偏向平坦，拉近各个词汇之间的概率差异，输出更具随机性和创造力。
低温 (Low Temperature)：拉大候选词之间的概率差。当温度趋近于 0 时，理论上会退化为贪心解码 (Greedy Decoding)，即永远只选择概率最高的候选词，输出极其确定。

机制：按照数量来控制候选词范围。先输出概率分布，找出概率最高的 k 个候选词，仅在这个范围内进行采样。

优点：减少选中极低概率候选词的可能，避免这部分词元导致的事实错误或语义不通。
缺点：k 值是固定的，不考虑概率分布的平坦程度。当只需要 2-3 个合理选项时，固定的 k 会被迫引入低概率词元。当场景需要更多合理候选词时，固定的 k 又会限制范围，过滤掉全局最优的可能性。

机制：按照概率总和来控制候选词范围。将所有候选词按概率从高到低排序并依次累加，当累加值刚超过 p 值时停止，被累加的词即组成新的采样池，随后进行归一化采样。

💡 最佳实践
在实际应用中，通常建议将 Top-p 和 Top-k 结合使用（取两者的交集或并集），既能动态适应分布，又能保证截断低质量词元，达到最理想的生成效果。