一、 大语言模型训练阶段

大语言模型的诞生通常需要经历以下三个关键阶段,能力层层递进:

  1. 预训练 (Pre-training)核心机制:使用海量的未标注文本数据来调整模型参数,让其学习底层语言规律与丰富的世界知识。阶段成果:模型具备了良好的文本生成能力(即“接话茬”的能力)。
  2. 有监督微调 (Supervised Fine-Tuning, SFT)核心机制:使用高质量的“指令-回复”对(语料)来微调模型,将其文本生成能力转化为对用户有价值的回复。阶段成果:模型具备了基本的能力,能够遵循人类指令回答问题或者执行特定任务。
  3. 对齐训练 (Alignment)核心机制:定义“什么是好的回复”,综合考虑有用性 (Helpful)、无害性 (Harmless)、诚实性 (Honest) 这 3H原则 来塑造模型的价值观。阶段成果:进一步调整模型,优化输出的质量与人类期望的符合度。

二、 LoRA 微调模型 (PEFT)

LoRA (Low-Rank Adaptation) 属于参数高效微调 (PEFT) 技术的一种主流方法。

  • 核心原理:在已有预训练模型的基础上,冻结绝大部分预训练参数,仅更新极小部分参数(通过注入低秩矩阵实现)。
  • 适用场景:算力与显存资源受限的环境。多任务并发的部署需求。垂直领域下游应用的快速迭代。

三、 大模型生成控制参数

在调用 API 生成文本时,通过调整以下参数可以控制输出的多样性与确定性:

1. Temperature (温度)

  • 高温 (High Temperature):导致推理解码阶段的候选词分布偏向平坦,拉近各个词汇之间的概率差异,输出更具随机性和创造力。
  • 低温 (Low Temperature):拉大候选词之间的概率差。当温度趋近于 0 时,理论上会退化为贪心解码 (Greedy Decoding),即永远只选择概率最高的候选词,输出极其确定。

2. Top-k 采样

机制:按照数量来控制候选词范围。先输出概率分布,找出概率最高的 k 个候选词,仅在这个范围内进行采样。

  • 优点:减少选中极低概率候选词的可能,避免这部分词元导致的事实错误或语义不通。
  • 缺点:k 值是固定的,不考虑概率分布的平坦程度。当只需要 2-3 个合理选项时,固定的 k 会被迫引入低概率词元。当场景需要更多合理候选词时,固定的 k 又会限制范围,过滤掉全局最优的可能性。

3. Top-p 采样 (Nucleus Sampling)

机制:按照概率总和来控制候选词范围。将所有候选词按概率从高到低排序并依次累加,当累加值刚超过 p 值时停止,被累加的词即组成新的采样池,随后进行归一化采样。

  • 优点:能够自适应概率分布的平坦程度,完美解决了 Top-k 数量固定的缺点。
  • 缺点:在概率分布极端集中时(例如某一个候选词的概率极高),截断范围会急剧缩小,退化为几乎确定性的选择。

💡 最佳实践
在实际应用中,通常建议将 Top-p 和 Top-k 结合使用(取两者的交集或并集),既能动态适应分布,又能保证截断低质量词元,达到最理想的生成效果。