人工智能 自然语言处理 深度学习
演讲者:AI研究员
2025年5月7日 · 天津
通过本次演讲,您将深入理解大语言模型的工作原理及其在人工智能领域的重要地位
从规则系统到神经网络,再到如今的超大规模预训练模型
Transformer架构发布,《Attention is All You Need》论文问世
BERT模型发布,引入双向编码表示
GPT-2展示了大规模语言模型的潜力
GPT-3发布,1750亿参数规模震惊学界
ChatGPT发布,大模型走向大众应用
GPT-4、Claude等多模态大模型崛起
大语言模型本质上是一个概率分布学习系统,它学习文本序列中的统计规律,并能够基于这些规律生成连贯的文本。
给定前面的词序列 \(w_1, w_2, ..., w_{t-1}\),语言模型计算下一个词 \(w_t\) 的条件概率:
\[P(w_t | w_1, w_2, ..., w_{t-1})\]
通过链式法则,我们可以计算整个序列的概率:
\[P(w_1, w_2, ..., w_T) = \prod_{t=1}^{T} P(w_t | w_1, w_2, ..., w_{t-1})\]
大语言模型正是通过最大化训练语料中序列的概率来学习语言的统计规律
现代大语言模型的核心基础
自注意力机制的计算公式:
\[Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V\]
其中:
捕捉序列中任意位置之间的依赖关系
并行学习不同表示子空间的信息
对每个位置独立应用的非线性变换
缓解深层网络的梯度消失问题
稳定网络训练过程
为模型提供序列中的位置信息
GPT系列模型采用自左向右的生成方式,每次只能看到前面的上下文,这种设计使其特别适合文本生成任务。
大语言模型的两阶段训练范式
数据集 | 规模 | 特点 |
---|---|---|
Common Crawl | 数百TB | 网络爬虫数据,覆盖面广但质量参差不齐 |
WebText | 45TB | 高质量网页文本,经过筛选 |
Books Corpus | 数十GB | 未出版书籍,连贯性强 |
Wikipedia | 约20GB | 百科知识,事实性强 |
GitHub代码 | 数TB | 编程语言,结构化知识 |
使用人工标注的示例进行定向训练
基于人类反馈的强化学习
低秩适应,高效参数微调方法
仅微调提示词嵌入
现代大语言模型通常采用预训练+指令微调+RLHF的三阶段训练流程,使模型既具备广泛的知识,又能按照人类期望的方式回应指令。
涌现能力是指当模型规模达到一定阈值时,突然出现的、在小规模模型中不存在的能力。这些能力并非显式训练目标,而是作为大规模预训练的副产品自然产生。
幻觉是指模型生成看似合理但实际上不准确或完全虚构的内容
结合外部知识源提供事实支持
让模型自行检查和纠正输出
保持人类在决策环节的参与
引导模型逐步推理,减少跳跃性结论
大语言模型技术的演进方向
更加个性化、情境感知的智能助手
代码生成、调试和优化的全流程支持
辅助诊断、医学研究和健康管理
个性化学习体验和教育资源创建
实时翻译和跨文化交流
文献分析、假设生成和实验设计
大语言模型正在重塑人机交互的方式,开启了人工智能的新纪元
感谢聆听!
提问环节