type
status
date
slug
summary
tags
category
icon
password
URL
April 23, 2023 • 3 min read
昨天突然想起来要看一下chatGPT的底层技术和原来那些(不够好用的)NLP语言大模型有啥区别,找到一篇相对好懂的文章:ChatGPT原理解析
为了方便大家阅读,在这里先大概总结一下:
notion image
▶1.传统的语言模型,是基于特定任务的成对文字数据集进行训练的。例如,我要训练一个中英翻译的模型,那么我需要有相应的成对中英文数据集,然后训练神经网络在两者之间进行映射转换,这样的训练方式有两个问题:很多任务难以找到特别多的数据集;训练好的模型也只能适配单一任务。
notion image
▶2.OPEN AI的GPT-3+模型则是采用了“自监督”的训练方法。
简单说,我们不需要成对的训练集,而是可以采用无标签的任意文字材料进行训练。训练时,随机给其中的一部分文字内容“打码”,然后根据其他内容(上下文),预测被隐藏的内容,再和原文对比,进行自监督学习;如此一来,就可以有海量的文字数据用于训练。因此,ChatGPT会让你觉得它啥都懂,因为训练的时候对文字材料的形式并没有特定要求(只有质量要求),因此啥都往里喂过(你给AI学习材料,它是真的学啊!)
notion image
▶3.那么,怎么让这个自监督训练的大语言模型适配于特定任务呢?这里就要用到 RLHF(Reinforcement Learning with human feedback,即根据人类反馈的强化学习)机制。大概就是,我们可以构建一个较小的,针对特定任务的,拥有输入和对应最优答案的成对数据集(例如中英文翻译数据集,客服问答数据集等,可以收集也可以现做,需要人工参与);再结合一个奖励网络,构建一个反馈机制对原有的大模型进行微调。即要求大模型在用户输入特定问题时,能够输出接近最优结果的答案,同时不脱离原大模型的概率分布约束,即及进行任务对齐(Alignment)。如此一来,我们就可以让自监督得到的高性能大模型,用较小的成本去适配各种下游任务。
notion image
▶4.最后,以ChatGPT为例的话,大概就是用问答数据对去对原来在所有语料上训练的大模型进行了微调对齐(当然实际过程要更复杂);因此当我们提问时/输入prompt时,它就会根据两个条件去生成回复的文本:
1.回复必须是以回答问题的形式,而不以以补全上下文的形式(除非我如此要求);这个能力是从后续的模型对齐中得到的。
2.回复必须和我提问的内容有相关性;这个能力则是从在海量语料上训练的原始大模型中继承的。
相关文章
2022年威尼斯-元宇宙艺术年度展-自然如何启发设计
Lazy loaded image
AI设计作品 The Non-human City Driven by AI and Ecological Environment 在奥地利 Tirol 建筑中心展出
Lazy loaded image
关于AI声音生成的一切(语音+音乐+嘴型)
Lazy loaded image
2023的最后,带给大家两个抚慰人心的AI小工具,和大家说说心里话
Lazy loaded image
AI时代抗焦虑指北 —— 被AI包围之后,人类“完蛋”了吗?
Lazy loaded image
我攒了一扇AI平行时空传送门
Lazy loaded image
硅基生物:硅藻云戏者我如何用AI为小米限量版手机做宣传片
Loading...
Simon阿蒙
Simon阿蒙
兴趣使然的AI艺术家,跨领域研究者,在读博士,科普博主
最新发布
系列作品-无界智能
2024-10-13
强迫AI创作反常识诗歌
2024-10-13
高效使用AI编程工具Cursor实用教程
2024-10-13
他竟然用人工智能做“梦”
2024-10-3
吴恩达LLM系列短课笔记2:Building Systems with ChatGPT API - 使用GPT构建对话系统
2024-10-3
系列作品-次元重构
2024-9-27
公告
-- 关于我 ---
-- 联系我 ---
设计及艺术创作 | AIGC咨询培训 | 商业投放