目录
0、 前言
1、什么是GPT
2、GPT之技术演进时间线
3、GPT之T-Transformer(2017)
3.1、重点在好,还是重点在人?
3.2、对不起,你是个好人
3.3、回归正题,Transfomer是什么
3.4、论文中对attention和Transfomer的价值描述
3.5、Transformer机制的深远意义
4、GPT(Generative Pre-Training)-2018年6月
4.1、GPT模型的核心主张1-预训练(pre-training)
4.2、GPT模型的核心主张2-生成式(Generative)
4.3、GPT相比原版Transfomer的模型改进
4.4、GPT模型的训练规模
6、GPT-3(2020年5月)
5.1、GPT-2模型相比GPT-1的核心变化
5.2、为什么这么调整?试图解决zero-shot问题
5.3、multitask多任务如何理解?
5.4、GPT-2的数据和训练规模
6.1、GPT-3的突破式效果进展
6.2、GPT-3相比GPT-2的核心变化
6.3、GPT-3的训练规模
7、Instruction GPT(2022年2月)
7.1、Instruction GPT相比GPT-3的核心变化
7.2、Insctruction GPT的核心训练步骤
7.3、Instruction GPT的训练规模
8、ChatGPT(2022年11月)
8.1、ChatGPT和Instruction GPT
8.2、【重要,建议浏览下面推荐的视频】从人的直观理解上,补充解释一下ChatGPT的核心原理
9、小结
10、未来将来(GPT-4 or ?)
部分参考资料
首页 科技周边 人工智能 十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

May 30, 2023 pm 03:00 PM
chatgpt 技术 逻辑

0、 前言

11月30日,OpenAI推出了一个名为ChatGPT的AI聊天机器人,可以供公众免费测试,短短几天就火爆全网。

从头条、公众号上多个宣传来看,它既能写代码、查BUG,还能写小说、写游戏策划,包括向学校写申请书等,貌似无所不能。

本着科(好)学(奇)的精神,抽了一些时间对ChatGPT进行了了测试验证,并且 **梳理了一下ChatGPT为什么能这么"强"**。

由于笔者并没有专业学过AI,同时精力受限,所以 短时间内就不会再有AI-003类似更深入到技术的篇章了,了解 001、002就已经超出普通吃瓜群众的范畴了。

本篇会有较多技术名词,我会尽量降低其理解难度。

同时,由于非AI专业出身,如有错漏、敬请指出。

致谢:非常感谢X同学、Z同学两位大牛的审稿,尤其感谢X同学的专业性堪误

1、什么是GPT

ChatGPT​里面有两个词,一个是Chat​,指的是可以对话聊天。另外一个词,就是GPT。

GPT​的全称,是Generative Pre-Trained Transformer(生成式预训练Transfomer模型)。

可以看到里面一共3个单词,Generative​生成式、Pre-Trained​预训练、和Transformer。

有读者可能会注意到,我上面没有给Transformer翻译中文。

因为Transformer是一个技术专有名词,如果硬翻译 ,就是变压器。但是会容易失去本意,还不如不翻译。

在下面第3章节会再讲解一下Transformer。

2、GPT之技术演进时间线

GPT从开始至今,其发展历程如下:

2017年6月,Google发布论文《Attention is all you need》​,首次提出Transformer模型,成为GPT发展的基础。 论文地址: https://arxiv.org/abs/1706.03762

2018年6月,OpenAI 发布论文《Improving Language Understanding by Generative Pre-Training》(通过生成式预训练提升语言理解能力)​,首次提出GPT模型(Generative Pre-Training)。论文地址: https://paperswithcode.com/method/gpt 。

2019年2月,OpenAI 发布论文《Language Models are Unsupervised Multitask Learners》(语言模型应该是一个无监督多任务学习者),提出GPT-2模型。论文地址: https://paperswithcode.com/method/gpt-2

2020年5月,OpenAI 发布论文《Language Models are Few-Shot Learners》(语言模型应该是一个少量样本(few-shot)学习者,提出GPT-3模型。论文地址: https://paperswithcode.com/method/gpt-3

2022年2月底,OpenAI 发布论文《Training language models to follow instructions with human feedback》(使用人类反馈指令流来训练语言模型)​,公布Instruction GPT模型。论文地址: https://arxiv.org/abs/2203.02155

2022年11月30日,OpenAI推出ChatGPT模型,并提供试用,全网火爆。见:AI-001-火爆全网的聊天机器人ChatGPT能做什么

3、GPT之T-Transformer(2017)

在第1小节中,我们说到Transformer是没有合适的翻译的。

但是Transfomer​却是GPT(Generative Pre-Training Transfomer)中最重要、最基础的关键词。

(注:GPT的Transformer相比google论文原版Transformer是简化过的,只保留了Decoder部分,见本文4.3小节)

3.1、重点在好,还是重点在人?

就像好人,最关键的是好​,还是人?

读者们,是好吗?

一个稍稳妥的答复是:既不是好,也不是人;既是好,也是人。

唔,有点绕,那么说人话一点,展开: 语义上,重点在好; 基础和前提上,重点在人。

3.2、对不起,你是个好人

再延展一下,那"对不起,你是个好人"呢?

语义的重点,变成是对不起。但是语义的前提,还是人。

3.3、回归正题,Transfomer是什么

这篇《十分钟理解Transfomer》( https://zhuanlan.zhihu.com/p/82312421 ) 可以看一下。

看懂了可以忽略我接下来关于Transfomer的内容,直接跳到第4章节。如果没太看懂,可以看下我的理解,对你或许有一定参考作用。

3.3.1、上一代RNN模型的重大缺陷

在Transformer模型出来前,RNN模型(循环神经网络)是典型的NLP模型架构,基于RNN还有其他一些变种模型(忽略其名字,Transformer出来后,已经不再重要了),但是都存在相同的问题,并没能很好解决。

RNN的基本原理是,从左到右浏览每个单词向量(比如说this is a dog),保留每个单词的数据,后面的每个单词,都依赖于前面的单词。

RNN的关键问题:前后需要顺序、依次计算。可以想象一下,一本书、一篇文章,里面是有大量单词的,而又因为顺序依赖性,不能并行,所以效率很低。

这样说可能大家还是不容易理解,我举一个例子(简化理解,和实际有一定出入):

在RNN循环中,You are a good man这句话,需要如何计算呢?

1)、You和You are a good man​计算,得到结果集$You

2)、基于$You​的基础上,再使用Are和You are a good man​,计算得出$Are

3)、基于$You、$Are​的基础,继续计算$a

4)、依此类推,计算$is、$good、$man​,最终完成You are a good man的所有元素的完整计算

可以看到,计算过程是一个一个、顺次计算,单一流水线,后面的工序依赖前面的工序,所以非常慢

3.3.2、Transformer之All in Attention

前面我们提到,2017年6月,Google发布论文《Attention is all you need》​,首次提出Transformer模型,成为GPT发展的基础。 论文地址: https://arxiv.org/abs/1706.03762

从其标题《Attention is all you need》​你就能知道,Transfomer其实主张是"All in Attention"。

那么什么是Attention(注意力)呢?

在《Attention is all you need》论文中,可以看到其定义如下:

自我注意(self-Attention),有时称为内部注意,是一种将单个序列的不同位置联系起来的注意力机制,以便计算序列的表示。自我注意已成功地应用于阅读理解、抽象概括、语篇包含和学习任务无关的句子表示等多种任务中

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

简单理解,就是单词与单词之间的关联度,通过注意力(Attention) 这个向量来描述。

比如说You are a good man​(你是个好人),AI在分析You的注意力向量时,可能是这么分析的:

从Your are a good man​这句话中,通过注意力机制进行测算,You和You(自身)的注意力关联概率最高(0.7,70%)​,毕竟 你(you)首先是你(you);于是You,You的注意力向量是 0.7

You和man(人)的注意力关联其次(0.5,50%)​,你(you)是个人(man),,于是You,man的注意力向量是0.5

You和good(好)的注意力关联度​再次(0.4,40%),你在人的基础上,还是一个好(good)人。于是You,good的注意力向量值是0.4

You,are​向量值是 0.3;You,a的向量值是0.2。

于是最终You的注意力向量列表是【0.7 、 0.3、0.2、0.4、0.5】(仅本文举例)。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

3.4、论文中对attention和Transfomer的价值描述

在论文中,google对于attention和transfomer的描述,主要强调了传统模型对顺序依赖存在,Transformer模型可以替代当前的递归模型,消减对输入输出的顺序依赖。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

3.5、Transformer机制的深远意义

Transformer问世后,迅速取代循环神经网络RNN的系列变种,成为主流的模型架构基础。

如果说 可以并行、速度更快都是技术特征,让行外人士、普罗大众还不够直观,那么从 当前ChatGPT的震憾效果就可以窥知一二。

**Transformer从根本上解决了两个关键障碍,其推出是变革性的、革命性的**。

3.5.1、摆脱了人工标注数据集(大幅降低人工数量 )

这个关键障碍就是:过往训练我们要训练一个深度学习模型,必须使用大规模的标记好的数据集合(Data set)来训练,这些数据集合需要人工标注,成本极高。

打个比方,就是机器学习需要大量教材,大量输入、输出的样本,让机器去学习、训练。这个教材需要量身制定,而且需求数量极大。

好比 以前要10000、10万名老师编写教材,现在只需要10人,降低成千上万倍。

那么这块是怎么解决的呢?简单描述一下,就是通过Mask机制,遮挡已有文章中的句段,让AI去填空。

好比是一篇已有的文章、诗句,挡住其中一句,让机器根据学习到的模型,依据上一句,去填补下一句。

如下图示例:

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

这样,很多现成的文章、网页、知乎问答、百度知道等,就是天然的标注数据集了(一个字,超省钱)。

3.5.2、化顺序计算为并行计算,巨幅降低训练时间

除了人工标注之外,在3.3.1小节中提到RNN的重大缺陷,就是顺序计算,单一流水线的问题。

Self-Attention机制,结合mask机制和算法优化,使得 一篇文章、一句话、一段话能够并行计算。

还是以You are a good man举例,可以看到,计算机有多少,Transformer就能有多快:

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

4、GPT(Generative Pre-Training)-2018年6月

接下来,就到了ChatGPT的前世-GPT(1)了。

2018年6月,OpenAI 发布论文Improving Language Understanding by Generative Pre-Training》(通过生成式预训练提升语言理解能力)​,首次提出GPT模型(Generative Pre-Training)。论文地址: https://paperswithcode.com/method/gpt 。

4.1、GPT模型的核心主张1-预训练(pre-training)

GPT模型依托于Transformer解除了顺序关联和依赖性的前提,提出一个建设性的主张。

先通过大量的无监督预训练(Unsupervised pre-training),

注:无监督是指不需要人介入,不需要标注数据集(不需要教材和老师)的预训练。

再通过少量有监督微调(Supervised fine-tunning),来修正其理解能力。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

4.1.1、打个比方

打个比方,就好像我们培养一个小孩,分了两个阶段:

1)、大规模自学阶段(自学1000万本书,没有老师):给AI提供充足的算力,让其基于Attention机制,自学。

2)、小规模指导阶段(教10本书):依据10本书,举一反"三"

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

4.1.2、论文开篇的描述

所谓开宗明义,从开篇introduction中,也可看到GPT模型对于监督学习、手动标注数据的说明。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

4.2、GPT模型的核心主张2-生成式(Generative)

在机器学习里,有判别式模式(discriminative model)和生成式模式(Generative model)两种区别。

GPT(Generative Pre-Training)顾名思义,采用了生成式模型。

生成式模型​相比判别式模型更适合大数据学习 ,后者更适合精确样本(人工标注的有效数据集)。要**更好实现预训练(Pre-Training)**,生成式模式会更合适。

注:本小节重点在于上面一句话(更适合大数据学习),如果觉得理解复杂,本小节下面可不看。

在wiki生成式模型的材料里( https://en.wiki敏pedia感.org/wiki/Generative_model ) ,举了一个如下说明两者的区别:

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

单看上面可能不容易看懂,这里补充解释下。

上面的意思是说,假设有4个样本:

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

那么生成式(Generative Model)的特征就是概率不分组(计算样本内概率,除以样本总和),以上表为例,发现x=1,y=0的总共有1个,所以会认为x=1,y=0的几率为1/4(样本总数为4)。

同样的,x=2,y=0的总共有2个,则x=2,y=0的概率 为2/4.

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

而判别式(Discriminative Model)的特征则是**概率分组计算(计算组内概率 ,除以组内总和)**。 以上表为例,x=1,y=0一共有1个,同时x=1的分组一共有2个sample,所以其概率为 1/2。

同样的,x=2,y=0的总共有2个。且同时x=2的分组共有2个sample,则x=2,y=0的概率 为2/2=1(即100%)。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

4.3、GPT相比原版Transfomer的模型改进

下面是GPT的模型说明,GPT训练了一个12层仅decoder的解码器(decoder-only,没有encoder),从而使得模型更为简单。

注1:google论文《Attention is all you need》原版Transformer中,包含Encoder和Decoder两部分,前者(Encoder)对应的是 翻译,后者(Decoder)对应的是 生成。

注2:google以Encoder为核心,构建了一个BERT(Bidirectional Encoder Representations from Transformers,双向编码生成Transformer)​模型。里面的双向(Bidirectional)​,是指BERT是同时使用上文和下文预测单词,因此 BERT 更擅长处理自然语言理解任务 (NLU)。

注3:本小节要点,GPT基于Transformer,但是相比Transformer又简化了模型,去掉了Encoder,只保留了Decoder。同时,相比BERT的上下文预测(双向),GPT主张仅使用单词的上文预测单词(单向),从而使模型更简单、计算更快,更适合于极致的生成,并因此GPT更擅长处理自然语言生成任务 (NLG),也就是我们在AI-001-火爆全网的聊天机器人ChatGPT能做什么发现的,ChatGPT很擅长写"作文"、编瞎话。 理解本段后,本小节后面的可不看。

注4:从模拟人类来看,GPT的机制得更像真实人类。因为人类也是根据上文(前面说的)来推测下文(即说后面的),所谓说出去的话就像泼出去的水,人类也是没办法根据后面说的话,来调整前面说的话的,即使说错了,恶语伤人心,也只能基说出去的话(上文)进行补救、解释。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

4.3.1、架构图对比

下图为Transfomer模型架构和GPT模型架构的对比(分别来自论文《Attention is all you need》和《Improving Language Understanding by Generative Pre-Training》)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

4.4、GPT模型的训练规模

前面提到生成式模式更有利于大数据集的Pre-Training预训练,那么GPT使用了多大规模的data set(数据集)呢?

论文中有提到,它采用了一个名为BooksCorpus的数据集,包含了超过7000本未发表书籍。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

5、GPT-2(2019年2月)

2019年2月,OpenAI 发布论文《Language Models are Unsupervised Multitask Learners》(语言模型应该是一个无监督多任务学习者),提出GPT-2模型。论文地址: https://paperswithcode.com/method/gpt-2

5.1、GPT-2模型相比GPT-1的核心变化

前面提到,GPT的核心主张有Generative(生成式)、Pre-Training。同时,GPT训练有两步:

1)、大规模自学阶段(Pre-Training预训练,自学1000万本书,没有老师):给AI提供充足的算力,让其基于Attention机制,自学。

2)、小规模指导阶段(fine-tuning微调,教10本书):依据10本书,举一反"三"

GPT-2的时候,OpenAI将有监督fine-tuning微调阶段给直接去掉了,将其变成了一个无监督的模型。

同时,增加了一个关键字**多任务(multitask)**,这点从其论文名称《Language Models are Unsupervised Multitask Learners》(语言模型应该是一个无监督多任务学习者)也可看出。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

5.2、为什么这么调整?试图解决zero-shot问题

GPT-2为什么这么调整?从论文描述来看,是为了尝试解决**zero-shot(零次学习问题)**。

zero-shot(零次学习)是一个什么问题呢?简单可理解为推理能力。就是指面对未知事物时,AI也能自动认识它,即具备推理能力。

比如说,在去动物园前,我们告诉小朋友,像熊猫一样,是黑白色,并且呈黑白条纹的类马动物就是斑马,小朋友根据这个提示,能够正确找到斑马。

5.3、multitask多任务如何理解?

传统ML中,如果要训练一个模型,就需要一个专门的标注数据集,训练一个专门的AI。

比如说,要训练一个能认出狗狗图像的机器人,就需要一个标注了狗狗的100万张图片,训练后,AI就能认出狗狗。这个AI,是专用AI,也叫single task。

而multitask​多任务,就是主张不要训练专用AI,而是喂取了海量数据后,任意任务都可完成。

5.4、GPT-2的数据和训练规模

数据集增加到800万网页,40GB大小。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

而模型自身,也达到最大15亿参数、Transfomer堆叠至48层。简单类比,就像是模拟人类15亿神经元(仅举例,不完全等同)。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

6、GPT-3(2020年5月)

2020年5月,OpenAI 发布论文《Language Models are Few-Shot Learners》(语言模型应该是一个少量样本(few-shot)学习者),提出GPT-3模型。论文地址: https://paperswithcode.com/method/gpt-3

6.1、GPT-3的突破式效果进展

论文中对于效果是这么描述的:

1、GPT-3在翻译 、问题回答和完形填空中表现出强大的性能,同时能够解读单词、句子中使用新单词或执行3位数算订。

2、GPT-3可以生成新闻文章的样本,人类已然区分不出来。

如下图:

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

6.2、GPT-3相比GPT-2的核心变化

前面提到GPT-2在追求无监督、zero-shot(零次学习),但是其实在GPT-2论文中,OpenAI也提出结果不达预期。这显然是需要调整的,于是GPT-3就进行了相关调整。 从标题《Language Models are Few-Shot Learners》(语言模型应该是一个少量样本(few-shot)学习者)也可看出。

说白了,zero-shot(零次学习)不靠谱。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

并且,在训练过程中会对比Zero-shot​零次学习 ;One-shot(单一样本学习)、Few-shot(少量样本学习)​,以及fine-tuning人工微调的方式。

最后在多数情况下,few-shot(少量样本)​的综合表现,是在无监督模式下最优的,但稍弱于fine-tuning微调模式。

从下述论文表格、图形中,也可看出few-shot​是综合表现仅弱于fine-tuning微调的。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

6.3、GPT-3的训练规模

GPT-3采用了过滤前45TB的压缩文本,并且在过滤后也仍有570GB的海量数据。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

在模型参数上,从GPT-2的15亿,提升到1750亿,翻了110多倍;Transformer Layer也从48提升到96。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

7、Instruction GPT(2022年2月)

2022年2月底,OpenAI 发布论文《Training language models to follow instructions with human feedback》(使用人类反馈指令流来训练语言模型)​,公布Instruction GPT模型。论文地址: https://arxiv.org/abs/2203.02155

7.1、Instruction GPT相比GPT-3的核心变化

Instruction GPT是基于GPT-3的一轮增强优化,所以也被称为GPT-3.5。

前面提到,GPT-3​主张few-shot少样本学习,同时坚持无监督学习。

但是事实上,few-shot​的效果,显然是差于fine-tuning监督微调的方式的。

那么怎么办呢? 走回fine-tuning监督微调?显然不是。

OpenAI给出新的答案: 在GPT-3的基础上,基于人工反馈(RHLF)训练一个reward model(奖励模型)​,再用reward model(奖励模型,RM)去训练学习模型。

天啦噜,夭寿了。。要用机器(AI)来训练机器(AI)了。。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

7.2、Insctruction GPT的核心训练步骤

Instruction GPT一共有3步:

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

1)、对GPT-3进行**fine-tuning(监督微调)**。

2)、再训练一个Reward Model(奖励模型,RM)

3)、最后通过增强学习优化SFT

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

值得注意的是,第2步、第3步是完全可以迭代、循环多次进行的。

7.3、Instruction GPT的训练规模

基础数据规模同GPT-3(见6.3小节),只是在其基础上增加了3个步骤(监督微调SFT、奖励模型训练Reward Model,增强学习优化RPO)。

下图中labeler是指OpenAI雇佣或有相关关系的**标注人员(labler)**。

而customer​则是指GPT-3 API的调用用户(即其他一些机器学习研究者、程序员等)。

本次ChatGPT上线后据说有百万以上的用户,我们每个人都是其customer​,所以可以预见,未来GPT-4发布时,其customer规模至少是百万起。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

8、ChatGPT(2022年11月)

2022年11月30日,OpenAI推出ChatGPT模型,并提供试用,全网火爆。

见:AI-001-火爆全网的聊天机器人ChatGPT能做什么

8.1、ChatGPT和Instruction GPT

ChatGPT和InstructionGPT本质上是同一代际的,仅仅是在InstructionGPT的基础上,增加了Chat功能,同时开放到公众测试训练,以便产生更多有效标注数据。

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

8.2、【重要,建议浏览下面推荐的视频】从人的直观理解上,补充解释一下ChatGPT的核心原理

可参考 台大教授李宏毅的视频《ChatGPT是怎么炼成的?GPT社会化过程》,讲得很好。

https://www.inside.com.tw/article/30032-chatgpt-possible-4-steps-training

GPT是单向生成,即根据上文生成下文。

比如说有一句话:

向GPT模型给出输入 你好,下面一个字是接你好吗?你好帅?你好高?你好美?等等,GPT会计算出一个概率,给出最高的那个概率作为回答。

依此类推,如果给出一个指令(或称为Prompt),ChatGPT也会依据上文(prompt)进行推算下文(回答),同时选择一个最大概率的上文进行回答。

如下图:

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

9、小结

总结:

1)、2017年,谷歌发布论文《Attention is all you need》,提出Transformer模型,为GPT铺就了前提。

2)、2018年6月,OpenAI发布了GPT生成式预训练模型,通过BooksCorpus大数据集(7000本书)进行训练,并主张通过大规模、无监督预训练(pre-training)+有监督微调(fine-tuning)进行模型构建。

3)、2019年2月,OpenAI发布GPT-2模型,进一步扩大了训练规模(使用了40GB数据集,最大15亿参数(parameters))。同时在思路上,去掉了fine-tuning微调过程,强调zero-shot(零次学习)和multitask(多任务)。但是最终zero-shot效果显著比不上fine-tuning微调。

4)、2020年5月,OpenAI发布GPT-3模型,进一步扩大了**训练规模(使用了570GB数据集,和1750亿参数)**。同时采取了few-shot(少量样本)学习的模式,取得了优异效果。 当然,在实验中同步对比了fine-tuning,比fine-tuning效果略差。

5)、2022年2月,OpenAI发布Instruction GPT模型,此次主要是在GPT-3的基础上,增加了监督微调(Supervised Fine-tuning)环节,并且基于此,进一步加入了Reward Model奖励模型,通过RM训练模型来对学习模型进行RPO增强学习优化。

6)、2022年11月30日,OpenAI发布ChatGPT模型,可以理解为一个多轮迭代训练后的InstructionGPT,并在此基础上增加了Chat对话聊天功能。

10、未来将来(GPT-4 or ?)

从种种迹象来看,GPT-4或许将于2023年亮相?它会有多强大呢?

同时ChatGPT的效果,牵引了业界众多目光,想必接下来更多基于GPT的训练模型及其应用,会更加百花齐放。

未来将来,拭目以待。

部分参考资料

ai.googleblog.com/2017/08/transformer-novel-neural-network.html

https://arxiv.org/abs/1706.03762

https://paperswithcode.com/method/gpt

https://paperswithcode.com/method/gpt-2

https://paperswithcode.com/method/gpt-3

https://arxiv.org/abs/2203.02155

https://zhuanlan.zhihu.com/p/464520503

https://zhuanlan.zhihu.com/p/82312421

https://cloud.tencent.com/developer/article/1656975

https://cloud.tencent.com/developer/article/1848106

https://zhuanlan.zhihu.com/p/353423931

https://zhuanlan.zhihu.com/p/353350370

https://juejin.cn/post/6969394206414471175

https://zhuanlan.zhihu.com/p/266202548

https://en.wiki敏pedia感.org/wiki/Generative_model

https://zhuanlan.zhihu.com/p/67119176

https://zhuanlan.zhihu.com/p/365554706

https://cloud.tencent.com/developer/article/1877406

https://zhuanlan.zhihu.com/p/34656727

https://zhuanlan.zhihu.com/p/590311003

以上是十分钟理解ChatGPT的技术逻辑及演进(前世、今生)的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

ChatGPT 现在允许免费用户使用 DALL-E 3 生成每日限制的图像 ChatGPT 现在允许免费用户使用 DALL-E 3 生成每日限制的图像 Aug 09, 2024 pm 09:37 PM

DALL-E 3 于 2023 年 9 月正式推出,是比其前身大幅改进的型号。它被认为是迄今为止最好的人工智能图像生成器之一,能够创建具有复杂细节的图像。然而,在推出时,它不包括

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助? Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助? Mar 06, 2024 pm 05:34 PM

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显着提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。 StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显着降低了使用AI

自动驾驶与轨迹预测看这一篇就够了! 自动驾驶与轨迹预测看这一篇就够了! Feb 28, 2024 pm 07:20 PM

轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富,需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构(CNN&GNN&Transformer)技能等,入门难度很大!很多粉丝期望能够尽快上手轨迹预测,少踩坑,今天就为大家盘点下轨迹预测常见的一些问题和入门学习方法!入门相关知识1.预习的论文有没有切入顺序?A:先看survey,p

手机怎么安装chatgpt 手机怎么安装chatgpt Mar 05, 2024 pm 02:31 PM

安装步骤:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。

DualBEV:大幅超越BEVFormer、BEVDet4D,开卷! DualBEV:大幅超越BEVFormer、BEVDet4D,开卷! Mar 21, 2024 pm 05:21 PM

这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致分为两种策略:2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征,但深度预测的固有不确定性,尤其是在远处区域,可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征,并通过Transformer学习3D和2D特征之间对应关系的注意力权重,这增加了计算和部署的

chatgpt国内可以使用吗 chatgpt国内可以使用吗 Mar 05, 2024 pm 03:05 PM

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。

综述!深度模型融合(LLM/基础模型/联邦学习/微调等) 综述!深度模型融合(LLM/基础模型/联邦学习/微调等) Apr 18, 2024 pm 09:43 PM

23年9月国防科大、京东和北理工的论文“DeepModelFusion:ASurvey”。深度模型融合/合并是一种新兴技术,它将多个深度学习模型的参数或预测合并为一个模型。它结合了不同模型的能力来弥补单个模型的偏差和错误,以获得更好的性能。而大规模深度学习模型(例如LLM和基础模型)上的深度模型融合面临着一些挑战,包括高计算成本、高维参数空间、不同异构模型之间的干扰等。本文将现有的深度模型融合方法分为四类:(1)“模式连接”,通过一条损失减少的路径将权重空间中的解连接起来,以获得更好的模型融合初

不止3D高斯!最新综述一览最先进的3D重建技术 不止3D高斯!最新综述一览最先进的3D重建技术 Jun 02, 2024 pm 06:57 PM

写在前面&笔者的个人理解基于图像的3D重建是一项具有挑战性的任务,涉及从一组输入图像推断目标或场景的3D形状。基于学习的方法因其直接估计3D形状的能力而受到关注。这篇综述论文的重点是最先进的3D重建技术,包括生成新颖的、看不见的视图。概述了高斯飞溅方法的最新发展,包括输入类型、模型结构、输出表示和训练策略。还讨论了尚未解决的挑战和未来的方向。鉴于该领域的快速进展以及增强3D重建方法的众多机会,对算法进行全面检查似乎至关重要。因此,本研究对高斯散射的最新进展进行了全面的概述。(大拇指往上滑

See all articles