OpenAI 发布 GPT-4，有哪些技术上的优化或突破？

更新点paper的内容吧，直接省流打字：

还是单向transformer，rlhf finetuned。剩下的你想知道的实现细节，就不说了
当你还在谈emergence，他很多地方已经做到predictable，都是跟scaling law一致的，当然他用coding相关的评测那我确实无话可说，但打破inverse scaling这点也挺有趣..
秀结果，甚至都没啥好看的，包括他们mitigate他们所说的limitations
rlhf很有用这个点博客提到，第六章讲风险安全问题有所展开（提到了一个叫rule-based reward models的东西，然后说是a set of zero-shot GPT-4 classifiers...，绷不住了）

谢邀！将最新的文章直接投递到这个问题吧。以下是正文：

正准备睡觉，收到同事群里GPT-4出来的消息。迅速扫了一眼博客，在这里做个简单解读。注：由于作者在深夜写作过程中写作情绪逐渐失控，请各位读者见谅。

这次GPT-4的放送非常全面，且内容量极度爆炸！首先是一篇署名OpenAI的98页的tech report，然后是一个60页的system card，给了ChatGPT Plus抢先体验的机会，同时还有API的waitlist（又准备暴击），马上还有一个震撼的demo视频，还有一个全新的OpenAI Eval（解决评测老大难…）。但是，加起来快200页的东西，居然没透露什么技术细节，我服了……

我来点截图让大家感受下阵容之强大，组织之恐怖。。。

言归正传，我们看下这篇博客讲了什么逆天的故事。

GPT-4是什么？GPT-4是一个大规模的多模态模型，做的事情很朴素，就是接收图像和文本的输入，输出文本。如果这故事放到别的地方，可能大家觉得不过尔尔。但OpenAI的作品，你绝对不敢不往下看。它谦虚地说道，目前比人类还是稍微差点，但在很多职业和学术benchmark上达到匹敌人类的水平。匹敌人类的说法，现在也经常听见。但它继续说道，目前已经在模拟考试上取得前10%的排名，而那个震撼全球的ChatGPT背后的GPT-3.5居然垫底10%。。

GPT-4并非一蹴而就，足足花了半年时间（即便只是align半年这也过于快了……）去做alignment的迭代（详见此前他们alignment相关的工作），实现了最好的模型的事实性、可控性的表现。即便如此，他们依然谦虚地说，though far from perfect…

基建方面它也着重讨论，整个DL的基建都跟Azure重新搞了一遍。好的，工程人家都不知道领先我们多少。他们GPT-4难得可以稳定训练，效果甚至可预测（for us at least! 貌似谦虚，其实说的就是我领先你们好几代）。

能力

GPT-4除了多模态以外，它的核心点是，相比GPT-3.5，如果只是常规的交流，那估计没太大差，但是如果说遇到非常复杂的指令，GPT-4的理解能力和创造力远超3.5。他们做了一大堆实验，来向大家展示GPT-4比GPT-3.5强太多，反正就是一通爆做奥赛和AP的题目。结果直接一图一表秀死大家：

NLP“传统”任务也给你撸一遍，上来就十几个点，MMLU打到这水平让人怎么顶。。

顺便告诉大家，这还是一个全面爆锤谷歌的多语言的超巨。把MMLU做个多语言版本，然后继续秀图：

接下来是最新的理解视觉信息的能力。它集中解决输入图文数据，回答文本的问题，考虑什么图像生成视频生成的可以退了。那要说这个我本来是很熟的，但看到它的coverage，我慌了，举个例子，这家伙直接看物理题然后think step by step把题做了。。

喜欢打榜？我0-shot直接来个VQA 77让大家伙体验一下实力：

可控性方面，其实主要讲的是对AI模型的多种方面特征的控制。举个例子，ChatGPT你觉得很单调，但是GPT-4更可控，想要什么人格都可以（Good luck to you, Noam）,并且友善暗示不怕你越狱之类的话（没太明白这个友情提示）。

这就不太惊艳了，略显常规。哎，也行吧，读文章也让人喘口气。

局限性

最后是limitations。首先，它还会hallucinate，但是，已经比之前ChatGPT这种菜鸡好很多了，truthfulqa也提升很多（你越谦虚我越来气）。GPT-4的base模型比GPT-3.5就好那么点，但是上了RLHF就有了巨大提升，且它现在不会随便讲套话应付差事。

哎，顺便说一嘴，它今天说的limitations，可能已经被解决了。因为，这可是去年的工作啊……

顶一下

(0)

踩一下

(0)

上一篇：返回栏目

下一篇：护患沟通的技巧不包括(护士如何更好的与患者沟