更新点paper的内容吧,直接省流打字:
- 还是单向transformer,rlhf finetuned。剩下的你想知道的实现细节,就不说了
- 当你还在谈emergence,他很多地方已经做到predictable,都是跟scaling law一致的,当然他用coding相关的评测那我确实无话可说,但打破inverse scaling这点也挺有趣..
- 秀结果,甚至都没啥好看的,包括他们mitigate他们所说的limitations
- rlhf很有用这个点博客提到,第六章讲风险安全问题有所展开(提到了一个叫rule-based reward models的东西,然后说是a set of zero-shot GPT-4 classifiers...,绷不住了)
谢邀!将最新的文章直接投递到这个问题吧。以下是正文:
正准备睡觉,收到同事群里GPT-4出来的消息。迅速扫了一眼博客,在这里做个简单解读。注:由于作者在深夜写作过程中写作情绪逐渐失控,请各位读者见谅。
这次GPT-4的放送非常全面,且内容量极度爆炸!首先是一篇署名OpenAI的98页的tech report,然后是一个60页的system card,给了ChatGPT Plus抢先体验的机会,同时还有API的waitlist(又准备暴击),马上还有一个震撼的demo视频,还有一个全新的OpenAI Eval(解决评测老大难…)。但是,加起来快200页的东西,居然没透露什么技术细节,我服了……
我来点截图让大家感受下阵容之强大,组织之恐怖。。。
言归正传,我们看下这篇博客讲了什么逆天的故事。
GPT-4是什么?GPT-4是一个大规模的多模态模型,做的事情很朴素,就是接收图像和文本的输入,输出文本。如果这故事放到别的地方,可能大家觉得不过尔尔。但OpenAI的作品,你绝对不敢不往下看。它谦虚地说道,目前比人类还是稍微差点,但在很多职业和学术benchmark上达到匹敌人类的水平。匹敌人类的说法,现在也经常听见。但它继续说道,目前已经在模拟考试上取得前10%的排名,而那个震撼全球的ChatGPT背后的GPT-3.5居然垫底10%。。
GPT-4并非一蹴而就,足足花了半年时间(即便只是align半年这也过于快了……)去做alignment的迭代(详见此前他们alignment相关的工作),实现了最好的模型的事实性、可控性的表现。即便如此,他们依然谦虚地说,though far from perfect…
基建方面它也着重讨论,整个DL的基建都跟Azure重新搞了一遍。好的,工程人家都不知道领先我们多少。他们GPT-4难得可以稳定训练,效果甚至可预测(for us at least! 貌似谦虚,其实说的就是我领先你们好几代)。
能力
GPT-4除了多模态以外,它的核心点是,相比GPT-3.5,如果只是常规的交流,那估计没太大差,但是如果说遇到非常复杂的指令,GPT-4的理解能力和创造力远超3.5。他们做了一大堆实验,来向大家展示GPT-4比GPT-3.5强太多,反正就是一通爆做奥赛和AP的题目。结果直接一图一表秀死大家:
NLP“传统”任务也给你撸一遍,上来就十几个点,MMLU打到这水平让人怎么顶。。
顺便告诉大家,这还是一个全面爆锤谷歌的多语言的超巨。把MMLU做个多语言版本,然后继续秀图:
接下来是最新的理解视觉信息的能力。它集中解决输入图文数据,回答文本的问题,考虑什么图像生成视频生成的可以退了。那要说这个我本来是很熟的,但看到它的coverage,我慌了,举个例子,这家伙直接看物理题然后think step by step把题做了。。
喜欢打榜?我0-shot直接来个VQA 77让大家伙体验一下实力:
可控性方面,其实主要讲的是对AI模型的多种方面特征的控制。举个例子,ChatGPT你觉得很单调,但是GPT-4更可控,想要什么人格都可以(Good luck to you, Noam),并且友善暗示不怕你越狱之类的话(没太明白这个友情提示)。
这就不太惊艳了,略显常规。哎,也行吧, 读文章也让人喘口气。
局限性
最后是limitations。首先,它还会hallucinate,但是,已经比之前ChatGPT这种菜鸡好很多了,truthfulqa也提升很多(你越谦虚我越来气)。GPT-4的base模型比GPT-3.5就好那么点,但是上了RLHF就有了巨大提升,且它现在不会随便讲套话应付差事。
哎,顺便说一嘴,它今天说的limitations,可能已经被解决了。因为,这可是去年的工作啊……