442 个作者,100 页论文一半都是参考文献,谷歌耗时 2 年发布开源大模型新基准 BIG-Bench

大千世界 164 0

  一篇 AI 论文,442 个作者,其中还专门留了一章节写作者贡献,100 页里超过一半都是参考文献……

  谷歌最新发布的论文 ——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models 作者那一栏就变成了这样……

  

442 个作者,100 页论文一半都是参考文献,谷歌耗时 2 年发布开源大模型新基准 BIG-Bench-第1张图片-大千世界


  来自 132 个机构的研究学者,耗时两年提出了一个大语言模型新基准 BIG-bench。并在此基础上评估了 OpenAI 的 GPT 模型,Google-internal dense transformer 架构等,模型规模横 6 个数量级。

  最终结果显示,模型性能虽然随着规模的扩大而提高,但跟人类的表现相差还很远。

  对于这项工作,Jeff Dean 转发点赞:Great Work。

  

442 个作者,100 页论文一半都是参考文献,谷歌耗时 2 年发布开源大模型新基准 BIG-Bench-第2张图片-大千世界


  大语言模型新基准

  来康康这篇论文究竟说了什么。

  随着规模的扩大,模型的性能和质量都有一定的改进,这当中可能还存在一些变革性影响,但这些性能此前都没有很好的描述。

  现存的一些基准都有一定的局限性,评估范围比较狭窄,性能分数迅速达到饱和。

  比如 SuperGLUE,在该基准推出后的 18 个月内,模型就实现了“超过人类水平”的性能。

  

442 个作者,100 页论文一半都是参考文献,谷歌耗时 2 年发布开源大模型新基准 BIG-Bench-第3张图片-大千世界


  基于这样的背景,BIG-bench 就诞生了。

  目前它由 204 个任务组成,内容涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题。

  

442 个作者,100 页论文一半都是参考文献,谷歌耗时 2 年发布开源大模型新基准 BIG-Bench-第4张图片-大千世界


  此外还有个人类专家评审团,也执行了所有任务,以提供基线水平。

  为了方便更多机构使用,研究人员还给出了 BIG-bench Lite,一个小型但有代表性的任务子集,方便更快地评估。

  

442 个作者,100 页论文一半都是参考文献,谷歌耗时 2 年发布开源大模型新基准 BIG-Bench-第5张图片-大千世界


  以及开源了实现基准 API 的代码,支持在公开可用的模型上进行任务评估,以及新任务的轻量级创建。

  最终评估结果可以看到,规模横跨六个数量级,BIG-bench 上的总体性能随着模型规模的扩大、训练样本数量的增加而提高。

  但跟人类基线水平相比,还是表现得比较差。

  

442 个作者,100 页论文一半都是参考文献,谷歌耗时 2 年发布开源大模型新基准 BIG-Bench-第6张图片-大千世界


  具体在一些任务上,模型性能会随着规模的增加而平稳地提高。但有时候,会在特定规模上突然出现突破性表现。

  

442 个作者,100 页论文一半都是参考文献,谷歌耗时 2 年发布开源大模型新基准 BIG-Bench-第7张图片-大千世界


  作者贡献写了 14 页

  值得一提的是,可能因为作者过多,论文最后还专门留了一章写作者贡献。洋洋洒洒的写了 14 页,其中包括核心贡献者、Review 的、提供任务的……

  

442 个作者,100 页论文一半都是参考文献,谷歌耗时 2 年发布开源大模型新基准 BIG-Bench-第8张图片-大千世界


  剩下的,还有 50 页的参考文献。

  好了,感兴趣的旁友可戳下方链接康康论文。

  论文链接:

  https://arxiv.org/abs/2206.04615GitHub 链接:

  https://github.com/google/BIG-bench


标签: 模型 开源 基准 谷歌 论文

抱歉,评论功能暂时关闭!