全国咨询服务热线:400-1683655

国家电网-油浸式变压器供应商

百度16亿参数超大型对话网柏拉图-2效应碾压谷歌-

   作者:油浸式变压器厂家 时间:2021-05-13 11:26 点击

开放行业最后那种人和设备畅所欲言的理想化,有了重大突破。前不久,百度新升级公布了集成电路工艺模型PLATO-2。除了遵循柏拉图模型利用隐藏变量进行多元化生成的特点外,模型主要参数的运行规模也增加到了16亿!可以讨论对外开放的话题,可以流畅疯狂地与人交谈。在对话演示中,柏拉图不仅可以深入谈论“去吧,跟我学游泳”,还可以继续有一个黑乎乎的肚子。“你就不怕我把你扔到河里去?”,朱朝阳读的全叫技术专业。

优秀的实际效果也体现在对公布数据的检验上。评价数据显示,百度PLATO-2对话的实际效果已经全面超越了谷歌2020年发布的26亿主参数模型Meena和脸书发布的27亿主参数模型Blender,样本越来越少,取得了更好的实际效果。在中文对话中,也开启了与微软萧冰的巨大差异,这无疑代表了百度PLATO-2将智能电炉变压器提升到一个新的升级纵横比。

如今,智能对话正成为每个人都喜欢以肉眼可见的速度讨论的话题,无论是《向往的生活》中的人的聪明还是“嗨,siri!”随时打电话。人们越来越习惯于用语言与设备交流。但是,无论是在家里还是在移动端,现在已经建立了多功能性的智能助手和在开放话题的讨论中可以畅所欲言的人还是有区别的。

针对这个问题,近年来,基于多个语料库和集成电路技术预训练模型的对话转换技术取得了很多可喜的进展。比如GoogleMeena、FacebookBlender等模型已经能够模拟并转换成一个与拥有数十亿个主要参数和语料库的人非常相似的对话。

然而,庞大的对话语料库下隐藏着丰富多彩的信息内容,同一对话情境可以有不同的回应,因此“一对多”问题是当前对话系统软件遇到的一个关键问题。我们知道,人与人之间的对话不仅与语境有关,还与专业知识有关,无论是个人特征、专业知识、价值观、情绪状态等。但第一次交谈后,在模型训练中无法获得对话者的情境知识,给训练带来很大的噪音。如GoogleMeena、twiterBlender等一般的数字编解码神经网络,无论结构多么复杂,仍然是一个“一对一”的数字,立即应用容易引起“呵呵,不清楚”等诸多安全反应。

对于这个问题,无论是百度去年发布的柏拉图模型,还是微软最近发布的擎天柱模型,都提到了应用隐藏变量来建模这种多样性的方式。百度柏拉图选择了离散变量隐变量模型,应用了将多样化转化为适应度分解的方法,并在三种不同的公开数据上取得了SOTA实用结果。

PLATO-2的发布基本上是百度在PLATO的工作的进一步拓展。根据扩展互联网的训练数据,模型的主要参数已经扩展到16亿。此外,柏拉图采用课程内容学习法,用主要参数的隐变量来处理大规模互联网培训成本测算的困难,逐步提高主要参数和组合变压器的提速培训效率。

如此大量的模型训练离不开百度深度神经网络服务平台强大的并行处理能力。柏拉图2包括中文和英文模型。其中中文模型是在12亿中文累计对话数据上训练的,英文模型是在7亿英文累计对话数据上训练的。柏拉图-2训练总共消耗了64张V100卡,持续3周。借助飞桨强大的并行处理能力,包含了Fleet并行处理库、Recompute等扩展显卡内存的方法。仅Batch一项就包含52万Token,整个训练过程已经进行了约30万次梯度返回。

为了验证模型的实际效果,百度对PLATO-2进行了静态数据和所有变压器厂商立场的动态评估。静态数据评价是利用上述预测分析得出的当前对话,以及人机对战对话和两种模式之间的相互对话,对中文和英文进行的动态评价。评价数据显示,百度PLATO在动态和静态数据评价上明显优于微软DialoGPT、GoogleMeena和FacebookBlender模型。更多是中文,它在连接性、数据量、诱惑和个性化方面与微软萧冰有联系

而其他层面则开启了巨大的差异。

在对话演示中,可以清楚地看到,柏拉图不仅显著提高了对话内容的丰富性,而且可以深入聊天讨论一个话题,扩展讨论相关话题。之前最好的模型Blender,经常会换话题讨论。

看了本文的90访客还看了以下内容

文章链接:http://www.s13byq.com/bianyaqijiage/1436.html

版权声明:凡来源为本网站的油浸式变压器型号价格图片等稿件以及视频等相关资料,网站未经本站允许不得转载、链接或以其他形式复制。

联系我们 Contact
客服服务热线:
联系电话: 400-1683655
邮箱:bjclht@foxmail.com
地址:北京昌平区南邵镇