◎本报记者 刘园园
这段时间 ,火国一款名叫ChatGPT的内研人工智能聊天系统就像平地起春雷,突然刷爆网络 。发进
“从目前普遍的展何对话感受来看,ChatGPT的火国最大亮点就在于其优秀的意图识别与语言理解能力,这令人意识到人工智能的内研交互能力已经实现了跨越式进展 。”易观智慧院高级分析师陈晨评价。发进
有问必答,展何侃侃应对。火国这种神奇的内研人机互动体验,勾起人们绞尽脑汁向ChatGPT提问的发进热情,并为其带来惊人的展何用户量 :该系统在两个多月前由美国人工智能研究公司OpenAI推出 ,今年1月便已达到1亿月活跃用户 ,火国用户增长速度堪称史无前例。内研
这款产品大受欢迎 ,发进其重要幕后功臣是被业内称为预训练模型的技术。面对ChatGPT的爆火,国内科技机构和企业纷纷“亮剑”。据最新消息,中国版ChatGPT将于下个月与公众见面。
参数规模从几百万狂飙至几千亿
“目前 ,预训练技术是人工智能研究的重要突破口 。”阿里研究院未来技术中心负责人苏中解读 ,传统的研究方法中 ,标注成本一直是阻碍人工智能算法推向更大数据集合的障碍,而预训练技术不依赖数据标注 ,就可以训练出一个大规模深度学习模型。
科技日报记者了解到 ,由于不需要数据标注,预训练模型往往可以使用更大的数据集,因而可以选择更大的模型规模——这就催生了预训练大模型。
“与以往的人工神经网络相比 ,预训练大模型最大的不同在于它规模足够大 ,深度学习网络的层数多、连接多 、参数多 。”IDEA研究院(粤港澳大湾区数字经济研究院)认知计算与自然语言研究中心讲席科学家张家兴接受记者采访时介绍,2012年前后的深度学习网络只有几百万参数;2018年前后主流的预训练模型达到1亿参数;目前被证明非常有效的大规模预训练模型已有几千亿参数 ,短短几年时间提升了几千倍。
量变引起质变。苏中分析,在对预训练模型各种不同的技术评测中 ,算法性能展示了一个规律 :数据规模越大、预训练模型参数越多,算法输出精度往往也越高。
除了规模大以外 ,张家兴谈到 ,目前的预训练大模型由于采用了新的结构模型,非常适合并行训练