首页 >> 无人驾驶 >

开关变压器具有简单有效的稀疏性可扩展至万亿参数模型

2022-06-01 20:24:01 来源: 用户: 

在机器学习领域,参数的数量是影响模型复杂性的因素。具有许多参数的简单模型可以执行困难的任务,并且胜过复杂的算法。但是,价格带来了好处:大规模培训需要很长的计算时间。

Google Brain最近进行的一项研究提出了一个使用Switch Transformer的1.6万亿参数模型,该模型可维护可管理的内存和计算资源。它通过在大型模型中使用专门针对不同任务的多个模型来实现。

一个“门控网络”选择用于给定数据的模型。这种方法导致许多任务得到改善,并且没有造成训练障碍。例如,在翻译任务中,使用91%的语言可以看到超过四倍的加速。同样的方法也可以用来改善较小模型的性能。

在深度学习中,模型通常对所有输入重复使用相同的参数。专家混合(MoE)对此无视,而是为每个传入的示例选择不同的参数。结果是一个稀疏激活的模型(参数数量惊人),但是计算成本却是不变的。但是,尽管MoE取得了一些显著成功,但由于复杂性,通信成本和培训不稳定,阻碍了广泛采用-我们使用Switch Transformer解决了这些问题。我们简化了MoE路由算法,并设计了直观的改进模型,从而降低了通信和计算成本。我们提出的训练技术有助于消除不稳定性,并且我们证明大型稀疏模型可能会首次以较低的精度(bfloat16)格式进行训练。我们基于T5-Base和T5-Large设计模型,以使用相同的计算资源将预训练速度提高多达7倍。这些改进扩展到了多语言设置中,在这里我们可以测量所有101种语言在mT5-Base版本上的收益。最后,我们通过在“巨大的干净爬行的语料库”上预先训练多达数万亿个参数模型来提高当前语言模型的规模,并实现比T5-XXL模型快4倍的速度。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章