全球最大生物医药股权投资诞生!高瓴认购百济神州逾10亿美元股份
06-17
Transformer。
可以说是近年来NLP领域备受关注的模型之一。
2017年,谷歌发表了一篇题为《Attention Is All You Need》的论文,提出了一个完全基于注意力机制的名为Transformer的网络框架。
2016年,谷歌开源了基于Transformer的BERT模型,一炮而红NLP领域。
2016 年,机器学习的最大趋势之一是基于 Transformer 的自然语言模型的持续增长和扩散。
2017年,根据自然语言处理领域数据集GLUE的排名,一些表现最好的模型——包括Nvidia的Megatron、Google的XLNet、微软的MT-DNN和Facebook的Roberta——都是基于Transformer的。
近日,Google推出了Transformer的“升级版”——Reformer。
【图片来源:VentureBeat 所有者:VentureBeat】比 Transformer 更高效 序列数据,无论是语言、音乐、语音还是视频,对于人工智能和机器学习模型来说都很难理解——尤其是在广泛的环境中。
例如,如果一个人或物体从视频中消失后又重新出现很长时间,许多算法就会忘记它的样子。
因此,Google开发了机器翻译模型Transformer,希望能够解决这个问题。
Transformer 是一种可扩展到数千个单词的架构,可显着提高合成、图像合成、逐句文本翻译和文档摘要等任务的性能。
与所有深度神经网络一样,Transformer 由连接层中的神经元(数学函数)组成,这些神经元传输来自输入数据的信号并缓慢调整每个连接的突触强度(权重),这是所有人工智能模型提取和学习预测方法的特征,但 Transformer 独特地注意到每个输出元素与每个输入元素相关联,并且它们之间的权重实际上是动态计算的。
然而,Transformer 并不完美 - 将其扩展到更大的环境中会使局限性变得明显。
大窗口应用程序的内存范围从 GB 到 TB,这意味着模型只能吸收几段文本或生成一小段音乐。
基于此,Google 推出了 Reformer,作为 Transformer 的进化版。
Reformer 可以处理多达 10,000 个字的环境,并且可以在仅具有 16GB 内存的单个 AI 加速器芯片上运行。
【图片来源:论文】雷锋网获悉,相关论文《Reformer: The Efficient Transformer》已被将于今年4月在埃塞俄比亚召开的自然语言处理顶级会议ICLR(International Conference on Learning Representations)接收。
目前的模型也已经开源了。
论文称,Reformer主要包括以下技术:第一,可逆层在整个模型中只存储激活函数的单个副本,因此N因子消失;其次,激活函数在前馈层中被分割并分段处理。

消除dff因子,节省前馈层内存;第三,使用局部敏感哈希(雷锋网注:LSH,一种哈希算法,主要用于高维海量数据的快速近似搜索)。
具体来说,哈希函数是将任意大小的数据映射到与相似向量(即表示机器学习中人类可读数据的代数结构)匹配的固定大小的值的函数,而不是在所有可能的向量中心搜索中。
例如,在翻译任务中,来自网络第一层的每个向量代表一个单词,不同语言对应同一个单词的向量可以获得相同的哈希值。
当哈希赋值时,对序列进行重新排列,然后根据元素的哈希值进行分类,实现并行处理,降低了长序列的复杂度,大大减少了计算量。
Reformer 可以处理整本小说 为了验证 Reformer 确实可以在单个 GPU 上运行并快速训练长序列,研究人员在 enwik8 和 imagenet64 数据集上训练了 20 层 Reformer 模型。
实验表明,Reformer 可以实现与 Transformer 相同的性能,并且内存效率更高,并且在长序列任务上训练速度更快。
[图片来源:论文] 此外,研究团队还尝试了基于 Reformer 的图像和文本模型,用它们生成图像中缺失的细节,还处理了小说《罪与罚》的全文(包含约 91 个单词) 。
研究表明,Reformer 能够逐像素生成全帧图像,并且可以在单轮训练中接受小说长度的文本。
谷歌科学家 ?ukasz Kaiser 和加州大学伯克利分校学生 Nikita Kitaev 都对这项研究做出了贡献。
他们在博客中写道:因为 Reformer 非常高效,所以它可以直接应用于比几乎所有当前最先进技术大得多的上下文窗口。
对于文本域数据,Reformer 处理如此大数据集的能力也可能会刺激社区创建数据集。
据悉,论文作者将进一步将其应用到更广泛的领域(如时间序列预测和音乐、图像、视频生成),并改进位置编码的处理。
?ukasz Kaiser 和 Nikita Kitaev 补充道:我们相信 Reformer 为未来将 Transformer 模型用于长文本和自然语言处理以外的应用奠定了基础。
年末,外媒VentureBeat采访了谷歌高级副总裁杰夫·迪恩。
他在采访中表示:谷歌仍然希望建立更多的情境模型。
就像现在一样,BERT等模型可以处理数百个单词,但无法处理 10,000 个单词。
所以这将是谷歌未来的主要关注点。
改革者似乎是朝这个方向迈出的有希望的第一步。
来自 VentureBeat,雷锋网编译。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-06
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态