成都银行正式递交IPO申请 拟发行不超8亿股普通股
06-17
我们知道Transfromer在处理长文本序列方面比CNN/RNN表现更好。
因此,最强大的预训练模型,例如BERT和GPT,都使用了Transfromer基础设施。
并且已经证明,在处理机器翻译、文本摘要、语音识别、问答系统等多语言任务时,只需微调即可实现 SOTA 性能。
然而,Transfromer 的自我监督目标(自supervised) )更通用,与下游语言任务关系不密切。
也就是说,它不知道下游执行的是机器翻译还是文本摘要。
如果自监督目标能够与下游任务建立紧密的联系,微调性能将会更好。
为此,Google AI 团队开发了 PEGASU(天马)模型。
基于Transfromer编码器/解码器的天马架构的结果是出人意料的。
研究发现,“天马”模型不仅展现了卓越的表现,而且在小样本数据下也能达到同样的效果,大大优化了训练效率,降低了数据成本。
成本。
目前,该研究的论文《PEGASUS:Pre-training with Extracted Gap-sentence for Abstractive Summarization》已发表在预印本论文库arXiv上,并已被ICML国际机器学习会议收录。
从“间隙句”到文本摘要,较小的样本表现更好 研究人员假设,预训练目标越接近下游任务,微调的性能越好。
为此,他们将下游语言任务设置为“提取文本摘要”,将预训练目标设置为“间隙句子生成”。

研究人员从输入文档中删除了一些完整的句子,天马模型的任务是恢复它们。
如果输出结果中能够出现被删除的句子,则说明已经与下游任务建立了连接,即生成了GSG。
如下图所示: 这个过程就像我们做填空题一样。
研究人员表示,这项对人类来说看似不可能完成的任务实际上已经实现了。
他们发现删除的“重要”句子越多,实验效果就越好。
在此基础上,他们在12个下游摘要数据集上对模型进行了微调,结果表明预训练后的输出示例与微调后的摘要非常相似,并且这一结果经过了ROUGE标准的测试。
ROUGE通过N-gram重叠计算两个文本的相似度。
此外,这些数据集非常丰富,包含文章、科学论文、专利、短篇小说、电子邮件、法律文件和使用说明等,这表明天马模型在选择文本主题方面不受限制。
更令人惊讶的是,研究人员发现天马模型还显示了卓越在小样本数据集中的表现。
以下是研究人员选取4个数据集后,ROUGE评分与监督样本数的关系。
(虚线表示Transformer编解码器在完全监督但没有预训练的情况下的性能。
)可以看到,仅通过微调示例,天马模型就已经具有非常好的性能,并且高于未训练的示例(虚线)。
这一结果表明,天马模型在优化性能的同时,可以大大降低数据使用成本,提高训练效率。
超人的表现 为了保证实验结果的准确性,除了ROUGE标准测量外,研究人员还采用了手动评估方法。
也就是说,将实验后总结与人工撰写的总结进行比较。
这与图灵测试类似。
研究人员使用了三个不同的数据集,评估者在做出判断时并不知道哪一个是人类。
最终结果表明,评估者并不总是喜欢人类撰写的摘要。
而且,从XSum、CNN/Daily Mail和Reddit TIFU这三个数据集可以看出,仅训练少数样本也达到了超越人类的水平,再次证实了天马模型在小样本中的性能优势。
然而,尽管天马模型的预训练性能可以与人类相媲美,但它仍然存在误差。
例如,研究人员对以下文本进行了预训练。
XSum 数据集中这个例子的全文没有提到数字“4”,但在文本提取中,天马能够抽象出文本摘要“NoproposalhavebelaudedtopreservingfourRoyalNavyfrigatesforreuse,theBBChas学到了。
”,从 2 到 5 都是如此。
但在第六艘护卫舰上,天马犯了一个错误,他的总结显示为“七”。
这表明该模型在重复文本提取方面需要进一步优化。
为此,研究人员还在Github上公开发布了该项目。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态