首页 > 科技未来 > 内容

开源 -谷歌发布最新“天马”模型,自动生成超越人类的文本摘要!

发布于:2024-06-18 编辑:匿名 来源:网络

我们知道Transfromer在处理长文本序列方面比CNN/RNN表现更好。

因此,最强大的预训练模型,例如BERT和GPT,都使用了Transfromer基础设施。

并且已经证明,在处理机器翻译、文本摘要、语音识别、问答系统等多语言任务时,只需微调即可实现 SOTA 性能。

然而,Transfromer 的自我监督目标(自supervised) )更通用,与下游语言任务关系不密切。

也就是说,它不知道下游执行的是机器翻译还是文本摘要。

如果自监督目标能够与下游任务建立紧密的联系,微调性能将会更好。

为此,Google AI 团队开发了 PEGASU(天马)模型。

基于Transfromer编码器/解码器的天马架构的结果是出人意料的。

研究发现,“天马”模型不仅展现了卓越的表现,而且在小样本数据下也能达到同样的效果,大大优化了训练效率,降低了数据成本。

成本。

目前,该研究的论文《PEGASUS:Pre-training with Extracted Gap-sentence for Abstractive Summarization》已发表在预印本论文库arXiv上,并已被ICML国际机器学习会议收录。

从“间隙句”到文本摘要,较小的样本表现更好 研究人员假设,预训练目标越接近下游任务,微调的性能越好。

为此,他们将下游语言任务设置为“提取文本摘要”,将预训练目标设置为“间隙句子生成”。

开源 -谷歌发布最新“天马”模型,自动生成超越人类的文本摘要!

研究人员从输入文档中删除了一些完整的句子,天马模型的任务是恢复它们。

如果输出结果中能够出现被删除的句子,则说明已经与下游任务建立了连接,即生成了GSG。

如下图所示: 这个过程就像我们做填空题一样。

研究人员表示,这项对人类来说看似不可能完成的任务实际上已经实现了。

他们发现删除的“重要”句子越多,实验效果就越好。

在此基础上,他们在12个下游摘要数据集上对模型进行了微调,结果表明预训练后的输出示例与微调后的摘要非常相似,并且这一结果经过了ROUGE标准的测试。

ROUGE通过N-gram重叠计算两个文本的相似度。

此外,这些数据集非常丰富,包含文章、科学论文、专利、短篇小说、电子邮件、法律文件和使用说明等,这表明天马模型在选择文本主题方面不受限制。

更令人惊讶的是,研究人员发现天马模型还显示了卓越在小样本数据集中的表现。

以下是研究人员选取4个数据集后,ROUGE评分与监督样本数的关系。

(虚线表示Transformer编解码器在完全监督但没有预训练的情况下的性能。

)可以看到,仅通过微调示例,天马模型就已经具有非常好的性能,并且高于未训练的示例(虚线)。

这一结果表明,天马模型在优化性能的同时,可以大大降低数据使用成本,提高训练效率。

超人的表现 为了保证实验结果的准确性,除了ROUGE标准测量外,研究人员还采用了手动评估方法。

也就是说,将实验后总结与人工撰写的总结进行比较。

这与图灵测试类似。

研究人员使用了三个不同的数据集,评估者在做出判断时并不知道哪一个是人类。

最终结果表明,评估者并不总是喜欢人类撰写的摘要。

而且,从XSum、CNN/Daily Mail和Reddit TIFU这三个数据集可以看出,仅训练少数样本也达到了超越人类的水平,再次证实了天马模型在小样本中的性能优势。

然而,尽管天马模型的预训练性能可以与人类相媲美,但它仍然存在误差。

例如,研究人员对以下文本进行了预训练。

XSum 数据集中这个例子的全文没有提到数字“4”,但在文本提取中,天马能够抽象出文本摘要“NoproposalhavebelaudedtopreservingfourRoyalNavyfrigatesforreuse,theBBChas学到了。

”,从 2 到 5 都是如此。

但在第六艘护卫舰上,天马犯了一个错误,他的总结显示为“七”。

这表明该模型在重复文本提取方面需要进一步优化。

为此,研究人员还在Github上公开发布了该项目。

开源 -谷歌发布最新“天马”模型,自动生成超越人类的文本摘要!

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 从算力、数据到算法,产投研各方共同探讨加速AI医药落地的关键路径 -云谷创新讲座

    从算力、数据到算法,产投研各方共同探讨加速AI医药落地的关键路径 -云谷创新讲座

    计算科学和生命科学一直是两个并行发展的独立领域,但随着时间的推移,随着近年来跨界学科的快速发展,两个不相关的行业慢慢地产生了交叉:计算科学已经开始对生命科学提供更多帮助,加快新药研发效率,提高药物研发质量。 那一年,AI制药如何改变新药研发流程?制药企业的真

    06-18

  • 坚果P2荣获中国制造美丽奖,改变中国制造廉价低质的刻板印象

    坚果P2荣获中国制造美丽奖,改变中国制造廉价低质的刻板印象

    在“中国制造美丽”年度评选中,坚果P2便携式影院荣获中国制造美丽优秀奖消费电子及外围设备类别奖项! “中国制造之美”是专门针对中小企业各类产品设计的工业设计评选活动。 旨在发现“中国制造”的新价值、新亮点,改变国内外对中国制造廉价低质的刻板印象。 坚果P2以其独

    06-18

  • 达观数据完成2.7亿元B+轮融资,致力于自动文本数据挖掘业务

    达观数据完成2.7亿元B+轮融资,致力于自动文本数据挖掘业务

    据投资界5月14日消息,达观数据宣布完成B+轮融资。 本轮由深创投领投,软银赛富和Broadband跟投。 晨兴资本、中林资本等基金也参与投资,融资总额达2.7亿元。 据悉,达观数据专注于自然语言处理技术与RPA相结合的自动化软件研发。 本轮融资将进一步扩大其在产品技术和市场的

    06-17

  • 蛋科技获4000万元A轮融资,真格基金与吾悦资本共同投资融资

    蛋科技获4000万元A轮融资,真格基金与吾悦资本共同投资融资

    投资圈(ID:pedaily)4月16日消息,据36氪报道,近日,轻医美连锁品牌“”蛋壳极印”获得1万元A轮融资,由真格基金和吾悦资本共同投资。 本轮融资将主要用于门店建设、流量捕获和团队建设。 蛋壳极印于年底成立。 今年1月,蛋客基印获得梅花创投领投、天图资本、维易资本等参

    06-17

  • 选秀消失,偶像公司过冬

    选秀消失,偶像公司过冬

    停滞不前的国内娱乐偶像生态系统似乎正在复苏。 选秀节目《亚洲超星团》播出,选手名单逐步出炉,导师主题曲直接录制。 总制片人邀请Rain,导师包括剧迷熟悉的程潇、朱正廷;乐华娱乐女团NAME推出团体综艺《人不怕出名猪不怕壮》,送女团成员去东北农村养猪;歌唱节目《朝阳打

    06-18

  • 千亿,福建省投资

    千亿,福建省投资

    又一个千亿投资平台诞生。 投资圈-解码LP消息,2月28日,福建省金融投资有限公司完成工商注册,注册资本1亿元,由福建省财政厅出资。 根据安排,公司主要从事投资、资产管理服务、私募股权投资基金管理、创业投资基金管理服务、企业管理咨询、技术中介服务、信息技术咨询服务

    06-18

  • VirtAI科技获数千万美元A+轮融资

    VirtAI科技获数千万美元A+轮融资

    据投资界(ID:pedaily)2月23日消息,AI计算资源池化软件开发商“VirtAITech.com”近日宣布完成数千万美元融资美元 A+ 轮融资。 本轮融资由招银国际通信基金领投。 前两轮投资方高瓴创投持续加大投资,指数资本继续担任独家投资方。 本轮资金将用于快速拓展OrionX的AI计算资

    06-17

  • 台积电或代工特斯拉HW4.0芯片

    台积电或代工特斯拉HW4.0芯片

    “台积电已生产超过10亿颗7nm芯片,搭载多款产品。 据了解,台积电首款7nm芯片已于今年4月开始大规模量产”今年7月生产了第10亿颗7nm芯片,在这27个月里,台积电每月生产超过10000颗7nm芯片,7nm技术不仅适用于PC、平板电脑和智能手机,还适用于数据中心、汽车、汽车等领域。

    06-06

  • 色图科技完成A+轮融资,拓展工业AI生成设计软件应用场景

    色图科技完成A+轮融资,拓展工业AI生成设计软件应用场景

    色图科技完成A+轮融资,拓展工业AI生成设计软件应用场景高榕创投高榕创投微信IDbanyancapital关于特色我们的愿景是“创造”美好生活。 我们相信科技和创新的力量将使人类的生活更加美好。 05-08 14:56 北京 近日,工业人工智能生成设计软件及解决方案供应商序列科技完成A+轮融

    06-17

  • 深圳:1-4月固定资产投资同比增长8.9%

    深圳:1-4月固定资产投资同比增长8.9%

    据《深圳统计》消息,1-4月,深圳规模以上工业增加值同比增长4.2% 1-3月同比增长1.9个百分点。 分行业看,规模以上采矿业、制造业增加值分别增长14.9%和4.0%,电力、热力、燃气及水生产和供应业下降1.4%。 1-4月,深圳市固定资产投资同比增长8.9%。 1-4月份,深圳市社会消费品

    06-18

  • 持续加码投资,易久批获腾讯追加投资8000万美元

    持续加码投资,易久批获腾讯追加投资8000万美元

    据投资界消息,快消行业互联网公司“易久批”宣布获得腾讯追加投资近万美元腾讯.本轮融资是继今年8月腾讯、美团领投易久批2亿美元D轮融资后,易久批的又一次加大投资。 在本轮融资之前,易久批已经获得了至少7轮融资。 详情如下表:易久批成立于2016年,始终坚持“通过数字化

    06-18

  • 陆奇谈创业:从0到1,最重要的是快速试错、不断迭代

    陆奇谈创业:从0到1,最重要的是快速试错、不断迭代

    由于新冠肺炎疫情影响,热闹的峰会对话已久未见时间。 5月15日,在首届“HICOOL全球创业者峰会暨创业大赛”启动仪式上,奇绩创始人创始人与CEO陆奇、小米集团创始人、董事长与CEO雷军、IDG资本创始人董事长熊晓鸽,围绕创业者如何克服当前“危机”,抓住“机遇”,面对全球变

    06-17