首页 > 科技未来 > 内容

文档分类是否太复杂? MIT 和 IBM 联手解决这个问题

发布于:2024-06-18 编辑:匿名 来源:网络

雷锋网注:【图片来源:venturebeat 所有者:venturebeat】即使是最好的文本解析推荐算法也会受到一定规模的数据集的阻碍。

为了提供比大多数现有方法更快、更好的分类性能,来自 MIT-IBM Watson AI 实验室和 MIT 几何数据处理小组的团队设计了一种结合嵌入式和最优传输等流行人工智能工具的方法。

技术。

他们认为,这种方法只需考虑一个人的历史偏好,或者一群人的偏好,就可以涵盖数百万种可能性。

领导这项研究的麻省理工学院助理教授Justin在一份声明中表示,互联网上有大量文本,任何有助于剖析这些材料的东西都非常有用。

为此,Justin和他的同事使用算法根据文本集合中常见的单词将文本集合总结为主题。

接下来,它将每个文本分为 5 到 15 个最重要的主题,并使用排名来显示每个主题对整个文本的重要性。

文档分类是否太复杂? MIT 和 IBM 联手解决这个问题

此外,嵌入(在本例中是单词的数据表示)有助于使单词之间的相似性变得明显,而最佳传输有助于计算在多个目的地之间移动对象。

(或数据点)以最有效的方式。

同时,嵌入使得“利用两种最佳转移”成为可能:首先通过比较集合中的主题,然后通过测量共同主题的重叠程度。

研究人员表示,这种方法在扫描大量书籍和文档时特别有效。

在对古腾堡项目数据集中的标题进行评估时,该算法在一秒钟内成功比较了所有标题,比下一个最佳候选标题快了近三倍。

此外,与其他方法相比,该算法在文档分类方面做得更好。

例如,古腾堡数据集中作者的书籍分组;或按部门对亚马逊上的产品评论进行分组。

同时,算法还提供了主题列表,可以向用户解释推荐给定文档的原因,使用户更容易理解。

然而,研究人员对当前的技术水平并不满意。

他们还将继续开发一种端到端的训练技术,联合优化嵌入、主题模型和最佳传输,而不是像当前的实现那样单独优化。

在应用方面,他们还希望将他们的方法应用于更大的数据集,并研究图像或3D数据建模的应用。

JustinSolomon在总结其工作的论文中表示,(我们的算法)似乎以与要求人比较两个文档相同的方式捕获差异:首先将每个文档分解为易于理解的概念,然后比较这些概念……····对于更进一步的想法,JustinSolomon表示:让词嵌入提供全局语义语言信息,主题模型提供语料库特定的主题和主题分布。

根据经验,这些因素结合起来可以在各种基于指标的任务中提供卓越的性能。

雷锋网注:文章编译自venturebeat。

文档分类是否太复杂? MIT 和 IBM 联手解决这个问题

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 谷歌放弃试用6年的超级宽带计划:谷歌光纤面临出售

    谷歌放弃试用6年的超级宽带计划:谷歌光纤面临出售

    今年10月,雷锋网报道称,谷歌光纤项目负责人克雷格巴拉特在博客中宣布辞职。 作为特别顾问继续支持 Google Fiber 项目。 昨晚(12月28日),又有外媒报道称,谷歌很可能出售其光纤业务。 作为Alphabet(谷歌母公司)负责谷歌Fiber业务的子公司,Google Access今年以来陷入了

    06-17

  • 嘉能可计划上市前引入中投或在香港、伦敦上市

    嘉能可计划上市前引入中投或在香港、伦敦上市

    据香港媒体报道,早前有报道称瑞士商品交易所耀明嘉能可(嘉能可)计划在香港和伦敦上市。 据外媒昨日报道,嘉能可近期引入中国投资公司和卡塔尔投资局主权投资基金进行洽谈,吸引1亿美元(约1亿港元)作为其伦敦上市的基本投资者。 如果成功上市,将成为规模前十的公司之一。

    06-18

  • 场景实验室获得IDG资本数千万元A+轮融资,吴声对未来新物种做出10个预测

    场景实验室获得IDG资本数千万元A+轮融资,吴声对未来新物种做出10个预测

    据投资界8月6日消息,情景实验室创始人吴声在《新物种爆炸吴声场景课堂》召开新闻发布会,宣布已完成1000万元A+ IDG资本投资的A轮融资。 此前,其于今年12月完成由盛景网联领投的万元A轮融资。 5月  ,吴声推出“新物种实验计划”。 该计划是由情景实验室、洛可可设计集团

    06-18

  • 三星首款5nm芯片即将亮相

    三星首款5nm芯片即将亮相

    IT 10月11日,三星宣布将发布全新旗舰处理器Exynos。 Exynos是三星首款基于5nm工艺的手机芯片。 据悉,Galaxy A72有望搭载这款处理器。 据悉,搭载三星Exynos的vivo X系列旗舰新机将于年内推出。 据报道,三星Exynos将采用三星自家的5nm LPF工艺,该工艺比Exynos使用的8nm工

    06-06

  • 探讨人工智能机遇与挑战,摩尔线程CEO张建中出席之江圆桌会议

    探讨人工智能机遇与挑战,摩尔线程CEO张建中出席之江圆桌会议

    5月9日,“之江圆桌会议”由之江实验室发起,浙江省发展基金会和杭州人工智能产业联盟联合主办。 “人工智能之争——机遇与挑战”,聚焦我国人工智能核心竞争力与国际领先水平的差距,国内算力、大模型技术等能否实现赶超和突破等,并围绕人工智能发展的协同创新、浙江实验室

    06-17

  • 前百度高管副总裁-向海龙成立新基金:完成首期募资2亿元,专注To B天使投资

    前百度高管副总裁-向海龙成立新基金:完成首期募资2亿元,专注To B天使投资

    投资社区(微信ID:pedaily)1月10日消息,据36氪报道,前百度副总裁高层创办的龙中信谊基金目前已完成首期人民币基金募集,规模2亿元人民币,将重点进行To B方向的天使阶段投资。 向海龙表示,该基金的资金来源并非自有资金,但并未透露LP的具体构成。 据悉,除一期基金外,

    06-18

  • 中国最强VC来势汹汹:一战赚千亿

    中国最强VC来势汹汹:一战赚千亿

    “最强VC城市”合肥又出手了。 据投资界消息,1月27日,零跑汽车宣布完成43亿B轮融资。 除国投创益、浙大九智、永华资本外,战略投资者还包括合肥政府投资平台。 据悉,零跑汽车已与合肥市签署战略合作协议,未来双方将开展更多合作。 绝无巧合。 同样在昨天,有消息称,珠海

    06-18

  • 唐仁深拟设立总规模10亿元产业投资基金

    唐仁深拟设立总规模10亿元产业投资基金

    据投资界消息,8月14日,唐仁深与财新产业基金、湖南资管签署合作框架协议,共同设立和管理产业投资基金。 运营唐仁申产业投资基金。 该基金采取合伙形式,总规模暂定10亿元,其中首期投资2亿元。 据悉,唐人神产业投资基金将通过合作、投资参股、并购等方式,实现在生猪生态

    06-18

  • 宁波永源投资基金有限公司(暂定名)招聘公告

    宁波永源投资基金有限公司(暂定名)招聘公告

    宁波永源投资基金有限公司(暂定名)招聘公告 1、公司简介 宁波市政府投资基金经市政府常务会议批准市政府并通过市财政预算安排设立宁波市各类政府投资基金一级母基金,重点支持宁波产业转型升级发展、创新创业、重大项目招商、基础设施建设宁波甬源投资基金有限公司(暂名)

    06-17

  • 广州瑞派医疗完成近亿元A轮融资,斯道资本领投

    广州瑞派医疗完成近亿元A轮融资,斯道资本领投

    12月21日报道,一次性内窥镜制造商广州瑞派医疗股份有限公司完成近亿元A轮融资。 本轮融资由斯道资本领投,原股东元和元典跟投。 融资资金将用于进一步巩固和拓展产品研发管线、加快自动化生产线的推进、扩大品牌的市场投入。 瑞派医疗成立于2007年,是一家专注于提供一次性

    06-17

  • 新疆库车:首支政府产业投资母基金成功设立

    新疆库车:首支政府产业投资母基金成功设立

    投资界(ID:pedaily)4月24日消息,近日,库车市库车产业投资基金合伙企业(有限合伙)成功设立投资中信建投证券投资基金行业协会完成注册。 这标志着库车市首支政府产业投资母基金、南疆首支县级政府产业投资母基金成功设立。 基金总规模为10亿元人民币,基金认购期限为20年

    06-18

  • 威马汽车再出手,全资收购北京金开宏达汽车租赁公司

    威马汽车再出手,全资收购北京金开宏达汽车租赁公司

    据投资界消息,威马汽车近日全资收购了北京金开宏达汽车租赁公司。 北京金凯宏达汽车租赁有限公司于12月成立,注册资本1万元,法定代表人刘利群。 公司经营范围包括汽车租赁(不含九座以上客车)、汽车零部件销售、家政劳务等。 企查查数据显示,9月26日,北京金凯宏达汽车租

    06-18