首页 > 科技未来 > 内容

文档分类是否太复杂? MIT 和 IBM 联手解决这个问题

发布于:2024-06-18 编辑:匿名 来源:网络

雷锋网注:【图片来源:venturebeat 所有者:venturebeat】即使是最好的文本解析推荐算法也会受到一定规模的数据集的阻碍。

为了提供比大多数现有方法更快、更好的分类性能,来自 MIT-IBM Watson AI 实验室和 MIT 几何数据处理小组的团队设计了一种结合嵌入式和最优传输等流行人工智能工具的方法。

技术。

他们认为,这种方法只需考虑一个人的历史偏好,或者一群人的偏好,就可以涵盖数百万种可能性。

领导这项研究的麻省理工学院助理教授Justin在一份声明中表示,互联网上有大量文本,任何有助于剖析这些材料的东西都非常有用。

为此,Justin和他的同事使用算法根据文本集合中常见的单词将文本集合总结为主题。

接下来,它将每个文本分为 5 到 15 个最重要的主题,并使用排名来显示每个主题对整个文本的重要性。

文档分类是否太复杂? MIT 和 IBM 联手解决这个问题

此外,嵌入(在本例中是单词的数据表示)有助于使单词之间的相似性变得明显,而最佳传输有助于计算在多个目的地之间移动对象。

(或数据点)以最有效的方式。

同时,嵌入使得“利用两种最佳转移”成为可能:首先通过比较集合中的主题,然后通过测量共同主题的重叠程度。

研究人员表示,这种方法在扫描大量书籍和文档时特别有效。

在对古腾堡项目数据集中的标题进行评估时,该算法在一秒钟内成功比较了所有标题,比下一个最佳候选标题快了近三倍。

此外,与其他方法相比,该算法在文档分类方面做得更好。

例如,古腾堡数据集中作者的书籍分组;或按部门对亚马逊上的产品评论进行分组。

同时,算法还提供了主题列表,可以向用户解释推荐给定文档的原因,使用户更容易理解。

然而,研究人员对当前的技术水平并不满意。

他们还将继续开发一种端到端的训练技术,联合优化嵌入、主题模型和最佳传输,而不是像当前的实现那样单独优化。

在应用方面,他们还希望将他们的方法应用于更大的数据集,并研究图像或3D数据建模的应用。

JustinSolomon在总结其工作的论文中表示,(我们的算法)似乎以与要求人比较两个文档相同的方式捕获差异:首先将每个文档分解为易于理解的概念,然后比较这些概念……····对于更进一步的想法,JustinSolomon表示:让词嵌入提供全局语义语言信息,主题模型提供语料库特定的主题和主题分布。

根据经验,这些因素结合起来可以在各种基于指标的任务中提供卓越的性能。

雷锋网注:文章编译自venturebeat。

文档分类是否太复杂? MIT 和 IBM 联手解决这个问题

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 推出企业服务火山引擎后,字节跳动收购容器平台才云科技

    推出企业服务火山引擎后,字节跳动收购容器平台才云科技

    据投资界7月30日消息,字节跳动将于近期完成对容器平台才云科技(Caicloud)的全资收购。 收购已完成。 随后,彩云科技的团队和业务将加入字节跳动火山引擎。 彩云科技成立于2007年,最初定位为Docker+Kubernetes管理平台提供PaaS服务。 目前,彩云科技的主要产品包括智能容

    06-18

  • K12教育是红海,作业盒完成2亿元B+轮融资,贝塔斯曼领投,

    K12教育是红海,作业盒完成2亿元B+轮融资,贝塔斯曼领投,

    NewSeed(ID:pelink)10月12日消息,K12教育品牌作业盒今日宣布完成2亿元B+轮融资。 ,本轮融资由贝塔斯曼领投,新世界、百度创投、好未来跟投。 本轮融资将主要用于推动“AIOC战略”的实施。 AIOC(AI-Oriented-Content)是指“基于自适应学习场景的内容构建”。 去年同期,

    06-18

  • 瑞云冷链完成2亿元Pre-A+轮融资,“网络+平台+技术”三位一体

    瑞云冷链完成2亿元Pre-A+轮融资,“网络+平台+技术”三位一体

    投资社区(ID:pedaily)11月22日消息,近日,瑞云冷链引入新战略投资机构,完成2亿元Pre-A+轮融资。 三菱商事、瑞穗联盟等共同投资,老股东盘林资本、青松基金、斯道资本、招商创投等持续大比例投资。 本轮资金将主要用于平台技术研发、零担网络建设、营销拓展等。 瑞云冷链

    06-18

  • 关爱Z世代心灵成长,积极心理产品“hope”完成数百万天使+轮融资

    关爱Z世代心灵成长,积极心理产品“hope”完成数百万天使+轮融资

    投资界(ID:pedaily)12月7日消息,产品“hope”聚焦积极心理学近期再次获得知名天使投资人的数百万天使+轮投资。 本轮融资后,团队将继续将主要精力投入到产品研发、AI算法优化上,对“hope精灵”进行全方位优化迭代。 hope是上海爱联科技有限公司自2018年推出的一款APP,以

    06-18

  • 青岛啤酒股份有限公司:去年净利润同比增长18.86%至22.01亿元

    青岛啤酒股份有限公司:去年净利润同比增长18.86%至22.01亿元

    青岛啤酒股份有限公司(8.HK)发布年度业绩报告。 财务数据显示,公司全年实现营业收入(人民币,下同)6000万元,利润总额32.40亿元,同比增长18.80%。

    06-17

  • 自动驾驶公司深圳深动科技获数千万美元A轮投资,红点中国领投,

    自动驾驶公司深圳深动科技获数千万美元A轮投资,红点中国领投,

    据投资界3月19日消息,近日,自动驾驶公司Deepmotion深圳科技宣布获得数千万美元A轮投资。 本轮投资由红点中国领投,天使投资人源码资本跟投。 据悉,本轮融资将主要用于扩大人才招募、加速产品上市、推动数据规模化生产。   Deepmotion神动科技成立于2019年7月,为自动驾驶

    06-17

  • SpaceX建造100万个地面天线,提供低成本互联网连接服务

    SpaceX建造100万个地面天线,提供低成本互联网连接服务

    雷锋网3月21日报道,据外媒报道,经过几个月的考虑,美国联邦通信委员会(FCC)最终批准了SpaceX的申请并允许其建造超过 10,000 个地面天线,这些天线将帮助用户连接到该公司的 Starlink 卫星网络,并在全球范围内提供低成本的互联网连接服务。 星链是美国太空探索技术公司的

    06-17

  • 广东省战略性新兴产业发展基金已成立

    广东省战略性新兴产业发展基金已成立

    投资界(微信ID:pedaily)据4月10日消息,粤科金融集团发起设立广东省战略性新兴产业发展基金(以下简称“广东省战略性新兴产业发展基金”)粤科金融集团于近日在广州市南沙区完成工商设立,表示战略新兴产业基金的设立是粤科金融集团优化“战略性新兴产业发展基金”的重要一

    06-18

  • 慈文传媒为LP,投资4000万

    慈文传媒为LP,投资4000万

    据投资界6月6日消息,慈文传媒公告称,公司全资子公司上海慈文影视传播有限公司(简称“上海慈文影视传播有限公司”)慈文”)拟收购公司控股股东华章天地传媒投资控股集团有限公司(以下简称“华章投资”)共同投资并认购开封兴赣一号私募股权投资相应股份基金(简称“基金

    06-18

  • 工信部:1-2月储能电池产量突破9GWh 新能源汽车动力电池装机量约30GWh

    工信部:1-2月储能电池产量突破9GWh 新能源汽车动力电池装机量约30GWh

    工信部数据显示,1月起至2月,我国锂离子电池行业保持快速增长态势,根据行业规范公告企业信息和研究机构测算,1-2月我国锂电池总产量突破82GWh。 锂离子电池领域,储能电池产量超过9GWh,新能源汽车动力电池装机量约30GWh。 出口贸易稳步增长,1-2月全国锂电池出口总额达1亿

    06-18

  • 韩国云服务商“耀明n Global”完成1亿美元D轮融资

    韩国云服务商“耀明n Global”完成1亿美元D轮融资

    投资社区(ID:pedaily)据12月16日消息,韩国云服务商耀明n Global近日完成1亿美元D轮融资。 该资金将主要用于公司后续收购及其他业务。 同时,作为本轮融资的投资方,阿联酋领先的数字服务提供商e&Enterprise(原Etisalat Digital)将与耀明环球组建合资公司,为中东、北非

    06-17

  • 疯狂“无人经济”:单月多轮融资,20多家VC-PE入市,是真趋势还是假需求?

    疯狂“无人经济”:单月多轮融资,20多家VC-PE入市,是真趋势还是假需求?

    仅仅半年后,迷你KTV、自助咖啡机、快餐自动售货机、口红自动售货机等无人新物种,一度被NewSeed(ID:pelink)归类为“孤独经济” , 已经出现。 它已经发展到了难以想象的程度。 无人值守的情况有多热?最直观的感受是,上半年,与零售有关的创业项目都给自己贴上了“新零

    06-17