首页 > 科技未来 > 内容

乂学教育-松鼠AI荣获KDD国际图深度学习大会&最佳学生论文最佳论文

发布于:2024-06-17 编辑:匿名 来源:网络

KDD,国际数据挖掘与知识发现会议,全称:ACM SIGKDD知识发现与数据挖掘会议,是数据挖掘领域最高级别的国际会议。

KDD“图深度学习国际研讨会:方法与应用(DLG)”于2019年8月5日在美国阿拉斯加州安克雷奇举行。

值得一提的是,国内人工智能独角兽松鼠AI深度参与的研究项目荣获研讨会最佳论文和最佳学生论文奖。

深度学习是当今人工智能研究的核心。

但由于该技术无法直接应用于图结构数据,这也推动了学术界对图深度学习的探索。

过去几年,基于图结构数据的神经网络在社交网络、生物信息学、医学信息学等领域取得了令人瞩目的成果。

自2001年起,KDD会议已连续举办20多届,每年的录用率不超过20%。

今年的录取率还不到15%。

值得一提的是,今年也是KDD采用双盲评审的第一年。

仍然分为研究轨道和应用轨道。

其中,据公开资料显示,KDD研究赛道共收到2篇投稿,其中2篇被接受为Oral论文,63篇被接受为Poster论文,入选率为14.8%。

申请轨道收到论文10余篇,其中45篇被接受为Oral论文,3篇被接受为Poster论文,接受率为20.7%。

相比之下,KDD年度研究赛道录取率为18.4%,申请赛道录取率为22.5%。

作为世界顶级数据挖掘会议——第25届ACM SIGKDD知识发现与数据挖掘会议(KDD)的一个分支——DLG旨在汇聚不同背景和视角的学术研究人员和实践者,共同分享图神经领域的前沿成果网络技术。

最佳论文:使用图神经网络解决基于 RDF 数据的文本生成问题。

最佳论文获得者是华中师范大学、IBM研究院、乂学教育松鼠AI的研究成果。

本文研究RDF数据的文本生成,任务是给定一组RDF三元组生成相应的描述性文本。

大多数先前的方法要么将此任务转换为序列到序列 (Seq2Seq) 问题,要么使用基于图的编码器来建模 RDF 三元组并解码文本序列。

然而,这些方法都不能明确地对三元组内部和之间的全局和局部结构信息进行建模。

此外,它们不利用目标文本作为附加上下文内容来建模复杂的 RDF 三元组。

为了解决这些问题,论文作者提出通过结合图编码器和基于图的三元组编码器来学习RDF三元组的局部信息和全局结构信息。

此外,研究人员还使用了基于Seq2Seq的自动编码器,以目标文本作为上下文来监督图编码器的学习。

WebNLG 数据集上的实验结果表明,研究团队提出的模型优于最先进的基线方法。

论文作者:高瀚宁、吴令飞、胡白、徐芳丽(吴令飞来自IBM研究院,徐芳丽来自易学教育-松鼠AI,其余作者来自华中师范大学)重要:资源描述框架(Resource Description Frameworks)是在结构化知识库中表达实体及其关系的通用框架。

根据W3C标准,每个RDF数据都是由(主语、谓语、宾语)形式的三个元素组成的三元组。

在自然语言生成(NLG)中,基于RDF数据的文本生成是一项具有挑战性的任务,由于其广泛的工业应用而备受研究人员的关注,包括基于知识的问答系统、实体摘要、数据驱动的新闻生成和更多。

“比如你有一个知识图谱,然后你需要构建一个问答系统。

比如你有SparQL(一种为RDF开发的查询语言),然后你查询知识图谱,它会返回一个RDF RDF是丑陋的,所以这篇论文的初衷是能否将这个RDF返回的答案转换为自然语言,以便人们能够自然地理解返回的答案意味着什么。

”作者之一吴凌飞说。

该论文来自 IBM 研究中心。

医生解释道。

挑战是什么:随着端到端深度学习,特别是各种Seq2Seq模型的巨大进步,基于RDF数据的文本生成取得了实质性进展。

但是,如果您只是将 RDF 三元组转换为序列,则可能会丢失重要的高阶信息。

由于RDF三元组可以表示为知识图,研究人员最近提出了两种基于图网络的方法,但两者都存在缺点:例如,基于循环神经网络的模型无法表达实体和关系之间丰富的局部结构。

信息,而基于改进的图卷积网络(GCN)的图编码器无法表达三元组内部和之间的全局信息。

核心贡献:为了解决上述问题,论文作者提出了一种新颖的神经网络架构,利用基于图的神经网络和上下文信息来尝试提高模型基于RDF数据生成文本的能力。

研究团队提出了一种基于图结构的新型编码器模型,结合GCN编码器和GTR-LSTM三元组编码器,对RDF三元组的多视角输入进行建模,并学习RDF三元组的局部部分。

和全局结构信息。

两个编码器都会生成一组节点表示。

GCN 生成的节点更好地捕获 RDF 三元组内的局部结构信息,而 GTR-LSTM 生成的节点主要关注全局结构信息。

研究团队通过结合 GCN 和 GTR-LSTM 节点,通过平均池化获得图嵌入来实现这一目标。

由于目标参考文本包含与三元组几乎相同的信息,研究团队随后使用基于Seq2Seq的自动编码器将目标文本作为辅助上下文来监督图编码器的学习。

实验结果:研究团队使用了WEBNLG数据集,该数据集由资源端三元数据集和目标端参考文本组成。

每个 RDF 三元组都表示为(主语、关系、宾语)。

整个数据集分为2个训练对、1个验证对和2个测试对。

实验采用WebNLG挑战赛的标准评估指标,包括BLEU和METEOR。

实验结果表明,研究团队提出的模型能够更好地编码RDF三元组的全局和局部图结构,并且该模型在WebNLG数据集上比其他基线模型高出约2.0 BLEU点。

此外,研究团队还手动评估了不同模型的结果。

他们发现涉及 GCN 编码器的模型在表达实体之间的正确关系方面表现更好;目标文本自动编码器和 GTR-LSTM 编码器在生成与 RDF 三元组之间的上下文信息相关的文本方面表现更好。

在进一步的研究中,研究团队发现他们提出的模型中有四个关键因素可能会影响生成文本的质量。

它们是目标文本自动编码器,有助于整合目标上下文信息;因子Ldis,可以最小化图形表达和文本表达之间的距离; GCN编码器和GTR-LSTM编码器,它们执行三元组局部和全局信息的编码。

最佳学生的论文:基于图神经网络的语义分析实证研究。

最佳学生论文的获奖者是来自南京大学、IBM研究院、乂学教育-松鼠AI的研究。

本文研究基于图神经网络的语义分析。

现有的神经语义解析器要么只考虑用于编码或解码的单词序列,要么忽略对解析目的有用的重要语法信息。

在本文中,论文作者提出了一种基于图神经网络(GNN)的新型神经语义解析器,即Graph2Tree,它由图编码器和层次树解码器组成。

论文作者:李书成、吴令飞、冯世伟、徐芳丽、徐丰源、钟升(吴令飞来自IBM研究院,徐芳丽来自易学教育-松鼠AI,其余作者来自南京大学)为什么这项研究很重要:作为自然语言处理(NLP)中的一个经典任务,语义解析(Sematic Parsing)是将自然语言句子转换为机器可解析的语义表示。

业界有大量基于语义解析的成熟应用,例如问答系统、语音助手、代码生成等。

近两年,随着神经编解码方法、语义分析模型的推出也发生了巨大的变化。

近年来,研究人员开始开发具有Seq2Seq模型的神经语义解析器,并且这些解析器取得了显着的成果。

挑战是什么:由于语义表示通常是结构化对象(例如树结构),因此研究人员投入了大量精力来开发基于结构的解码器,包括树解码器、句法约束解码器、语义图生成的动作序列以及基于抽象语法树的模块化解码器。

尽管这些方法取得了令人印象深刻的结果,但它们只考虑单词序列信息,而忽略了编码器端可用的其他丰富语法信息,例如依存树或短语结构树。

最近,研究人员展示了图神经网络在各种 NLP 任务中的重要应用,包括神经机器翻译、信息提取和基于 AMR 的文本生成。

在语义解析方面,研究人员提出了Graph2Seq模型,它将依存树和短语结构树与单词序列相结合,然后创建语法图作为编码输入。

然而,这种方法仅将逻辑形式视为序列,而忽略了解码器架构中结构化对象(例如树)中的丰富信息。

核心贡献:论文作者提出了一种基于图网络的新型神经语义解析器,即Graph2Tree,它由图编码器和层次树解码器组成。

图编码器有效地将由单词序列和相应的依存解析树或短语结构树构建的句法图编码为向量表示。

具体来说,研究团队首先将原始文本数据对应的语法关系自然地组合到输入序列中,形成图数据结构,然后使用图编码器从该图结构中学习高质量的向量表示。

树解码器从学习的图级向量表示中解码逻辑形式,并充分学习逻辑形式表示的构成属性。

同时,研究团队还提出在原始词标记对应的不同节点表示上计算单独的注意力机制,并解析树节点来计算解码树的结构化输出的最终上下文向量。

然后对其进行联合训练,以最大化给定语法图的正确描述的条件对数概率。

本文的一大特点是自然语言的输入和逻辑形式的输出。

双方都是结构化对象。

将输入的句子转化为语法图,然后进行输入。

逻辑形式是使用树解码器的结构化输出。

解码时,可以最好地利用隐含的结构化信息和输出时对象的特征。

此外,研究团队还研究了不同语法图架构对GNN语义分析性能的影响。

他们发现,由于依存树解析器或复杂短语结构树的缺陷,图架构引入的噪声信息和结构复杂性可能会对基于 GNN 的语义解析器的性能产生显着的不利影响。

实验结果:通过实验,研究团队希望回答几个问题:i)使用什么语法图可以使基于图网络的方法表现良好? ii) 通过正确构建的图形输入,Graph2Tree 与基线方法相比是否表现更好?研究团队在三个基准数据集:JOBS、GEO 和 ATIS 上评估了 Graph2Tree 框架。

第一个是工作列表数据库JOBS,第二个是美国地理数据库GEO,最后一个是航班预订系统数据集ATIS。

在JOBS和GEO数据集的对比结果中,研究团队观察到,无论使用哪种图结构类型,Graph2Tree在基于图输入生成高质量逻辑形式方面均优于Graph2Seq模型。

在图架构方面,如果CoreNLP工具产生的噪声导致语义解析错误,则两个解析器的性能都会下降,甚至无法与仅词序解析器进行比较。

同样,短语结构树的跳跃大小(即其结构复杂性)也对性能有很大影响。

如果结构信息过多或很少,解析器性能也会降低。

相反,当通过某种方法控制或减少输入引起的噪声时,Word Order + dependency number的性能可以得到显着提升;当选择正确的层时,词序+短语结构树的性能也可以得到提高。

例如,词序+短语结构树在单级切割中的逻辑形式准确性分别高于词序。

乂学教育-松鼠AI崔巍:自适应学习的图深度学习与知识图谱当天的研讨会由SIGKDD主席、京东副总裁裴健致开幕词,邀请了来自斯坦福大学、清华大学、加州大学洛杉矶分校、伊利诺伊大学香槟分校的嘉宾等待大学学者发表演讲。

松鼠AI松鼠AI首席科学家崔巍博士也受邀介绍了图深度学习和知识图谱在自适应学习方面的最新进展。

易学教育自主研发的松鼠AI智适应在线学习系统,能够持续监测和评估学生个体能力,发现学生学习中的弱点和不足,让学生按照自己的节奏进步,提高学习成果。

系统提供优化的学习解决方案和同步辅导支持,最大限度地提高学习效率,提高学生的知识、技能和能力。

多年来,我国教育的高级师资资源短缺和地域问题影响了优质教育的普及。

松鼠AI的愿景是通过人工智能打造超级教师,为万千学生提供定制化教学。

“每个孩子都值得拥有一位一对一的超级老师。

”崔伟说。

今年以来,乂学教育-松鼠AI自主研发了面向中国K12学生的智适应学习系统。

其主要目标是准确诊断学生对知识点的掌握情况,进而推荐个性化的学习内容和学习路径规划。

首先是学生知识点的掌握。

下图为松鼠AI某同学对物理知识点的熟练程度。

可以看到蓝色部分是学生已经掌握的部分,占80%;黄色部分是学生相对薄弱的知识点,占20%。

%。

如何准确了解学生对知识点的掌握情况?从数据的角度来看,松鼠AI可以利用学生的考试成绩、考试时长、考试难度和覆盖的知识点,甚至学生不同错误选项的选择以及学生的鼠标滑动行为,可以作为行为数据。

法官。

具体到松鼠AI的工作原理,崔巍表示,这款智能自适应引擎分为三层架构:本体层、算法层、交互系统。

本体层主要是基于内容的,包括学习目标本体、学习内容本体和错误原因分析本体。

松鼠AI自主研发超纳米级知识点分割,可以更精准地判断学生的知识点。

以初中数学为例,松鼠AI可以将每个知识点细化为3万个。

同时,松鼠AI基于类似贝叶斯网络的图谱关联相关知识点。

通过这项技术,可以模拟优秀教师的教学顺序和关系。

这种教学方法符合学生的认知规律和知识点的难易关系。

算法层包括内容推荐引擎、学生用户画像引擎、目标管理引擎等。

乂学教育-松鼠AI荣获KDD国际图深度学习大会&最佳学生论文最佳论文

松鼠AI将结合用户状态评估引擎和知识推荐引擎构建数据模型,准确高效地衡量每个学生的知识漏洞,并根据学生的知识漏洞推荐相应的学习内容。

交互系统通过收集交互数据来更多地了解学生,包括管理系统、检测和预警系统以及实时事件收集器。

崔巍强调,基于人工智能的智适应学习系统采用了与传统教育完全不同的教学流程。

例如,在知识状态诊断方面,传统诊断是基于高频次检查,而松鼠AI的系统具有基于信息论和知识空间理论的知识状态诊断,可以准确定位知识漏洞。

传统的评估是基于分数或排名,传统的智能自适应评估是基于IRT、DINA、BKT和DKT模型。

这些模型的缺点是无法进行实时评估。

松鼠AI的系统基于贝叶斯理论,可以根据所有学生过去的记录进行连续、实时的评估。

在内容推荐方面,传统的推荐算法采用的是协同过滤算法,但这种算法并不适合教育领域,因为虽然每个学生的学习情况相似,但知识点不同,而协同过滤算法并不适用于教育领域。

算法不够准确,无法保证推荐内容的有效性。

松鼠AI利用神经网络根据学生的学习结果实现个性化推荐,并通过深度学习算法进一步提高个性化学习和推荐的准确性。

算法的优越性也体现在结果上。

两年来,松鼠AI在四场人机大战中击败了优秀老师。

截至目前,松鼠AI已在全国多个城市开设近10所线下学校,学生总数近万人。

乂学教育-松鼠AI目前融资总额近10亿元。

去年,松鼠AI还向数百万贫困家庭儿童捐赠了一万个账号,促进教育公平。

乂学教育-松鼠AI将于今年11月12-13日在上海中心举办第四届全球人工智能自适应教育峰会(AIAED)。

本次会议组委会主席是CMU计算机学院院长、机器学习教父。

汤姆·米切尔教授。

崔巍希望相关从业者能够以此为契机汇聚到一起,共同推动人工智能教育的进步。

第四届AIAED会议网站:雷锋网版权文章未经授权禁止转载。

详情请参阅转载说明。

乂学教育-松鼠AI荣获KDD国际图深度学习大会&最佳学生论文最佳论文

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 梵志医疗完成数千万元B1轮融资

    梵志医疗完成数千万元B1轮融资

    据12月4日消息,梵志医疗近日完成数千万元B1轮融资。 本轮融资由庆丰资本、天津科创投资。 本次募集资金将用于进一步推动创新集成全封闭检测芯片FireChip及POCT设备进入临床应用阶段,并推动企业供应链的并购延伸。 今年4月,梵志医疗还获得江苏新领资本、天津科创资本投资的

    06-18

  • 美国零售SaaS服务商Stackline获得1.3亿美元B轮融资

    美国零售SaaS服务商Stackline获得1.3亿美元B轮融资

    6月9日获悉,Stackline获得1.3亿美元B轮融资,由TA Associates投资。 Stackline 是一家美国零售 SaaS 服务提供商,通过结合来自购物者、营销、运营和竞争情报的实时数据,为品牌提供自动化和执行电子商务营销和运营的工具,以优化品牌和零售商的电子商务营销绩效。 。

    06-17

  • 速影科技获超千万天使轮融资,创新工场前沿科技基金投资

    速影科技获超千万天使轮融资,创新工场前沿科技基金投资

    据投资界(ID:pedaily)8月1日消息,近日,由前大疆云台算法负责人领投,聚焦专注于提供智能缝制的机器人解决方案公司深圳市速盈科技有限公司(以下简称“速盈科技”)已完成数千万元天使轮融资。 本轮投资方为创新工场前沿科技基金。 本轮融资将用于推动产品研发和客户验证

    06-18

  • e络盟及其社区赋能客户释放AI潜力

    e络盟及其社区赋能客户释放AI潜力

    element14 及其社区帮助客户释放人工智能的潜力。 2020 年 11 月 28 日 - 全球电子元件和开发服务分销商 element14 宣布将使用其工程师在线社区,element14 社区(也称为安富利社区)。 1)进一步拓展人工智能(AI)产品和资源,帮助工程师利用人工智能技术开发新的解决方案,

    06-06

  • 小马智行完成4.62亿美元B轮融资,估值超30亿美元

    小马智行完成4.62亿美元B轮融资,估值超30亿美元

    据投资界2月26日消息,小马智行(小马智行)正式宣布获得丰田汽车4亿美元融资深化和扩大两家公司在旅游领域的合作。 这是双方于2006年建立的业务合作伙伴关系的延伸。 在此基础上,两家公司将进一步加速自动驾驶的研发和商业应用,旨在打造造福所有人的产品和服务。 截至目前

    06-18

  • 科勒资本私募股权二级市场首期人民币基金已通过,15亿

    科勒资本私募股权二级市场首期人民币基金已通过,15亿

    据投资界(ID:pedaily)4月6日消息,科勒资本宣布已完成“科勒资本私募股权二级市场首期”人民币基金”(Coller Capital Secondaries RMB I Fund,简称“CCSRMB I”)首次募集。 该基金目标规模为15亿元人民币。 CCSRMB I是中国首只境外募集的人民币私募股权二级市场基金科勒

    06-17

  • AI数据服务公司“爱数智慧”完成数千万元B轮融资

    AI数据服务公司“爱数智慧”完成数千万元B轮融资

    4月12日消息,AI数据服务公司“爱数智慧”完成数千万元B轮融资年初。 本轮融资由泛创资本投资。 本轮募集资金将主要用于打造全球AI开源社区MagicHub、设计人工智能对话式AI的训练数据集产品以及开发数据采集和标注SaaS平台。

    06-18

  • 英特尔、海力士相继扭亏为盈,芯片企业的AI风潮来了吗?

    英特尔、海力士相继扭亏为盈,芯片企业的AI风潮来了吗?

    近一段时间,对于各家芯片企业来说可谓是月亮明晃晃的。 有的人高兴,有的人悲伤。 许多公司陷入困境。 一度陷入亏损,但近期英特尔、海力士等知名芯片公司已扭亏为盈。 人们不禁好奇,芯片企业的好日子是否又回来了? 1. Intel、Hynix扭亏为盈? 据环球网报道,英特尔发布了

    06-18

  • PPTV巨力陶闯:国内IPO制度将改革,不排除A股上市

    PPTV巨力陶闯:国内IPO制度将改革,不排除A股上市

    据投资界1月8日消息,PPTV巨力CEO陶闯今日在媒体推介会上表示,将联合与苏宁聚焦OTT业务,同时,随着国内A股对互联网企业的开放,PPTV不排除推出国内上市。   根据此前公告,苏宁宣布以2.5亿美元投资PPTV,占PPTV股份44%,成为第一大股东。 弘毅向PPTV投资1.7亿美元,占PPT

    06-18

  • 我们正在努力走向全球化,海外销售额占我们总销售额的近80%,

    我们正在努力走向全球化,海外销售额占我们总销售额的近80%,

    近日,总裁先生和严授在内部讲话中披露了商业全球化的进展,强调我们大部分业务都是全球性的、海外的。 成交额占全球总成交额近80%。 该数据不包括收购的沐瞳科技的营业额。

    06-18

  • 国家发展改革委:全面系统开展2022年公司债券本息兑付等风险排查

    国家发展改革委:全面系统开展2022年公司债券本息兑付等风险排查

    国家发展改革委印发关于开展年度公司债券本息兑付风险排查的通知存续期监管工作中,表示将全面系统地开展年度公司债券本息兑付等风险排查,巩固“五早”风险防控机制成果。 对发行的公司债券进行排查和专项检查,加强债券期限监管。

    06-18

  • 专注于AI解决方案的网文出海开放平台维文科技获1000万元Pre-A轮融资

    专注于AI解决方案的网文出海开放平台维文科技获1000万元Pre-A轮融资

    据投资界8月9日消息,网文出海开放平台36氪获悉专注AI解决方案的出海文章推文科技(funstory.ai)今年3月完成1万元Pre-A轮融资,由WiFi万能钥匙、联商文学领投,联想之星跟投。 本轮融资将主要用于AI机器生产集群的研发和升级,以及加速建立海外在线内容开放平台。 推特科技

    06-17