线性资本成功募集5亿美元,王淮写下深情信
06-17
KDD,国际数据挖掘与知识发现会议,全称:ACM SIGKDD知识发现与数据挖掘会议,是数据挖掘领域最高级别的国际会议。
KDD“图深度学习国际研讨会:方法与应用(DLG)”于2019年8月5日在美国阿拉斯加州安克雷奇举行。
值得一提的是,国内人工智能独角兽松鼠AI深度参与的研究项目荣获研讨会最佳论文和最佳学生论文奖。
深度学习是当今人工智能研究的核心。
但由于该技术无法直接应用于图结构数据,这也推动了学术界对图深度学习的探索。
过去几年,基于图结构数据的神经网络在社交网络、生物信息学、医学信息学等领域取得了令人瞩目的成果。
自2001年起,KDD会议已连续举办20多届,每年的录用率不超过20%。
今年的录取率还不到15%。
值得一提的是,今年也是KDD采用双盲评审的第一年。
仍然分为研究轨道和应用轨道。
其中,据公开资料显示,KDD研究赛道共收到2篇投稿,其中2篇被接受为Oral论文,63篇被接受为Poster论文,入选率为14.8%。
申请轨道收到论文10余篇,其中45篇被接受为Oral论文,3篇被接受为Poster论文,接受率为20.7%。
相比之下,KDD年度研究赛道录取率为18.4%,申请赛道录取率为22.5%。
作为世界顶级数据挖掘会议——第25届ACM SIGKDD知识发现与数据挖掘会议(KDD)的一个分支——DLG旨在汇聚不同背景和视角的学术研究人员和实践者,共同分享图神经领域的前沿成果网络技术。
最佳论文:使用图神经网络解决基于 RDF 数据的文本生成问题。
最佳论文获得者是华中师范大学、IBM研究院、乂学教育松鼠AI的研究成果。
本文研究RDF数据的文本生成,任务是给定一组RDF三元组生成相应的描述性文本。
大多数先前的方法要么将此任务转换为序列到序列 (Seq2Seq) 问题,要么使用基于图的编码器来建模 RDF 三元组并解码文本序列。
然而,这些方法都不能明确地对三元组内部和之间的全局和局部结构信息进行建模。
此外,它们不利用目标文本作为附加上下文内容来建模复杂的 RDF 三元组。
为了解决这些问题,论文作者提出通过结合图编码器和基于图的三元组编码器来学习RDF三元组的局部信息和全局结构信息。
此外,研究人员还使用了基于Seq2Seq的自动编码器,以目标文本作为上下文来监督图编码器的学习。
WebNLG 数据集上的实验结果表明,研究团队提出的模型优于最先进的基线方法。
论文作者:高瀚宁、吴令飞、胡白、徐芳丽(吴令飞来自IBM研究院,徐芳丽来自易学教育-松鼠AI,其余作者来自华中师范大学)重要:资源描述框架(Resource Description Frameworks)是在结构化知识库中表达实体及其关系的通用框架。
根据W3C标准,每个RDF数据都是由(主语、谓语、宾语)形式的三个元素组成的三元组。
在自然语言生成(NLG)中,基于RDF数据的文本生成是一项具有挑战性的任务,由于其广泛的工业应用而备受研究人员的关注,包括基于知识的问答系统、实体摘要、数据驱动的新闻生成和更多。
“比如你有一个知识图谱,然后你需要构建一个问答系统。
比如你有SparQL(一种为RDF开发的查询语言),然后你查询知识图谱,它会返回一个RDF RDF是丑陋的,所以这篇论文的初衷是能否将这个RDF返回的答案转换为自然语言,以便人们能够自然地理解返回的答案意味着什么。
”作者之一吴凌飞说。
该论文来自 IBM 研究中心。
医生解释道。
挑战是什么:随着端到端深度学习,特别是各种Seq2Seq模型的巨大进步,基于RDF数据的文本生成取得了实质性进展。
但是,如果您只是将 RDF 三元组转换为序列,则可能会丢失重要的高阶信息。
由于RDF三元组可以表示为知识图,研究人员最近提出了两种基于图网络的方法,但两者都存在缺点:例如,基于循环神经网络的模型无法表达实体和关系之间丰富的局部结构。
信息,而基于改进的图卷积网络(GCN)的图编码器无法表达三元组内部和之间的全局信息。
核心贡献:为了解决上述问题,论文作者提出了一种新颖的神经网络架构,利用基于图的神经网络和上下文信息来尝试提高模型基于RDF数据生成文本的能力。
研究团队提出了一种基于图结构的新型编码器模型,结合GCN编码器和GTR-LSTM三元组编码器,对RDF三元组的多视角输入进行建模,并学习RDF三元组的局部部分。
和全局结构信息。
两个编码器都会生成一组节点表示。
GCN 生成的节点更好地捕获 RDF 三元组内的局部结构信息,而 GTR-LSTM 生成的节点主要关注全局结构信息。
研究团队通过结合 GCN 和 GTR-LSTM 节点,通过平均池化获得图嵌入来实现这一目标。
由于目标参考文本包含与三元组几乎相同的信息,研究团队随后使用基于Seq2Seq的自动编码器将目标文本作为辅助上下文来监督图编码器的学习。
实验结果:研究团队使用了WEBNLG数据集,该数据集由资源端三元数据集和目标端参考文本组成。
每个 RDF 三元组都表示为(主语、关系、宾语)。
整个数据集分为2个训练对、1个验证对和2个测试对。
实验采用WebNLG挑战赛的标准评估指标,包括BLEU和METEOR。
实验结果表明,研究团队提出的模型能够更好地编码RDF三元组的全局和局部图结构,并且该模型在WebNLG数据集上比其他基线模型高出约2.0 BLEU点。
此外,研究团队还手动评估了不同模型的结果。
他们发现涉及 GCN 编码器的模型在表达实体之间的正确关系方面表现更好;目标文本自动编码器和 GTR-LSTM 编码器在生成与 RDF 三元组之间的上下文信息相关的文本方面表现更好。
在进一步的研究中,研究团队发现他们提出的模型中有四个关键因素可能会影响生成文本的质量。
它们是目标文本自动编码器,有助于整合目标上下文信息;因子Ldis,可以最小化图形表达和文本表达之间的距离; GCN编码器和GTR-LSTM编码器,它们执行三元组局部和全局信息的编码。
最佳学生的论文:基于图神经网络的语义分析实证研究。
最佳学生论文的获奖者是来自南京大学、IBM研究院、乂学教育-松鼠AI的研究。
本文研究基于图神经网络的语义分析。
现有的神经语义解析器要么只考虑用于编码或解码的单词序列,要么忽略对解析目的有用的重要语法信息。
在本文中,论文作者提出了一种基于图神经网络(GNN)的新型神经语义解析器,即Graph2Tree,它由图编码器和层次树解码器组成。
论文作者:李书成、吴令飞、冯世伟、徐芳丽、徐丰源、钟升(吴令飞来自IBM研究院,徐芳丽来自易学教育-松鼠AI,其余作者来自南京大学)为什么这项研究很重要:作为自然语言处理(NLP)中的一个经典任务,语义解析(Sematic Parsing)是将自然语言句子转换为机器可解析的语义表示。
业界有大量基于语义解析的成熟应用,例如问答系统、语音助手、代码生成等。
近两年,随着神经编解码方法、语义分析模型的推出也发生了巨大的变化。
近年来,研究人员开始开发具有Seq2Seq模型的神经语义解析器,并且这些解析器取得了显着的成果。
挑战是什么:由于语义表示通常是结构化对象(例如树结构),因此研究人员投入了大量精力来开发基于结构的解码器,包括树解码器、句法约束解码器、语义图生成的动作序列以及基于抽象语法树的模块化解码器。
尽管这些方法取得了令人印象深刻的结果,但它们只考虑单词序列信息,而忽略了编码器端可用的其他丰富语法信息,例如依存树或短语结构树。
最近,研究人员展示了图神经网络在各种 NLP 任务中的重要应用,包括神经机器翻译、信息提取和基于 AMR 的文本生成。
在语义解析方面,研究人员提出了Graph2Seq模型,它将依存树和短语结构树与单词序列相结合,然后创建语法图作为编码输入。
然而,这种方法仅将逻辑形式视为序列,而忽略了解码器架构中结构化对象(例如树)中的丰富信息。
核心贡献:论文作者提出了一种基于图网络的新型神经语义解析器,即Graph2Tree,它由图编码器和层次树解码器组成。
图编码器有效地将由单词序列和相应的依存解析树或短语结构树构建的句法图编码为向量表示。
具体来说,研究团队首先将原始文本数据对应的语法关系自然地组合到输入序列中,形成图数据结构,然后使用图编码器从该图结构中学习高质量的向量表示。
树解码器从学习的图级向量表示中解码逻辑形式,并充分学习逻辑形式表示的构成属性。
同时,研究团队还提出在原始词标记对应的不同节点表示上计算单独的注意力机制,并解析树节点来计算解码树的结构化输出的最终上下文向量。
然后对其进行联合训练,以最大化给定语法图的正确描述的条件对数概率。
本文的一大特点是自然语言的输入和逻辑形式的输出。
双方都是结构化对象。
将输入的句子转化为语法图,然后进行输入。
逻辑形式是使用树解码器的结构化输出。
解码时,可以最好地利用隐含的结构化信息和输出时对象的特征。
此外,研究团队还研究了不同语法图架构对GNN语义分析性能的影响。
他们发现,由于依存树解析器或复杂短语结构树的缺陷,图架构引入的噪声信息和结构复杂性可能会对基于 GNN 的语义解析器的性能产生显着的不利影响。
实验结果:通过实验,研究团队希望回答几个问题:i)使用什么语法图可以使基于图网络的方法表现良好? ii) 通过正确构建的图形输入,Graph2Tree 与基线方法相比是否表现更好?研究团队在三个基准数据集:JOBS、GEO 和 ATIS 上评估了 Graph2Tree 框架。
第一个是工作列表数据库JOBS,第二个是美国地理数据库GEO,最后一个是航班预订系统数据集ATIS。
在JOBS和GEO数据集的对比结果中,研究团队观察到,无论使用哪种图结构类型,Graph2Tree在基于图输入生成高质量逻辑形式方面均优于Graph2Seq模型。
在图架构方面,如果CoreNLP工具产生的噪声导致语义解析错误,则两个解析器的性能都会下降,甚至无法与仅词序解析器进行比较。
同样,短语结构树的跳跃大小(即其结构复杂性)也对性能有很大影响。
如果结构信息过多或很少,解析器性能也会降低。
相反,当通过某种方法控制或减少输入引起的噪声时,Word Order + dependency number的性能可以得到显着提升;当选择正确的层时,词序+短语结构树的性能也可以得到提高。
例如,词序+短语结构树在单级切割中的逻辑形式准确性分别高于词序。
乂学教育-松鼠AI崔巍:自适应学习的图深度学习与知识图谱当天的研讨会由SIGKDD主席、京东副总裁裴健致开幕词,邀请了来自斯坦福大学、清华大学、加州大学洛杉矶分校、伊利诺伊大学香槟分校的嘉宾等待大学学者发表演讲。
松鼠AI松鼠AI首席科学家崔巍博士也受邀介绍了图深度学习和知识图谱在自适应学习方面的最新进展。
易学教育自主研发的松鼠AI智适应在线学习系统,能够持续监测和评估学生个体能力,发现学生学习中的弱点和不足,让学生按照自己的节奏进步,提高学习成果。
系统提供优化的学习解决方案和同步辅导支持,最大限度地提高学习效率,提高学生的知识、技能和能力。
多年来,我国教育的高级师资资源短缺和地域问题影响了优质教育的普及。
松鼠AI的愿景是通过人工智能打造超级教师,为万千学生提供定制化教学。
“每个孩子都值得拥有一位一对一的超级老师。
”崔伟说。
今年以来,乂学教育-松鼠AI自主研发了面向中国K12学生的智适应学习系统。
其主要目标是准确诊断学生对知识点的掌握情况,进而推荐个性化的学习内容和学习路径规划。
。
首先是学生知识点的掌握。
下图为松鼠AI某同学对物理知识点的熟练程度。
可以看到蓝色部分是学生已经掌握的部分,占80%;黄色部分是学生相对薄弱的知识点,占20%。
%。
如何准确了解学生对知识点的掌握情况?从数据的角度来看,松鼠AI可以利用学生的考试成绩、考试时长、考试难度和覆盖的知识点,甚至学生不同错误选项的选择以及学生的鼠标滑动行为,可以作为行为数据。
法官。
具体到松鼠AI的工作原理,崔巍表示,这款智能自适应引擎分为三层架构:本体层、算法层、交互系统。
本体层主要是基于内容的,包括学习目标本体、学习内容本体和错误原因分析本体。
松鼠AI自主研发超纳米级知识点分割,可以更精准地判断学生的知识点。
以初中数学为例,松鼠AI可以将每个知识点细化为3万个。
同时,松鼠AI基于类似贝叶斯网络的图谱关联相关知识点。
通过这项技术,可以模拟优秀教师的教学顺序和关系。
这种教学方法符合学生的认知规律和知识点的难易关系。
算法层包括内容推荐引擎、学生用户画像引擎、目标管理引擎等。

松鼠AI将结合用户状态评估引擎和知识推荐引擎构建数据模型,准确高效地衡量每个学生的知识漏洞,并根据学生的知识漏洞推荐相应的学习内容。
交互系统通过收集交互数据来更多地了解学生,包括管理系统、检测和预警系统以及实时事件收集器。
崔巍强调,基于人工智能的智适应学习系统采用了与传统教育完全不同的教学流程。
例如,在知识状态诊断方面,传统诊断是基于高频次检查,而松鼠AI的系统具有基于信息论和知识空间理论的知识状态诊断,可以准确定位知识漏洞。
传统的评估是基于分数或排名,传统的智能自适应评估是基于IRT、DINA、BKT和DKT模型。
这些模型的缺点是无法进行实时评估。
松鼠AI的系统基于贝叶斯理论,可以根据所有学生过去的记录进行连续、实时的评估。
在内容推荐方面,传统的推荐算法采用的是协同过滤算法,但这种算法并不适合教育领域,因为虽然每个学生的学习情况相似,但知识点不同,而协同过滤算法并不适用于教育领域。
算法不够准确,无法保证推荐内容的有效性。
松鼠AI利用神经网络根据学生的学习结果实现个性化推荐,并通过深度学习算法进一步提高个性化学习和推荐的准确性。
算法的优越性也体现在结果上。
两年来,松鼠AI在四场人机大战中击败了优秀老师。
截至目前,松鼠AI已在全国多个城市开设近10所线下学校,学生总数近万人。
乂学教育-松鼠AI目前融资总额近10亿元。
去年,松鼠AI还向数百万贫困家庭儿童捐赠了一万个账号,促进教育公平。
乂学教育-松鼠AI将于今年11月12-13日在上海中心举办第四届全球人工智能自适应教育峰会(AIAED)。
本次会议组委会主席是CMU计算机学院院长、机器学习教父。
汤姆·米切尔教授。
崔巍希望相关从业者能够以此为契机汇聚到一起,共同推动人工智能教育的进步。
第四届AIAED会议网站:雷锋网版权文章未经授权禁止转载。
详情请参阅转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-21
06-17
06-17
06-17
06-21
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态