首页 > 科技未来 > 内容

微软IJCAI2016演讲PPT:深度学习用在语义理解上不再难

发布于:2024-06-17 编辑:匿名 来源:网络

微软研究院在IJCAI奖励第一天的教程中谈到了自己将深度学习和深度神经网络应用于语义理解的一些心得和心得。

作为小娜、小冰的开发者,微软在自然预测的语义理解上无疑是很有造诣的。

而其早在1月份就开源其深度学习开发工具包CNTK的举动也表明微软确实想推动人工智能的发展。

这次,让我们通过Tutorial中PPT讲座的概述部分,来看看微软在他们最擅长的语义识别领域会与我们分享什么样的经验。

我们将PPT的文字翻译直接放在幻灯片中。

有兴趣的读者可以点击大图查看,不过你也可以直接查看我们在每张图片后面写的注释,这也可以帮助你理解微软的含义。

微软首先介绍了深度神经网络的简史。

如上图所示,它经历了技术爆发点、幻灭低谷、生产平台期、期望膨胀顶峰等几个阶段。

终于迎来了新的高潮。

2018年,深度学习成为麻省理工学院评选的年度十大科技突破之一。

从今年年初到今年,深度学习的学术研究也出现了爆发式增长。

它在NIPS会议上密集爆发。

典型证据是,主会场的相关研究参与者数量大幅增加,相关主题的指导性报告增加了3%以上。

《纽约时报》2017年的报道称“科学家在深度学习中看到了希望”被视为深度学习兴起的标志之一。

DNN 是一个全连接的深度神经网络。

简单地说,首先训练每个包含隐藏层的生产力模型,然后将它们组合成深度信念网络,然后添加输出并使用反向传播来训练 DNN 网络。

上图展示了微软基于深度学习的语义识别在各个领域的应用。

微软今天要讲的指南的重点并不是集中在语音识别或图像识别上,而是集中在语音文本的处理和理解上。

它分为5部分。

上图是一个需求分类问题的例子,比如输入一个问题: 丹佛 是市中心的一家寿司店,但是餐馆、酒店、夜店或者航班呢?这就需要搜索引擎进行更详细的分类。

微软IJCAI2016演讲PPT:深度学习用在语义理解上不再难

上图展示了单神经元模型的原理。

当输入一个X值时,该函数最终会通过逻辑回归对其进行分类,决定是否标记Y,并与预先准备的标签进行检查。

这样就完成了学习过程。

上图是单神经元模型,将数值转换为概率,然后将概率转换为非线性激活函数,然后进行逻辑回归。

上图中,微软给出了训练模型的思路。

由于它是一个仅由一个神经元组成的神经网络,因此方法比较简单。

待训练的数据集是由二维数组组成的对的集合。

训练参数的过程就是不断替换w来最小化损失函数。

具体方法是使用随机梯度下降来更新所有训练样本,直到函数收敛。

用单个神经元的网络来解决实际问题基本上是不可能的。

上图是一个多层神经网络的流程图,实际上和目前大多数神经网络的结构类似。

如果我们忽略下面的结构,只看输入层、顶层隐藏层和输出层,我们会发现这正是单神经元神经网络的架构。

包括下面的其他隐藏层之后,就是一个多层神经元结构。

将原始数据(词向量)输入到隐藏层,通过参数w的投影生成新的向量。

这个过程称为特征生成。

可见,标准机器学习流程与深度学习最大的区别在于特征训练的方法。

传统的特征训练需要开发者手动提取特征,比较累人。

深度学习可以自动从训练数据中学习特征。

看起来灵活多了,但代价是函数优化和参数选择的工作量会更重。

为什么要使用多个隐藏层?毫无疑问,添加隐藏层将使算法表现更好。

特征的学习和转换也更加灵活。

类似于深度学习用于图像识别时像素→边缘→纹理→主题→局部→整体对象的过程。

当深度学习用于文本分析时,也遵循字母→单词→短语→从句→句子→整个故事的过程。

训练层越多,这些特征的描述就越精确。

最终的提取效果会更好。

DNN有多种不同的表现形式,每种表现形式都有自己的应用场景和优势。

这里微软将其分为三大类和六个小类: 分类任务——从Y到X进行分类。

主要应用:多层感知器、卷积神经网络。

评分任务 - 通过计算 X 和 Y 的加权和进行评分。

主要应用:连体神经网络、深度语义相似度模型 文本生成任务:根据 DSSM 的值生成 Y)。

该模型通过使用由 X 和 Y 组成的文本流来计算语义相似度。

该方法是使用深度神经网络首先在潜在语义空间中建立x和y两个特征向量。

然后计算特征向量之间的余弦相似度。

上面两张图是具体的示意图。

展示了计算相似语义空间的方法,最后一张图给出了基于该方法的整个卷积DSSM网络的示意图和原理说明。

摘要:深度学习一度被认为不适合语义理解。

主要是因为单词之间的相似程度与其含义的相似程度几乎没有关系。

词汇的出现在一定程度上解决了这个问题。

现在,深度学习语义理解的障碍已经基本消失,微软这次提供的思路也是一个很好的借鉴。

我相信应用深度学习的语义理解程序的性能将会得到很大的提高。

雷锋网将持续关注IJCAI大会的最新消息,为您带来AI研究领域的最新动态。

欢迎继续关注。

微软IJCAI2016演讲PPT:深度学习用在语义理解上不再难

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 飞轮公司“Ctrlbox”获数千万元Pre-A轮投资,君翼注资

    飞轮公司“Ctrlbox”获数千万元Pre-A轮投资,君翼注资

    据投资界12月21日消息,SaaS套件开发商Ctrlbox近日获数千万元融资获得君翼的Pre-A轮投资。 ,本轮资金将主要用于产品技术的优化以及营销团队的开发和建设。 今年上半年,Ctrlbox获得海丰国际天使轮投资。 在企业服务SaaS领域,组件化并不是一个新鲜名词:为了快速交付并适应

    06-17

  • 雷蛇:2020年营收12.15亿美元,同比增长48.0%

    雷蛇:2020年营收12.15亿美元,同比增长48.0%

    雷蛇发布年度业绩报告。 报告显示,2019年,雷蛇营收为12.15亿美元,同比增长48.0%;归属于母公司净利润为6000美元,去年同期为亏损9000美元。

    06-17

  • 人工智能模型服务商布尔数据完成数千万元融资

    人工智能模型服务商布尔数据完成数千万元融资

    据投资界12月27日消息,据36氪消息,布尔数据正式宣布完成数千万元融资。 本轮投资方为杭州高新投资、华华投资瓯创投资。 此前,布尔数据于年底获得河山汇投资近千万元天使轮融资。 本轮融资将主要用于智能模型研究和产品开发,进一步完善公司生态建设。 布尔数据成立于2006年

    06-18

  • 飞机零部件公司ASCO遭遇勒索病毒,工业互联网成为网络攻击重灾区

    飞机零部件公司ASCO遭遇勒索病毒,工业互联网成为网络攻击重灾区

    易到汽车遭遇勒索病毒后不久,飞机零部件供应商再次被骗。 身后的黑客团伙会心一笑:天上飞的、地上跑的,谁都逃不掉。 据外媒报道,近日,全球最大的飞机零部件供应商之一ASCO遭遇勒索软件病毒,已导致四个国家的工厂停产。 ASCO隶属于全球实力最强的公司之一美国艾默生集团

    06-18

  • 低至10.00日元kWh!日本公布第8届FIT太阳能发电招标结果

    低至10.00日元kWh!日本公布第8届FIT太阳能发电招标结果

    6月18日,日本低碳投资机构公布了第8届FIT太阳能发电(kW规格以上)招标结果。 这次的招标情况与以往不同。 企业竞价电量高于设定的目标电价,公司最高中标电价也低于最高回收电价。 日本低碳投资机构通过增加投标数量,成功减少了电力投标数量。 此次有企业中标,中标电力为

    06-08

  • 明星创业-全天智慧伍景辉:赛道上共创,学生相互链接,构建创业价值的纽带

    明星创业-全天智慧伍景辉:赛道上共创,学生相互链接,构建创业价值的纽带

    创业的过程就像一条不断试错、反复实践、反复试错的路。 然而,如何找到试错的最小值,才是创业的关键。 对于伍景辉来说,“人工智能是数据的不断积累,共创是实现它的最佳途径”。 在试错、反复循环的实践中形成闭环,实现数据之间的积累关联和判断,形成自动可视化,由此产

    06-17

  • 金丹科技在创业板挂牌,募资6.38亿元

    金丹科技在创业板挂牌,募资6.38亿元

    据投资界4月23日消息,金丹科技在深交所创业板挂牌,公开发行10000股,发行价每股22.53元。 当日开盘后,金丹科技继续涨停。 截至4月22日收盘,金丹科技报收32.44元/股,当日涨幅43.99%,当日总市值36.63亿元。 金丹科技是河南省第82家A股上市公司。 本次创业板上市募集资金6

    06-17

  • 2020欧洲创投报告:总额下降4%,新增独角兽14家 -全球资讯

    2020欧洲创投报告:总额下降4%,新增独角兽14家 -全球资讯

    创头条Crunchbase整理的数据显示,2020年欧洲风险投资市场保持稳定,尽管一季度因疫情爆发遭遇投资放缓。 2018年,欧洲初创企业投资额达到1亿美元,较2017年的1亿美元仅下降4%,位居近十年第二位。 第四季度的投资步伐通常会放缓,但今年第四季度对欧洲初创企业的投资加速,

    06-18

  • 你在社交平台分享的照片下一秒可能会成为AI成人内容的提要

    你在社交平台分享的照片下一秒可能会成为AI成人内容的提要

    上世纪末的作品中《攻壳机动队》,全身被改造成了假肢的苏子质疑他是否还存在。 身体、记忆、与他人的关系,当这些东西可以被复制时,就不能用来作为物质生活的论据。 当人工智能歌手走红时,孙燕姿在回应中也提出了类似的观点。 你并不特别,你已经是可预测的,不幸的是你也

    06-21

  • 英特尔没有输给AMD和台积电,而是输给了自己

    英特尔没有输给AMD和台积电,而是输给了自己

    7月29日,英特尔发布财报后,股价下跌近9%,而AMD股价上涨超过3%,市值再次突破1亿美元。 英特尔(十亿美元),这一象征性信号在5天后AMD发布财报时得到强化。 一方面,英特尔公布了年初以来最差的财务业绩,营收同比下滑22%,达到1亿美元;另一方面,AMD营收连续第八个季度创

    06-17

  • 台积电拟向熊本子公司投资不超过52.62亿美元建设第二座晶圆厂

    台积电拟向熊本子公司投资不超过52.62亿美元建设第二座晶圆厂

    据台积电官网消息,2月6日,台积电发布公告称,根据台积电董事会决议,获准使用不超过52.62美元1亿美元对日本先进半导体制造公司(JASM)增资。 此外,还获准对子公司台积电亚利桑那州增资不超过50%美元。 据悉,JASM熊本晶圆厂将于今年年底开工建设,并于2020年投产,预计月

    06-06

  • 常程和他的非常规方程式

    常程和他的非常规方程式

    在常程的微博里,大约有20条“顿悟”。 他善于从许多不相关的事件中启发自己的困惑。 一杯茶,一本书,一本书。 一首歌,一抹夕阳,可以开启他的思考,他可以体会到许多无边的情怀。 常程的第一条微博只有十二个汉字:智能手机将是个人电脑真正的终结者。 常程于2016年3月20

    06-18