首页 > 科技动态 > 内容

空气 015 -微软亚洲研究院执行副院长芮勇：计算机视觉从感知到认知的长征

发布于：2024-06-17 编辑：匿名来源：网络

作为本次GAIR会议的重量级嘉宾之一，他同时也是微软亚洲研究院执行副院长、计算机视觉执行董事IEEE、IAPR、SPIE等世界级学术组织理事、CCF芮勇博士在今天下午的会议议程《机器学习浪潮下的巨头》中为我们带来了一些关于计算机视觉领域的见解最新的想法和思考。

芮勇-博士的报告主要分为三个部分：第一部分阐述了计算机视觉领域过去50年的发展，并指出今年我们仍处于从感知到感知的重要分水岭阶段。

认知，还没有完全步入认知的层面；第二部分分享了计算机视觉领域未来可能的发展方向；最后告诉我们让计算机视觉彻底从感知走向认知的三个关键因素。

50年的历史在第一部分中，芮勇和博士表示，对于只知道0和1两种状态的计算机来说，计算机视觉在过去的50年里主要经历了以下四个阶段：特征提取、图像标注、图像理解对图像的深入理解。

1、特殊提取是指从图像中找到主要特征像素并提取出来。

例如，如果在一张白纸上写了一个单词，那么“文本”的像素就是特征像素，需要提取。

2.图像标注也分为两小部分。

第一部分是图像分类。

一张图片输入到计算机中，计算机必须能够区分图片中的内容是人还是物体。

第二部分是像素级分类。

计算机可以根据图片的像素级别判断哪个像素属于人，哪个像素属于物体。

同时，芮勇和博士还提到了深度学习对图像标注的重大影响。

在2017年引入深度学习之前，图像标注的错误率高达28.2%。

自从引入深度学习网络分析模型以来，图像的机器标注错误率从2018年的16%（已经低于2016年之前）下降到2018年的3.5%，并且神经网络分析模型的规模还增加了层数，这在世界上是领先的。

3.图像理解是指当一张图片输入计算机时，计算机必须能够自动生成一句话自然语言描述。

例如，在一张合影中，计算机可能会输出：这是两个人在一起的照片。

4、对图像的深入理解意味着计算机不仅能够识别图像中的内容，而且能够知道图像中内容的具体情况。

我们以集体照为例。

计算机可能会这样描述：这是奥巴马和习近平的合影。

芮勇博士表示，目前这是完全可以实现的。

目前计算机覆盖的认知范围是世界上大多数名人和著名景点，例如白宫、天安门广场。

未来可能的发展方向在回顾了发展历程后，芮勇和博士还从以下几个角度分享了他对计算机视觉研究下一步发展的一些想法。

1.图片的隐藏含义。

例如，在一张大象追奥巴马的图片中，除了输出上述的自然语言描述之外，未来计算机或许还能够理解该图像的内涵。

比如大象和奥巴马的象征意义，以及美国大选中民主党和共和党的竞争等。

2、视频理解。

例如，如果你将视频输入计算机，计算机也可以输出自然语言描述。

芮勇博士表示，难点在于，视频中除了图像中横轴和纵轴的二维描述外，还添加了时间轴的三维描述。

因此，数学建模和数据分析与图像识别完全不同。

研究方法和难点。

3.使用图片聊天。

例如，如果你输入一张可爱的小狗的图片，计算机可能会回复：可爱。

4.用图片讲故事。

例如，将来，计算机可能会根据多个输入图像自动生成扣人心弦的故事。

3个关键因素最后，芮勇和博士揭示了计算机视觉彻底从感知走向认知的3个关键因素。

1.机器学习算法的进步。

行业需要更先进的算法和更深入的分析模型来促进计算机视觉的进一步发展。

2.各垂直领域科学家与从业者之间的合作。

除了计算机视觉领域本身的发展之外，计算机视觉与各个垂直领域的融合才能真正发挥在工程和商业上的作用，推动计算机诗歌的发展。

3、高质量的海量数据。

在大数据时代，高质量、海量的数据作为一切研究的基石也至关重要。

最后，芮勇博士总结道，如果能做到这三点，机器学习算法本身就会进步，垂直领域的研究人员和专家的合作也会越来越多，同时高质量的数据集也会越来越多，那么我们就能正式从感知走向认知。

以下为现场实录：很高兴有这个机会在下午和大家聊计算机视觉。

我的主题叫《计算机视觉从感知到认知的长征》。

我想回顾一下过去50年计算机视觉的发展。

今年也是人工智能一词诞生的第60个年头。

其实之前并没有这个词。

中国人把60年称为轮回。

轮回总会有大的飞跃。

我们来看看今年人工智能有哪些大事。

飞跃？人工智能从一开始就有很多领域。

我花最多时间研究的是计算机视觉。

人有多种感官，但70%的信息是通过人眼看到的。

计算机视觉也是人工智能非常重要的方向之一。

起初，大家都问计算机是否能像人眼一样看到东西。

我们可以看到这50年的发展，从社区到加工到识别到理解，就像我们画一幅画的时候，从最早的线条，到一定的灰度，到最后的全彩，你在这里面做了什么？过去50年？我们可以看一下，我想用这张图跟大家分享一下。

当人们看到一张图片时，他们会认为它非常简单。

我一看，就觉得是一个人，一张桌子，一把椅子。

人们立刻就明白了。

计算机很难看到它，因为计算机只能看到两件事。

0就是1，计算机很难看清图片中的内容。

过去 50 年，我们取得了长足进步。

从最早的特征提取来看，比如像这样的图片，它的特征包括线条、角点、颜色。

之后，第二步比这更高级，称为注释。

例如，这张图片是一个有人物的室外场景。

它比这更进一步，称为注释。

比这更进一步，我们对图片的理解就是Captioning。

如果我把这张图给计算机看，它能不能生成我们人类能听懂、能理解的文字，比如迪士尼乐园里的乔治和他的父亲？公园在玩游戏，可以说，这更加困难。

比这个稍微困难一点。

我给计算机这张图片，然后问计算机几个问题。

例如，坐在照片前面的人穿什么颜色的衣服？这时候，计算机需要知道一个人是什么，衣服在哪里。

它需要回答是红衣服，这就更难了。

比这更困难的是，我们小时候都上过课，叫看图读书、看图说话。

计算机看到图片后能生成故事吗？这是我们过去50年来一直在努力做的事情。

。

让我们回顾一下过去50年我们的进步。

第一步是特征提取。

计算机看到的就是除了0之外的1。

当然，有些像素更重要。

使用哪些像素进行提取非常重要。

比如这张图中，每个像素的重要性都是不同的。

圈起来的地方就是我们想用它们作为特征的一些地方。

再往下看，第二步我们要给一张图片打标签。

如果我们给它贴上标签，我们想知道，例如，图片中有两个人，他们正在户外活动。

这个怎么做？让我们看看它是如何完成的。

这是一个非常重要的部分。

它由三个部分组成。

第一部分是图片的分类。

此时我们要回答什么问题？这张照片里有小狗吗？第二个有点困难。

计算机还需要告诉小狗在哪里并将其框起来。

第三个就比较困难了。

每个像素能否告诉我这个像素是属于小狗上的像素还是电视上的像素？每一项都比另一项更困难。

这十年来有很多发展，让我们来看看。

第一步是图像分类。

有一个名为 ImageNet 的计算机视觉图像分类全球竞赛。

每个类别有 10,000 个训练样本和 100,000 个测试图像。

你让计算机看到它以前从未见过的图片。

，帮助您区分这是哪个类别。

几年前，在深度学习引入计算机视觉之前，让我们看看错误率。

右边的错误率为28.2%。

当深度学习首次应用于图像识别时，错误率下降到16.4%，并且错误率一年比一年低。

斯坦福大学有一个博士想挑战他。

如果我告诉你，狗有一千个类别，大约有两百种不同的种类，你就会知道这有多困难。

我只认识四五种狗，但要能够匹配上百种狗是非常困难的。

斯坦福大学的博士在一个房间里接受了几个月的训练。

他的错误率是5.1%，去年下降到3.5%，首次超过了人为错误率。

当深度学习于 2006 年首次引入计算机视觉时，具有八层，其错误率有所下降。

再往下，2017年达到了第19层，错误率持续下降。

到2016年，研究所的同事已经建立了一个19层的极深网络。

大家都觉得再深入一点也没什么大不了的。

事实上，想要深入下去是非常困难的。

在今年之前，世界上很少有队伍能够达到20级以上，因为他们无法接受训练，所以这是一个非常好的工作。

使用神经网络，不仅每一层都可以延伸到下一层，有些还可以在它们之间跳转。

这是对图片的分类，解决的问题是图片中是否有小狗。

更困难的是检测小狗在哪里以及物体在哪里。

七八年前，世界能达到的最好成绩就是这样。

今天，通过深度学习，已经可以达到这个水平了。

看看最左边的那位女士。

她只露出一点肘部和一点腿。

再往下看，我们向这辆大巴士后面的司机解释说，这是一个人。

现在已经达到了可以与人类视觉水平相媲美的程度。

比物体检测更困难的是，在图片的每个像素中，该像素属于小狗还是属于屏幕？我们可以看一下今天的深度学习方法，我们已经可以实现像素级的图像分割这种水平了。

大家可以想一想，如果我们能够达到这个水平，未来无论是无人机还是无人驾驶，很多应用都可以使用。

这就是我刚才提到的第一个问题，就是物体的识别。

比这更困难的是我们是否理解它以及计算机是否理解某个图片。

让我们来看看。

Beyond 远远超出了计算机视觉的范围。

如果只是用最近的方法去搜索的话，其实是看不懂的。

例如，如果您的输入之一是左边的人，它将从搜索引擎返回右边的人。

这是不理解，也不考虑。

理解。

什么是真正的理解？我向计算机展示了这样的图片，它可以生成一个句子，说本和他的爸爸正在迪士尼乐园玩耍。

如果我让电脑看这样一张图片（一个人打网球的图片），我想和你进行一个小小的互动。

在这个具体问题上，能否超越图灵测试，有两句话：一句话叫一个人在网球场上，手里拿着网球拍。

第二句话：有一个人在网球场上打比赛。

你认为这两句话哪一个是人写的？哪个是机器写的。

（大家举手后，显示比例基本都是50%对50%）接下来我们看看哪个是人写的，哪个是机器写的。

上面是机器写的。

如果这里大家都是50%的话，就已经可以通过图灵测试了。

让我们尝试另一个问题。

上面停着一辆自行车。

有两句话。

一句是河边停着一辆自行车，第二句是水体旁边停着一辆自行车。

哪句话是电脑写的？（现场大多数人选择了第二句话）现在大多数人都认为下面这句话是电脑写的。

我们看一下，下面是一个人写的。

我们再次通过了图灵测试。

这是向计算机展示一张图片，它会生成这样一个句子。

比这更困难的是，前段时间奥巴马一家带着孩子来看望。

如果我们让计算机看到这样一张照片，如果它只是告诉我有多少张照片，那么亲自拍照就没有意义了。

如果有能力的话，告诉我，萨莎·奥巴马、米歇尔·奥巴马、彭丽媛，可能我们第一个50万人能认出他们是谁，我们就生成了一句话，这些人在故宫前。

拍照已经可以达到这个水平了。

再往下看，可能就没有那么多时间讲具体的算法了。

但基本上，从名人到特定物体，这样的自然语言都可以通过各种深度学习方法生成。

我们再往下看。

这就是整个过程。

没必要花时间看算法之类的。

你已经可以让计算机看到一张图片并说出一句像样的句子了。

接下来你可以去哪里？我认为至少有四个方向可以走。

第一个方向是讲语义层面，往上走，我们能不能想到一些没有说出来的意思，但是可以推断出来。

其次，如果我们给它看一个视频，它也可以说一句话，走更长的时间。

第三个是它可以和我聊天。

第四个我可以问他具体问题，他可以回答。

第一个，再往上走，如果我给电脑展示这样一个图，今天能达到的水平就是这样。

前面有一群大象和一个人。

这是我们以前能够达到的水平。

今天能做到的水平，因为有实体，我们可以说奥巴马旁边有一群大象，因为我们可以识别这个人就是奥巴马。

我们希望达到什么水平？它有一些扩展的含义。

当我们人们看到这一点时，我们可以想到很多引申的含义。

今年恰逢美国总统大选年。

民主党是驴，奥巴马是民主党，共和党是大象。

这意味着奥巴马遭到部分共和党候选人的排斥。

在追求追赶的过程中，如果我们以后能够生成这样一句话，那么我们对图片的理解就真的达到了认知的水平，只是我们还没有达到。

第二个，Go long，我们给它看一个视频，它也可以生成一个句子。

当然这里面还有很多算法。

具体算法我就不一一介绍了。

基本上，它使用深度学习网络，然后目标函数内部由两个相互堆叠的新级别组成。

这是我提到的两个方向。

一是讲述隐形的含义，二是用文字的形式表达视频。

第三个我要提的是，比如说我们今天和小冰聊天。

如果我们输入文字，它也可以回复文字。

如果我们上传图片给它，它也能和我们聊天吗？今天它也能做到这一点。

它今天能达到的水平是，如果我上传一张图片，它就会说眼睛太锐利了，就像人在聊天一样，它已经可以达到这个水平了。

例如，如果你想炫耀你的六块腹肌，它会告诉你，你叔叔很棒。

不仅可以文字聊天，还可以图片聊天。

这一切都归功于我们计算机视觉技术和深度学习的发展。

第四个方向，我会多花一点时间讲。

我认为这是一个非常有趣的方向，不仅对于科学研究和工业而言。

这就是所谓的视觉问答。

我问计算机一个问题，自行车篮里有什么？我们希望答案是狗，但这很难做到。

你首先知道自行车在哪里，篮子在哪里，篮子里有什么。

这并不容易，但今天我们拥有做到这一点的技术。

。

怎么做？让我稍微提一下这个算法。

四个部分，两个输入。

第一个是你问的问题是什么。

你问的问题是自行车车篮里有什么。

这是一句话，这是第一步。

第二步是同时向计算机显示一张图片。

有一个图像模型。

当我们使用深度学习对两个不同的模型做了两次之后，我们知道与这个问题最相关的部分是明亮的部分。

，这就是问题出现的地方。

如果你知道这个领域和这个问题之间的关系，你就有很大概率知道答案。

还有更多例子可以和大家分享。

例如，我们让计算机看这张图片并询问：空荡荡的海滩上两把蓝色椅子之间的物体是什么？这就是它的回答过程，第二层重点关注伞，太阳伞。

还有更多的例子，泥泞的土路上拉着马车算什么？答案是马在拉车。

右边那个，篮子是什么颜色的？答案是红色的。

右下角的女士戴着两个红色的牛角。

答案是红色的。

她知道牛角的颜色是红色的。

这些是我们今天可以通过计算机视觉回答问题的水平。

我刚刚回顾了过去50年计算机视觉的发展，从最早的特征提取，包括直线和角点，到说这是一个室外场景，场景里有人，再到说这个人叫什么名字这张图中是，要生成一个句子来描述这张图，我刚才提到的Visual QA还有很长的路要走。

也就是说，当我们看到图片时，我们可以讲一个故事。

这就是我们未来要做的事情。

我今天的主题叫《计算机视觉从感知到认知的长征》。

大家都知道长征。

最早始于江西瑞金。

一个非常具有里程碑意义的事件就是遵义会议，最后成功到达了陕甘边区。

今天的计算机视觉也是一场长征。

，但尚未到达陕甘边境地区。

今年我们取得了伟大成就，就像遵义会议的成就一样，但未来还有很长的路要走。

这是长征的一部分。

最终如何到达陕北，至少可以想到三个方向。

首先是计算机学习算法本身。

“深度学习”这个词现在很流行。

如今，深度学习之所以非常成功，是因为有好的算法。

让我们到达陕北的第一个非常重要的就是计算机学习算法。

第二个就是我们需要一些计算机科学家，我们也需要和一些垂直行业的朋友一起来做这件事。

例如，我们与金融领域的朋友合作。

正如杨强今天早上所说，我们可以预测股票。

空气 015 -微软亚洲研究院执行副院长芮勇：计算机视觉从感知到认知的长征

市场。

如果和懂得医学知识的朋友一起合作，是不是可以做出更精准的医疗呢？如果我们和植物所的朋友合作，能不能做出一朵可以用手机拍照的花或树？你知道这朵花的名字、这棵树的名字以及它最初来自哪里吗？我想说，这样做的目的是除了机器学习专家之外，还和很多垂直行业的专家合作。

第三，我认为右下角的圆圈同样重要。

我们需要高质量的数据。

如果我们能做到这三点，机器学习算法本身的进步，我们与行业专家的合作等等数据的获取，我们就可以从瑞金经遵义到达陕北。

谢谢你们！主持人：下面的观众刚才问了一个问题。

事实上，你最后一页的PPT就是最好的答案。

它讲的是计算机从视觉感知转向认知需要什么条件。

但我还有一个问题，因为你刚才给的是图片。

如果你提供一个视频，你会得到什么样的结果？如果你不这样做，你能想象它会带来什么吗？希望和挑战？芮勇：你可能没有太注意。

我把图片变成文字后，我讲了四个方向。

把视频放进去后，今天就可以做。

但视频中确实存在很多挑战，因为在做图片分析的时候，是用2D来做的，而且视频是有时间轴的，所以如果需要3D视频学习方法，也是可以解决的。

站长声明

标签：

上一篇：纽约奢华健身品牌Equinox完成新一轮18亿美元融资

下一篇：苏州人才基金正式成立，初始规模2.1亿元

首次发布 -中为资本宣布完成超30亿元融资

据12月8日消息，中为资本正式宣布今年11月完成新一轮超30亿元融资，新一期美元资金超过募集总额。将达到4.5亿美元。此次在疫情期间克服困难成功募资，创下了中为资本成立以来最大的年度规模。将继续投资工业互联网、新消费领域的早期成长期企业。值得一提的是，新一期美元

06-17
凭借募资、投资管理、退休六项大奖，兰驰创投荣登“钛媒体2022先锋榜”

岁末年初，钛媒体于近日正式发布了年度先锋榜。该榜单以数据为首要评选标准，重点关注募资、投资、管理、退出四个维度，按照综合分排名。蓝驰创投凭借扎实的业绩，斩获募资、投资、管理、退出、细分领域六大奖项：年度募资先锋TOP22 年度投资先锋TOP22 退出先锋TOP22 投后

06-18
精锋医疗完成近6亿元B轮融资，由继峰资本、康基医疗

投资圈（ID：pedaily）领投 1月22日消息，据动脉网消息，深圳精锋医疗科技有限公司已完成近6亿元B轮融资。药明医疗股份有限公司（以下简称“药明医疗”）宣布完成近6亿元B轮融资。本轮融资由济峰资本、康基医疗（7.HK）领投，老股东三正健康投资、国策投资联合跟投。、祥峰

06-17
智慧供应链解决方案提供商“Euromonitor Data”获得A+轮融资

据投资界12月26日消息，专注于时尚商品大数据挖掘与应用的公司Euromonitor Data（oIBP）获得A+轮投资。，投资方为银杏谷资本。据官网介绍，Euromonitor Data（oIBP）是一家专注于时尚产品大数据挖掘和应用的公司。欧睿数据自成立以来，已为众多国内外时尚企业提供数据、算

06-18
百元大衣在这个小县城里一炮而红，

三门第一代服装人开创了一条致富之路。这段时间，潘女士的手机几乎被电话淹没。现任三门夹克协会会长。因为夹克的流行，他也间接成为了“红人”。浙江台州三门县是中国最大的夹克产业带。 20世纪90年代，一群三门老乡带着几件手工绣花衣服北上摆摊。后来，他们嗅到了夹克

06-18
Apple Watch Series 7 评测：相同还是截然不同？

此评论为视频内容。欢迎您前往Bilibili观看以下视频的逐字版本，该视频已稍作修改。我对 Apple Watch Series 7 的第一印象是，今年我的脸越来越大、越来越圆了。边框缩小了40%，从3mm缩小到1.7mm，显示面积也增加了20%。屏幕和外壳的四个角都经过了优化，看起来更加圆润。

06-21
农田管家获智易资本领投1000万美元Pre-B轮融资

据投资界1月9日消息，互联网农业服务平台农田管家近日获得1000万美元Pre-B轮融资，领投智易资本、顺为资本、纪源资本、戈壁创投、云启资本、真格基金跟投。　　农田管家成立于今年4月，两年内已获得四轮融资。顺为资本、纪源资本、戈壁创投、云启资本为前三轮投资者。具体

06-18
工业和信息化部：推动电子烟监管法治化，增强电子烟监管有效性

工业和信息化部公告《关于修改的决定（征求意见稿）》，在补充规定中增加一条作为第六十五条： “电子烟等新型烟草制品参照本条例中关于卷烟的规定。 “相关规定已执行。 ”此次修订主要是落实党中央、国务院关于推进电子烟监管法治化的要求，明确电子烟等新型烟草制品监管的

06-17
新闻 -专注机器视觉技术，久保智能机器人完成1100万美元A++轮融资

据投资界8月15日消息，久保智能机器人宣布完成1万美元A++轮融资。本轮由南天盈富资本投资，网宿科技领投。据了解，该笔资金将用于行业产品的研发和应用以及北美、欧洲行业市场的深度开发。　　Kobotics于今年11月成立。是一家专业从事机器视觉技术的高新技术企业。总部

06-17
「洞察科技」获数千万元Pre-A轮融资

深圳市洞察智能科技有限公司于年初完成Pre-A轮融资。本轮主要投资方为元启资本和飞凡创投，鑫源资本等老股东跟投，金额数千万元。本轮融资后，我们将继续进行技术研发和应用场景的生态建设。

06-18
【全球财经24小时】2023年8月1日投融资事件汇总及明细

今日全球市场共发生19起投资披露事件，其中境内14起，境外5起。其中，国内先进制造业7例，医疗健康行业3例，人工智能行业1例，企业服务行业2例，教育行业1例。涉外企业服务行业1起，游戏行业1起，教育行业1起，金融行业2起。国内事件 1、浙江荣泰今日挂牌上市，发行价格15

06-18
华夏银行持续发力绿色金融创新，支持未来能源产业高质量发展

中新网上海6月29日电 (范中华)28日下午，在“聚焦上海市经济和信息化委员会举办的“上海智造”未来能源专题活动“共创产业未来”，华夏银行上海分行作为协办单位，邀请华夏银行绿色金融中心总行就未来能源产业发展、前沿项目、专项金融支持等话题进行分享。　　据了解，华

06-18