首页 > 科技未来 > 内容

反思深度学习与传统计算机视觉的关系

发布于：2024-06-18 编辑：匿名来源：网络

雷锋网注：【图片来源：谷歌所有者：Google】如今，深度学习在很多领域都占有一席之地，尤其是在计算机视觉领域。

尽管很多人对它着迷，但深网是一个黑匣子，我们大多数人，甚至是接受过该领域培训的科学家，都不知道它们实际上是如何工作的。

大量与深度学习相关的成功或失败案例给了我们宝贵的教训，教会我们如何正确处理数据。

在这篇文章中，我们将仔细研究深度学习的潜力、它与经典计算机视觉的关系，以及将深度学习用于关键应用的潜在危险。

简单和复杂的视觉问题首先，我们需要对视觉/计算机视觉问题有一些看法。

原则上可以理解为，给定一张由相机拍摄的图像，并允许计算机回答与图像内容相关的问题。

问题的范围可以从简单的问题（例如“图像中是否有三角形”、“图像中是否有一张脸”）到更复杂的问题（例如“图像中是否有狗在追猫”）。

虽然这些类型的问题对人类来说可能看起来相似甚至微不足道，但事实证明它们隐藏的复杂性存在巨大差异。

虽然回答“图像中是否有红色圆圈”或“图像中有多少个亮点”等问题相对容易，但其他看似简单的问题（例如“图像中是否有猫”）要复杂得多。

“简单”视力问题和“复杂”视力问题之间的区别很难区分。

这是值得注意的，因为上述问题对于人类这种高度视觉的动物来说都不够困难，甚至对于儿童来说，回答上述视觉问题也不难。

然而，变革时期的深度学习无法回答这些问题。

传统计算机视觉 V.S.深度学习传统计算机视觉是一系列算法的广泛集合，允许计算机从图像中提取信息（通常表示为像素值数组）。

目前，传统的计算机视觉有很多用途，例如去噪、增强和检测不同的物体。

一些用途旨在寻找简单的几何基元，例如边缘检测、形态分析、霍夫变换、斑点检测、角点检测、各种图像阈值技术等。

还有特征表示技术，例如定向梯度直方图，可以用作前端-机器学习分类器最终可以构建更复杂的检测器。

与普遍的看法相反，上面讨论的工具可以组合起来创建强大而高效的特定于对象的检测器。

除此之外，我们还可以构建人脸检测器、汽车检测器、路标检测器，这些检测器在准确性和计算复杂性方面可能优于深度学习。

问题是，每个探测器都需要由有能力的人员从头开始构建，效率低下且成本高昂。

因此，从历史上看，高性能探测器仅适用于那些必须经常检查且前期投资合理的探测器。

其中许多探测器是专有的，不向公众开放，例如面部探测器、车牌读取器等。

但头脑清醒的人不会花钱编写狗检测器或分类器来从图像中对狗的品种进行分类。

所以，深度学习就派上用场了。

对优秀学生的启发假设您正在教授计算机视觉课程。

前半段课程，你要带领学生复习很多专业知识，然后留出时间给学生完成任务，就是收集图像内容和提出问题。

任务从简单开始（例如询问图像中是否有圆形或正方形）到更复杂的任务（例如区分猫和狗）。

学生每周编写计算机程序来完成任务，而您负责查看学生编写的代码并运行它以查看其性能如何。

这个学期，你们班来了一位新学生。

他很安静，不爱交际，也不问任何问题。

但当他提交第一份任务提案时，你有点惊讶。

新生的代码难以理解，你从来没有见过类似的东西。

看起来他用随机过滤器对每张图像进行了卷积，然后使用非常奇怪的逻辑得到了最终答案。

您运行了这段代码，它运行得很好。

尽管这个解决方案很不寻常，但你心里想，只要它有效就足够了。

随着时间的推移，学生需要完成的任务变得越来越困难，并且你从新学生那里得到的代码也越来越复杂。

他的代码出色地完成了越来越困难的工作，但你无法真正理解发生了什么。

在学期结束时，您给学生布置了一项作业，要求他们使用一组真实图片来区分猫和狗。

结果，没有学生能够在这项任务上达到超过 65% 的准确率，但新生编写的代码准确率达到 95%，这会让你感到惊讶。

在接下来的几天里，你开始深入研究那些难以理解的代码。

你给它新的例子，然后进行修改，尝试找出影响程序决策的因素，并对它们进行逆向工程。

最终你得出一个非常令人惊讶的结论：代码检测到狗牌。

如果它可以检测到标签，那么它就可以判断物体的下部是否是棕色的。

如果是，则返回“cat”，否则返回“dog”。

如果无法检测到标签，则会检查物体的左侧是否比右侧更黄。

如果是，则返回“dog”，否则返回“cat”。

您邀请新学生到您的办公室并向他展示结果。

你问他是否认为自己真的解决了问题？沉默良久，他终于自言自语道，他已经解决了数据集中显示的任务，但他不知道狗长什么样，也不知道狗和猫有什么区别……显然，他作弊是因为他解决任务的目的与你想要的目的无关。

然而，他并没有作弊，因为他的解决方案确实有效。

然而，其他学生的表现却不尽如人意。

他们试图通过问题来解决任务，而不是通过原始数据集。

虽然他们的程序运行得不太好，但是并没有犯什么奇怪的错误。

深度学习的祝福和诅咒深度学习是一种使用称为梯度反向传播的优化技术来生成“程序”（也称为“神经网络”）的技术，就像上面故事中的学者所写的那样。

这些程序是相同的。

这些“程序”和优化技术对世界一无所知，它所关心的是构建一组转换和条件，将正确的标签分配给数据集中的正确图像。

虚假偏差可以通过向训练集中添加更多数据来消除，但由于有数百万个参数和数千个条件检查，反向传播生成的“程序”可能非常庞大且复杂，因此它们可以锁定具有更细微偏差的组合。

任何通过分配正确标签来统计优化目标函数的方法都可以使用，无论它是否与任务的“语义精神”相关。

这些网络最终能否锁定“语义正确”的先验？当然。

但现在有大量证据表明这些网络并不是这样做的。

相反的例子表明，对图像进行非常小的、难以察觉的修改可以改变检测结果。

研究人员研究了经过训练的数据集的新示例，结果表明，原始数据集外部的泛化能力比数据集内部的泛化能力弱得多，从而表明网络所依赖的给定数据集具有特定的低级特征。

在某些情况下，修改单个像素足以产生新的深度网络分类器。

在某种程度上，深度学习的最大优势在于它能够自动创建没人想到的特征。

这也是它最大的弱点，因为这些功能中的大多数至少在语义上是“可疑的”。

什么时候有意义，什么时候没有意义？深度学习无疑是计算机视觉系统的一个有趣的补充。

我们现在可以相对容易地“训练”探测器来探测物体，否则这些探测器将变得昂贵且不切实际。

我们还可以在某种程度上扩展这些检测器以使用更多的计算能力。

但我们为这种奢侈付出的代价是高昂的：我们不知道深度学习如何做出判断，但我们确实知道分类的基础很可能与任务的“语义精神”无关。

此外，只要输入数据违反训练集中的低级偏差，检测器就会失败。

这些故障情况目前未知。

因此，在实践中，深度学习对于错误不是很严重并且保证输入与训练数据集不会有显着差异的应用非常有用。

这些应用程序可以容忍 5% 以内的错误率，包括图像。

搜索、监控、自动化零售以及几乎所有非“关键任务”的东西。

讽刺的是，大多数人认为深度学习是应用领域的一场革命，因为深度学习决策是实时的，错误很大，甚至可能导致致命的结果，例如自动驾驶汽车、自主机器人（例如，最近的研究表明，基于深度神经网络的自动驾驶确实容易受到现实生活中的对抗性攻击）。

我只能将这种信念描述为对“不幸”的误解。

一些人对深度学习在医学和诊断领域的应用寄予厚望。

然而，在这方面存在一些令人担忧的发现，例如针对一个机构的数据的模型无法很好地检测另一个机构的数据。

这强化了这样的想法：这些模型捕获的数据比许多研究人员希望的要浅。

数据比我们想象的要浅令人惊讶的是，深度学习教会了我们一些关于视觉数据（通常是高维数据）的知识，这是一个有趣的想法：在某些方面，数据比我们以前想象的“浅”。

“多得多。

”似乎有更多的方法可以统计分离标有高级人类类别的可视化数据集，然后有更多的方法来分离这些“语义正确”的数据集。

换句话说，这组低级图像特征比我们想象的更具“统计显着性”。

这是深度学习的伟大发现。

如何生成“语义上合理”的方法来分离视觉数据集模型的问题仍然存在，事实上，这个问题现在似乎比以前更难回答。

结论深度学习已经成为计算机视觉系统的重要组成部分。

但传统的计算机视觉还没有走到这一步，它仍然可以用来构建非常强大的探测器。

这些手工制作的检测器可能无法在某些特定数据集指标上实现深度学习的高性能，但可以保证依赖于输入的“语义相关”特征集。

深度学习在不牺牲特征工程的情况下提供了统计上强大的检测器，但仍然需要大量标记数据、大量 GPU 和深度学习专家。

然而，这些强大的探测器也会遭受意想不到的失败，因为它们的应用范围无法轻易描述（或者更确切地说，根本无法描述）。

反思深度学习与传统计算机视觉的关系

需要说明的是，上述讨论与“人工智能”中的AI无关。

我不认为深度学习之类的东西与解决人工智能问题有任何关系。

但我确实认为，将深度学习、特征工程和逻辑推理相结合可以在广阔的自动化领域实现非常有趣和有用的技术能力。

详情请参阅转载说明。

站长声明

标签：

上一篇：“品宅装饰科技”完成数千万元A轮融资

下一篇：小米进军造车新势力，云之声上市暂停

放弃高考的80后今天敲响了IPO的钟声：市值2400亿

，蔚来独缺李斌。据投资界8月12日消息，理想汽车今日在港交所正式挂牌上市，完成双重上市征程。 IPO发行价为每股港元，开市平平，市值1亿港元。这是继小鹏汽车之后又一支回港上市的造车新势力。不出意外，蔚来也在路上。出生于20世纪80年代的李想是理想汽车背后无可争议的

06-18
专注于脑卒中智能诊疗业务的强联智创完成数千万元B+轮融资

今日，专注于脑卒中智能诊疗业务的强联智创宣布，近日已完成数千万元B+轮融资。完成数千万元B+轮融资。本轮融资由博远资本、元盛创投、联想创投联合领投。据介绍，本轮募集资金将用于强联智创多个智能诊疗产品的临床试验，并围绕出血性中风和缺血性中风构建从诊断、治疗到

06-18
针对专精特新企业，创业黑马打造全国首个“北交所IPO加速器”

每一个成功的企业都是时代的企业。如果说过去几十年中国造就了一批敢于走出去、敢于颠覆、敢于创新的互联网精英，那么中国商业的主流语境如今已经进入了“京汇时代”。 “北交所”不仅仅是一个证券交易所，更是一个新时代的象征。它代表全社会，对中小企业提出了新的要求—

06-18
国内VC第一枪：天图投资即将IPO

猝不及防，天图投资即将IPO。 5月19日，证监会国际部披露了深圳天图投资管理有限公司提交的《股份有限公司境外首次公开发行股份(包括普通股、优先股等各类股票及股票派生的形式)审批》材料，经投资界核实确认，总部位于深圳的天图投资已正式启动上市在香港。在我的印象中，这

06-18
新航路医疗完成2亿元A轮融资，龙磐投资、礼来亚洲基金共同领投

投资圈（ID：pedaily）据8月1日消息，电生理科新航路医疗科技有限公司全球创新平台公司（“新航路医药”）宣布完成A轮融资。本轮融资由龙磐投资和礼来亚洲基金（LAV）联合领投，融资总额达2亿元人民币，大幅超过公司原定融资计划，本次融资将为新航路医疗推动多个重磅电生理

06-18
科技部：未来15年中国将建成世界科技强国

在6月3日浦江创新论坛政策论坛上，科技部政策法规和创新体系建设司司长解敏科技部表示，国家科技创新将在未来15年进行。方向很明确，就是建设世界科技强国，实现科技自力更生、自力更生，通过自力更生、自力更生支撑我国高质量发展。依靠高质量的科学技术。

06-17
甜蜜伴侣获数千万元Pre-A轮融资

3月26日消息，据36氪报道，女性旗下在线陪伴社交平台“甜蜜伴侣”宣布完成数千万元Pre-A轮融资轮融资。投资方为泥都资本和建明资本。公司此前曾获得灵魂天使投资人杜欣的战略投资、元气森林创始人唐彬森的挑战者资本、北塔资本的天使轮融资、女性最大情感电台成艺电台的战略

06-17
趣店出资1亿美元入股寺库，将持股28.9%，成为第一大股东

据投资界6月3日消息，金融科技服务公司趣店集团与奢侈品服务平台寺库联合发布公告称，趣店将入股寺库。将以不超过1亿的价格认购最多10,000股寺库新发行的A类普通股。交易完成后，趣店将持有寺库约28.9%的股份，成为其第一大股东。此外，双方还将在全球奢侈品电商领域开展

06-17
继挪威之后，又有一个国家要求“编辑好图片后直接说出来”

随着Instagram、TikTok等社交平台的用户数量不断增加，且越来越商业化，它们对日常生活的影响力已经超乎想象。影响之一是“社会比较”。为什么荧幕上的这个人那么年轻那么漂亮，我却怎么努力都做不到？ ▲ 虚构的人物小密克拉。虽然差距并不完全是修图造成的，但还是有人

06-21
猎豹移动第二季度财报：净利润达8249万，游戏收入近3亿猛增109%

北京时间8月20日，猎豹移动（代码：CMCM）发布第二季度财报。财报显示，猎豹移动总营收9.7亿，归属股东净利润1万，Non-GAAP归属股东净利润1万。受益于小宝AI翻译棒、智能服务机器人以及AI赋能业务，猎豹移动本季度AI等收入达到万元，同比增长0.2%；同时，基于《砖块消消消》

06-18
曼联已经放弃亚洲IPO准备，准备赴美上市，承销商阵容变动

北京时间6月13日晚间消息，路透社周三援引知情人士消息称，曼联已经放弃亚洲IPO计划，目前正准备赴美上市。　　曼联的上市之路充满波折。该俱乐部最初考虑在香港上市，后来计划于去年下半年在新加坡上市，融资至多10亿美元。但由于市场动荡，该计划已被搁置。　　随着上

06-18
生物科技创新药公司“循环医学”完成数千万元Pre-A轮融资

投资界（ID：pedaily）6月9日消息，近日，生物科技创新药重点开发肿瘤免疫相关药物药品企业北京循环生物医药研究有限公司（以下简称“环源医药”或“环源医药”）宣布完成数千万元Pre-A轮融资。本次融资由多闻资本基金管理（北京）有限公司（以下简称“多闻资本”）独家投资

06-18