首页 > 科技未来 > 内容

AI如何帮助你成为“画家” -雷锋网公开课

发布于：2024-06-17 编辑：匿名来源：网络

人工智能滤镜一度火爆朋友圈、Prisma、电影《你的名字》同样的滤镜是一样的，但人工智能在图像方面的进步远不止这些。

除了打造“艺术滤镜”，人工智能还可以帮助用户按需生成图片、添加纹理、对原本像素较差的图片进行超分辨率处理，助你成为“画家”。

所使用的技术也与最近流行的“生成对抗网络”（GAN）有关。

本次公开课，雷锋网邀请了图谱科技机器学习工程师Vincent，为大家揭秘AI助你成为“画家”。

Vincent在英国学习了两年。

回国后，他作为机器学习工程师加入TUP。

他参与了多个TUP产品的研发，并发誓要从事深度学习至死不渝。

嘉宾介绍：Vincent，图谱科技机器学习工程师，主要从事工业级深度学习算法的研发。

曾任摩根大通欧洲技术中心分析师、IBM爱丁堡办事处分析师。

熟悉自然语言处理（文本分类、语言模型等）、图像转换（艺术滤镜、图片着色等）和分类算法。

以下内容章节均来自公开课分享整理。

｜深度神经网络在图像识别领域的进展。

自从2016年Alexnet出山，一举拿下ImageNet图片分类竞赛冠军后，深度学习一路飙升。

以卷积网络为首的深度神经网络不断刷新着各种计算机视觉。

任务的最新技术。

在过去的四五年里，我们可以看到学术界不断开发出各种结构的卷积神经网络。

而且，这些结构不仅基于Alexnet深厚的数学基础，而且是他们自己的学派。

每个人都有自己的优势。

本次公开课重点分享三种神经网络结构： Network in Network（NIN，网络中的网络）：卷积网络是线性运算，非线性表现能力有限。

NIN的开发者设计了一种结构比传统卷积网络更复杂的操作——MLPconv，并使用Globalaveragepooling大大提高了卷积网络的规模。

VGG 和 GoogLeNet (inception_v1)：这两个是 2018 年 ImageNet 竞赛的两位英雄。

VGG的设计理念全部采用3x3卷积，增加了网络的深度。

GoogLeNet属于Google的Inception系列，采用了更加花哨的网络设计，降低网络的计算复杂度，加快训练速度。

Resnet（深度残差网络）：根据通用逼近定理，我们可以使用一层神经网络实现任意维度到维度的映射，但是网络的参数量（网络的宽度）会随着问题复杂度的增加变得非常大，增加网络的深度可以让我们用更少的参数实现相同的映射。

然而，随着神经网络层数的增加，它们的训练变得越来越困难，因为梯度在训练过程中消失。

Resnet很好地解决了这个问题，使得训练多层神经网络成为可能。

除了图像分类之外，以RCNN系列为首的神经网络技术在物体检测任务上也取得了重大进展。

近年来，还出现了更快的（YOLO）和更好的算法（SSD）。

最近流行的GAN是一个训练框架。

在GAN出现之前，生成模型的训练是一项相对困难的任务。

GAN出现后，生成模型训练的效率得到了很大的提高。

GAN的大多数应用也是生成模型的应用，用来生成图片、音乐、文本等。

不过，对抗性训练对于训练判别模型也很有帮助，因为虽然有非线性激活函数，但深层网络仍然是高度线性并且会累积误差。

累积的误差结果肉眼无法区分，但是从卷积网络可以看出这一点。

但与普通线性模型不同的是，深度神经网络可以拟合对抗性训练，可以很好地解决这个问题。

解决方案是生成对抗性样本，使网络对对抗性样本更加宽容。

GAN这两年产生了很多非常有趣的应用，包括冯嘉石博士在上一次公开课中提到的超分辨率，其目的是放大低分辨率图像而不影响其清晰度。

｜纹理转换近几个月开始流行的纹理转换，就是所谓的图像风格化。

在深度学习之前，这也是一个非常困难的问题。

本质原因在于，以往的非深度学习方法只能获取目标图像的低层图像特征，导致这些方法无法独立有效地对图像语义内容和风格的变化进行建模，从而无法正确地对图像的语义内容和风格的变化进行建模。

对图像的语义内容和风格的变化进行建模。

AI如何帮助你成为“画家” -雷锋网公开课

两者解耦又综合。

风格化算法现在已经有两代了。

第一代风格化算法：Neural Style 1999年，德国蒂宾根大学的学者提出了一种利用深度神经网络各层响应来表达图像风格和内容的方法。

方法可以概括为：准备在ImageNet数据集上训练VGG网络，然后选择部分层作为风格语义的提取层，部分层作为内容语义的提取层；使用这个经过训练的 VGG 来提取代表风格的风格图片的高级语义信息。

，具体来说，将风格图像作为VGG的输入，然后提取风格语义选择层中激活值的格拉米安矩阵。

值得一提的是，Gram矩阵的数学意义使其能够很好地捕捉激活值之间的相关性，因此能够很好地表达图像的风格特征；使用VGG来提取风格化图像所表示的内容的高级语义信息，具体来说，将图像作为VGG的输入，然后提取内容语义提取层的激活值。

该方法很好地利用了卷积神经网络的特性，不仅捕获了图像元素的结构信息，而且对细节具有一定的容忍度；随机初始化一张图片，然后使用2和3中介绍的方法提取其风格。

然后从风格图像的风格特征和内容图像的内容特征中减去内容特征，然后加上一定的权重作为优化的目标函数。

保持VGG的权重不变，直接对初始化图像进行梯度下降，直到目标函数下降到一个比较小的值。

这种方法的风格化效果震惊了学术界，但其缺点也很明显。

由于这种风格化方法本质上是利用梯度下降的迭代优化过程，虽然效果不佳，但风格化速度也比较慢。

慢，GPU处理一张图像大约需要十秒的时间。

Deepart.io 网站使用该技术来转换图像纹理。

第二代风格化算法：快速神经风格通过一种将图像风格和内容解耦的方法，我们可以训练一个端到端的网络，这样我们只需要做一次前向传递就可以得到风格化图像。

因此，生成图像的一般步骤是根据变换后的网络获得输出，并将其输出到VGG网络。

提取风格特征后，将其与风格图像的特征进行比较。

还将提取内容图像的特征并与内容图像进行比较。

该算法的优点是速度快，可以在GPU上实时生成。

去年年中风靡全球的 Prisma 正是采用了这项技术。

但这项技术仍然存在缺陷。

例如，由于卷积网络的固有性质，它无法像手工绘图那样仔细地处理图片的细节，因此它就像一个大胆而印象派的画家，对细节有一些要求。

对于相对高级的任务，例如角色动画，此方法不适合。

因此，前段时间流行的《你的名字》滤镜所采用的技术与Prisma不同。

我们猜测这个滤镜并不是端到端的，而是会先对原图进行像素分割，找出可能的天空部分，添加新海城的特征云，其他部分进行一些处理过滤处理。

纹理转换的另一个非常有趣的应用是神经涂鸦。

利用这项技术，我们可以让三岁的孩子轻松成为像莫奈一样的绘画大师。

这项技术的本质是首先对一幅世界名画（例如皮埃尔·奥古斯特·雷诺阿的《河岸》）进行像素分割，获取其语义图，让神经网络学习每个区域。

的风格.然后，我们只需要像孩子一样在这张语义图上涂鸦（比如我们想在图片中间画一条河，在右上角画一棵树），神经网络就会根据面积来渲染它在语义图上，最终得出了一幅印象派的杰作。

如果你关注AI领域的资讯，你可能还知道Facebook宣布了他们的caffe2go框架，并在手机上展示了他们的实时风格化视频。

这个成果意义重大，主要体现在在手机上可以非常高效。

运行人工智能算法，将有趣的人工智能技术置于掌中。

例如，在直播或视频中可以在人的脸上添加各种可爱的动物表情的技术也是一种人工智能技术，主要采用面部关键点检测技术。

视频风格化实现的难点在于，对于图像风格化这样的重载应用，如果想要在手机上实现实时效果，需要进行大量的工程和算法方面的优化，以减少网络流量而不影响效果，如下：尽可能多。

参数数量；与单张图片风格化相比，视频风格化需要更多的考虑。

独立处理视频的每一帧而不考虑帧之间的相关性会导致风格化视频抖动和不规则。

协调。

｜黑白照片着色最后要介绍的技术是黑白照片着色（彩色图像着色）。

想象一下，如果人工智能很好地完成了这项任务，我们就可以用它轻松地为老照片和电影添加色彩。

彩色漫画。

这次公开课我主要介绍去年加州大学伯克利分校在ECCV的一篇文章中介绍的方法。

该方法与之前方法的区别在于，它将照片着色视为分类问题——预测图像每个像素中 300 多种颜色的概率分布。

这种方法解决了任务本身的不确定性。

比如，当你看到一个黑白相间的苹果时，你可能会认为它是红色的，但如果苹果是青色的，其实并没有太大的违和感。

。

您还可以访问作者的网站尝试他们的演示。

本文介绍的方法有两个非常重要的技巧：颜色重新平衡（类重新平衡）。

我们都知道，世界各地的所有彩色照片中每种颜色的分布都是不同的。

例如，大多数照片可能包含天空、墙壁、草地等。

论文作者给出了 ImageNet 数据集中颜色的分布。

可以看到，如果将图像用LAB表示（L通道是像素的亮度，AB通道表示颜色），ab值较低的颜色出现的频率远高于其他颜色。

如果我们不考虑这个问题，我们的目标函数将对 ab 值较高的颜色极其不敏感。

因此，论文作者提出了一种方法——训练时将每个像素乘以一个系数。

系数的大小与像素ab值的分布有关。

使用这个技巧，输出图像的颜色将更加多样化并且更接近真实图像。

从概率分布中获取预测颜色值（点估计）。

我们知道这个网络的输出是每个像素的ab值的概率分布。

那么我们如何通过这个概率分布得到ab值呢？当然，我们可以直接选择概率最大的值作为我们的预测。

这样，输出图像的颜色会更加鲜艳，但很多情况下会出现不自然的斑块。

另一种方法是采用该概率分布的均值作为预测，这将导致我们的输出图像具有非常低的对比度。

作者在本文中提出了一种折中的做法：我们可以调整Softmax函数的温度，然后求新的概率分布的均值。

尽管本文描述的方法效果很好，但仍然存在缺陷。

例如，在给狗的图片上色时，即使狗没有伸出舌头，神经网络也总是会“想象”它伸出舌头，然后将鼻子下方的一小块区域涂成红色。

此外，彩色图像中有时会出现一个小的、突然的斑块。

上面介绍的技术都不是完美的，但它们的缺陷并不能掩盖它们的缺陷。

我们可以看到深度学习的潜力，并了解它不仅仅可以做分类和检测。

我相信，随着社会对深度学习的热情越来越高，更多有趣的成果将会不断产生。

如果你觉得上面的技术很酷，那么我保证你的惊喜才刚刚开始。

|产品化的思考当然，将学术界的成果应用到工业界并不容易。

我们搞机器学习的人都知道一个著名的定理叫“没有免费的午餐定理”，它说不可能找到一个对所有问题都最优的算法。

在ImageNet数据集上表现最好的算法不一定在工业级的大型、复杂、多变的数据上表现良好。

因此，我们也根据每个客户不同的数据分布，做了很多具体的优化。

例如，我们正在为映客提供评论服务。

直播场景本身就非常多元化和复杂。

我们发现，当大量人使用手机或者电脑等电子产品在直播视频界面上播放另一个界面的内容时，相对于整个画面，内容呈现部分所占的比例非常小，而且非常模糊，不明显。

当色情、暴恐等不良信息出现时，人工、标准化的审核模型很难准确识别，误判、漏判的概率较高。

所以我们需要专门优化这个问题，识别画中画数据，然后调用普通审计模型。

雷锋网、雷锋网图普的产品已经广泛应用于多个行业，但只能在一定程度上减少大部分审核人力，并不能完全替代人工。

本轮融资后，我们将加大对服务和计算能力的投入，提高产品运行速度和鲁棒性；在算法方面，我们将不断提高图像识别的准确率和召回率。

我们的愿景是彻底解放审核人力，我们还将向审核以外的其他方向拓展业务，比如人脸识别、增强现实等，提供更直接、高效、多样化的任务。

站长声明

标签：

上一篇：OLED汽车光源产品开发商“亿光科技”完成数亿元C轮融资

下一篇：京东：截至3月底，年度活跃用户数4.998亿，同比增长29%

《IDC 中国游戏云市场跟踪研究，2022H2》系列文章五：游戏云关键动态与总结

各大游戏云服务商动态腾讯云在腾讯数字生态大会上，腾讯云在“游戏专场”中围绕游戏研发与测试、发行和运营等方面进行了展示。启动和运营增长。游戏全生命周期解决方案。作为国内众多老牌游戏客户和大部分游戏项目的主要云服务提供商，腾讯云从“帮助行业客户打造优质游

06-17
光速正式成立东南亚办事处，今年成功融资40亿美元

据投资界（微信ID：pedaily）消息，光速美国近日正式启动总部位于新加坡的东南亚业务，宣布今年完成融资，总计40亿美元的全球基金支持东南亚投资。这一最新举措表明，光速正在通过辐射全球的网络，与无畏挑战的企业家携手，打造引领世界的优秀企业，实现让世界变得更美好的

06-18
海富产业设立半导体专项基金，规模13亿元

据投资界（ID：pedaily）6月9日消息，近日，海富产业投资基金管理有限公司（简称“海富产业投资基金”）海通证券旗下子公司海富产业”）发起设立并管理的海富半导体创业投资（嘉兴）合伙企业（有限合伙）（简称“半导体专项基金”）完成工商设立。该基金由全国社会保障基金

06-17
中国核电：上半年核电发电量同比增长23.43%

中国核电7月2日晚间公告称，据公司统计，截至6月30日，公司累计发电量上半年商业发电量3.8亿千瓦时。上网发电量9.3亿千瓦时，其中核电发电量8.4亿千瓦时，同比增长23.43%。新能源发电容量43.54亿千瓦时。

06-17
唯柯医疗获数千万元A轮融资，全面推广心力衰竭及结构性心脏病解决方案

投资界（ID：pedaily）据11月25日消息，唯柯医疗宣布完成数千万元融资人民币A轮融资。本轮融资由上海山澜资本领投，盛誉投资跟投。据悉，本轮融资筹集的资金将主要用于公司自主研发的国内一流器械D-shant心房分流器的多中心临床试验，并持续推进临床试验和注册工作。纳米膜

06-18
诸神之战-围观！湖南赛区启动仪式

阿里巴巴集团年度大赛封神之战全球创客大赛湖南赛区于6月13日在长沙启动，百万奖金支持创业者梦想。

06-17
工信部：6G目前处于探索阶段

工信部部长肖亚庆表示，6G目前处于探索阶段。我们也在与国际社会互动，推动共同标准、愿景需求、技术成熟度等，我们需要与世界各地的行业朋友相互沟通、共同探讨，共同推动新的发展。

06-18
《农村电商人才报告》：2025年人才缺口将达350万，拼多多已成为最大的人才促农平台

“以拼多多为代表的新电商，在推动农产品和农产品崛起方面激起了一波增长”培养电子商务兴农人才。面对现实的变化，拼多多正在成为中国最大的人才发展平台，成为农产品电商的黄埔军校。 ” 2019年6月10日，中国农业大学智慧电商研究院发布《中国农村电商人才现状与发展报告》

06-17
一站式商业智能解决方案提供商“思迈特软件”完成过亿B+轮战略融资

4月20日消息，一站式商业智能解决方案提供商“思迈特软件”完成B+轮战略融资融资过亿。本轮投资方为全球企业级数据分析和组织智能服务平台提供商明略科技。此前，思迈特软件已获得价值资本、方广资本的数千万A轮投资，以及高城资本、琥珀资本的1.25亿B轮投资。

06-17
Intel CES发布会：10纳米终于重见天日

Intel在CES前夕召开了发布会。英特尔公布了有关10纳米处理器的更多细节，宣布与阿里巴巴达成奥运战略合作，并推出了Nervana神经网络推理处理器。此前，英特尔在10nm工艺上遇到了一些困难，导致10nm量产芯片的发布推迟。在今年12月的Intel架构日上，Intel推出了下一代Sunny

06-06
扔掉谷歌翻译！这款免费无广告的超级AI翻译工具是你的最佳选择

两个月前，一本书在豆瓣引起轩然大波：有网友评论乌拉圭作家、马里奥贝内德蒂的小说《休战》“机器翻译标记”很严重”和“工作被毁了”。没想到，译者韩烨的朋友愤怒地写信给该用户所在的学校，要求她就该言论道歉。被译者好友行为冒犯的豆瓣网友也发起反击。他们在豆瓣上

06-21
“耀明电子”完成数百万元天使轮融资，标志着黑客信息组建智网

投资社区（ID：pedaily）9月27日消息，据36氪报道，网络安全创业公司耀明电子（北京））科技有限公司（以下简称“耀明电子”）近日完成天使轮融资。本轮融资领投方为海贝资本，同创九吾跟投，GEW资本担任独家投资方。本轮资金将主要用于完善智能安防产品研发团队和实施解决

06-18