工业和信息化部:上半年工业经济继续平稳复苏,主要指标平稳增长
06-18
人工智能滤镜一度火爆朋友圈、Prisma、电影《你的名字》同样的滤镜是一样的,但人工智能在图像方面的进步远不止这些。
除了打造“艺术滤镜”,人工智能还可以帮助用户按需生成图片、添加纹理、对原本像素较差的图片进行超分辨率处理,助你成为“画家”。
所使用的技术也与最近流行的“生成对抗网络”(GAN)有关。
本次公开课,雷锋网邀请了图谱科技机器学习工程师Vincent,为大家揭秘AI助你成为“画家”。
Vincent在英国学习了两年。
回国后,他作为机器学习工程师加入TUP。
他参与了多个TUP产品的研发,并发誓要从事深度学习至死不渝。
嘉宾介绍:Vincent,图谱科技机器学习工程师,主要从事工业级深度学习算法的研发。
曾任摩根大通欧洲技术中心分析师、IBM爱丁堡办事处分析师。
熟悉自然语言处理(文本分类、语言模型等)、图像转换(艺术滤镜、图片着色等)和分类算法。
以下内容章节均来自公开课分享整理。
|深度神经网络在图像识别领域的进展。
自从2016年Alexnet出山,一举拿下ImageNet图片分类竞赛冠军后,深度学习一路飙升。
以卷积网络为首的深度神经网络不断刷新着各种计算机视觉。
任务的最新技术。
在过去的四五年里,我们可以看到学术界不断开发出各种结构的卷积神经网络。
而且,这些结构不仅基于Alexnet深厚的数学基础,而且是他们自己的学派。
每个人都有自己的优势。
本次公开课重点分享三种神经网络结构: Network in Network(NIN,网络中的网络):卷积网络是线性运算,非线性表现能力有限。
NIN的开发者设计了一种结构比传统卷积网络更复杂的操作——MLPconv,并使用Globalaveragepooling大大提高了卷积网络的规模。
VGG 和 GoogLeNet (inception_v1):这两个是 2018 年 ImageNet 竞赛的两位英雄。
VGG的设计理念全部采用3x3卷积,增加了网络的深度。
GoogLeNet属于Google的Inception系列,采用了更加花哨的网络设计,降低网络的计算复杂度,加快训练速度。
Resnet(深度残差网络):根据通用逼近定理,我们可以使用一层神经网络实现任意维度到维度的映射,但是网络的参数量(网络的宽度)会随着问题复杂度的增加变得非常大,增加网络的深度可以让我们用更少的参数实现相同的映射。
然而,随着神经网络层数的增加,它们的训练变得越来越困难,因为梯度在训练过程中消失。
Resnet很好地解决了这个问题,使得训练多层神经网络成为可能。
除了图像分类之外,以RCNN系列为首的神经网络技术在物体检测任务上也取得了重大进展。
近年来,还出现了更快的(YOLO)和更好的算法(SSD)。
最近流行的GAN是一个训练框架。
在GAN出现之前,生成模型的训练是一项相对困难的任务。
GAN出现后,生成模型训练的效率得到了很大的提高。
GAN的大多数应用也是生成模型的应用,用来生成图片、音乐、文本等。
不过,对抗性训练对于训练判别模型也很有帮助,因为虽然有非线性激活函数,但深层网络仍然是高度线性并且会累积误差。
累积的误差结果肉眼无法区分,但是从卷积网络可以看出这一点。
但与普通线性模型不同的是,深度神经网络可以拟合对抗性训练,可以很好地解决这个问题。
解决方案是生成对抗性样本,使网络对对抗性样本更加宽容。
GAN这两年产生了很多非常有趣的应用,包括冯嘉石博士在上一次公开课中提到的超分辨率,其目的是放大低分辨率图像而不影响其清晰度。
|纹理转换近几个月开始流行的纹理转换,就是所谓的图像风格化。
在深度学习之前,这也是一个非常困难的问题。
本质原因在于,以往的非深度学习方法只能获取目标图像的低层图像特征,导致这些方法无法独立有效地对图像语义内容和风格的变化进行建模,从而无法正确地对图像的语义内容和风格的变化进行建模。
对图像的语义内容和风格的变化进行建模。

两者解耦又综合。
风格化算法现在已经有两代了。
第一代风格化算法:Neural Style 1999年,德国蒂宾根大学的学者提出了一种利用深度神经网络各层响应来表达图像风格和内容的方法。
方法可以概括为:准备在ImageNet数据集上训练VGG网络,然后选择部分层作为风格语义的提取层,部分层作为内容语义的提取层;使用这个经过训练的 VGG 来提取代表风格的风格图片的高级语义信息。
,具体来说,将风格图像作为VGG的输入,然后提取风格语义选择层中激活值的格拉米安矩阵。
值得一提的是,Gram矩阵的数学意义使其能够很好地捕捉激活值之间的相关性,因此能够很好地表达图像的风格特征;使用VGG来提取风格化图像所表示的内容的高级语义信息,具体来说,将图像作为VGG的输入,然后提取内容语义提取层的激活值。
该方法很好地利用了卷积神经网络的特性,不仅捕获了图像元素的结构信息,而且对细节具有一定的容忍度;随机初始化一张图片,然后使用2和3中介绍的方法提取其风格。
然后从风格图像的风格特征和内容图像的内容特征中减去内容特征,然后加上一定的权重作为优化的目标函数。
保持VGG的权重不变,直接对初始化图像进行梯度下降,直到目标函数下降到一个比较小的值。
这种方法的风格化效果震惊了学术界,但其缺点也很明显。
由于这种风格化方法本质上是利用梯度下降的迭代优化过程,虽然效果不佳,但风格化速度也比较慢。
慢,GPU处理一张图像大约需要十秒的时间。
Deepart.io 网站使用该技术来转换图像纹理。
第二代风格化算法:快速神经风格通过一种将图像风格和内容解耦的方法,我们可以训练一个端到端的网络,这样我们只需要做一次前向传递就可以得到风格化图像。
因此,生成图像的一般步骤是根据变换后的网络获得输出,并将其输出到VGG网络。
提取风格特征后,将其与风格图像的特征进行比较。
还将提取内容图像的特征并与内容图像进行比较。
该算法的优点是速度快,可以在GPU上实时生成。
去年年中风靡全球的 Prisma 正是采用了这项技术。
但这项技术仍然存在缺陷。
例如,由于卷积网络的固有性质,它无法像手工绘图那样仔细地处理图片的细节,因此它就像一个大胆而印象派的画家,对细节有一些要求。
对于相对高级的任务,例如角色动画,此方法不适合。
因此,前段时间流行的《你的名字》滤镜所采用的技术与Prisma不同。
我们猜测这个滤镜并不是端到端的,而是会先对原图进行像素分割,找出可能的天空部分,添加新海城的特征云,其他部分进行一些处理过滤处理。
纹理转换的另一个非常有趣的应用是神经涂鸦。
利用这项技术,我们可以让三岁的孩子轻松成为像莫奈一样的绘画大师。
这项技术的本质是首先对一幅世界名画(例如皮埃尔·奥古斯特·雷诺阿的《河岸》)进行像素分割,获取其语义图,让神经网络学习每个区域。
的风格.然后,我们只需要像孩子一样在这张语义图上涂鸦(比如我们想在图片中间画一条河,在右上角画一棵树),神经网络就会根据面积来渲染它在语义图上,最终得出了一幅印象派的杰作。
如果你关注AI领域的资讯,你可能还知道Facebook宣布了他们的caffe2go框架,并在手机上展示了他们的实时风格化视频。
这个成果意义重大,主要体现在在手机上可以非常高效。
运行人工智能算法,将有趣的人工智能技术置于掌中。
例如,在直播或视频中可以在人的脸上添加各种可爱的动物表情的技术也是一种人工智能技术,主要采用面部关键点检测技术。
视频风格化实现的难点在于,对于图像风格化这样的重载应用,如果想要在手机上实现实时效果,需要进行大量的工程和算法方面的优化,以减少网络流量而不影响效果,如下:尽可能多。
参数数量;与单张图片风格化相比,视频风格化需要更多的考虑。
独立处理视频的每一帧而不考虑帧之间的相关性会导致风格化视频抖动和不规则。
协调。
|黑白照片着色 最后要介绍的技术是黑白照片着色(彩色图像着色)。
想象一下,如果人工智能很好地完成了这项任务,我们就可以用它轻松地为老照片和电影添加色彩。
彩色漫画。
这次公开课我主要介绍去年加州大学伯克利分校在ECCV的一篇文章中介绍的方法。
该方法与之前方法的区别在于,它将照片着色视为分类问题——预测图像每个像素中 300 多种颜色的概率分布。
这种方法解决了任务本身的不确定性。
比如,当你看到一个黑白相间的苹果时,你可能会认为它是红色的,但如果苹果是青色的,其实并没有太大的违和感。
。
您还可以访问作者的网站尝试他们的演示。
本文介绍的方法有两个非常重要的技巧:颜色重新平衡(类重新平衡)。
我们都知道,世界各地的所有彩色照片中每种颜色的分布都是不同的。
例如,大多数照片可能包含天空、墙壁、草地等。
论文作者给出了 ImageNet 数据集中颜色的分布。
可以看到,如果将图像用LAB表示(L通道是像素的亮度,AB通道表示颜色),ab值较低的颜色出现的频率远高于其他颜色。
如果我们不考虑这个问题,我们的目标函数将对 ab 值较高的颜色极其不敏感。
因此,论文作者提出了一种方法——训练时将每个像素乘以一个系数。
系数的大小与像素ab值的分布有关。
使用这个技巧,输出图像的颜色将更加多样化并且更接近真实图像。
从概率分布中获取预测颜色值(点估计)。
我们知道这个网络的输出是每个像素的ab值的概率分布。
那么我们如何通过这个概率分布得到ab值呢?当然,我们可以直接选择概率最大的值作为我们的预测。
这样,输出图像的颜色会更加鲜艳,但很多情况下会出现不自然的斑块。
另一种方法是采用该概率分布的均值作为预测,这将导致我们的输出图像具有非常低的对比度。
作者在本文中提出了一种折中的做法:我们可以调整Softmax函数的温度,然后求新的概率分布的均值。
尽管本文描述的方法效果很好,但仍然存在缺陷。
例如,在给狗的图片上色时,即使狗没有伸出舌头,神经网络也总是会“想象”它伸出舌头,然后将鼻子下方的一小块区域涂成红色。
此外,彩色图像中有时会出现一个小的、突然的斑块。
上面介绍的技术都不是完美的,但它们的缺陷并不能掩盖它们的缺陷。
我们可以看到深度学习的潜力,并了解它不仅仅可以做分类和检测。
我相信,随着社会对深度学习的热情越来越高,更多有趣的成果将会不断产生。
如果你觉得上面的技术很酷,那么我保证你的惊喜才刚刚开始。
|产品化的思考 当然,将学术界的成果应用到工业界并不容易。
我们搞机器学习的人都知道一个著名的定理叫“没有免费的午餐定理”,它说不可能找到一个对所有问题都最优的算法。
在ImageNet数据集上表现最好的算法不一定在工业级的大型、复杂、多变的数据上表现良好。
因此,我们也根据每个客户不同的数据分布,做了很多具体的优化。
例如,我们正在为映客提供评论服务。
直播场景本身就非常多元化和复杂。
我们发现,当大量人使用手机或者电脑等电子产品在直播视频界面上播放另一个界面的内容时,相对于整个画面,内容呈现部分所占的比例非常小,而且非常模糊,不明显。
当色情、暴恐等不良信息出现时,人工、标准化的审核模型很难准确识别,误判、漏判的概率较高。
所以我们需要专门优化这个问题,识别画中画数据,然后调用普通审计模型。
雷锋网、雷锋网图普的产品已经广泛应用于多个行业,但只能在一定程度上减少大部分审核人力,并不能完全替代人工。
本轮融资后,我们将加大对服务和计算能力的投入,提高产品运行速度和鲁棒性;在算法方面,我们将不断提高图像识别的准确率和召回率。
我们的愿景是彻底解放审核人力,我们还将向审核以外的其他方向拓展业务,比如人脸识别、增强现实等,提供更直接、高效、多样化的任务。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-18
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态