首页 > 科技未来 > 内容

AI如何帮助你成为“画家” -雷锋网公开课

发布于:2024-06-17 编辑:匿名 来源:网络

人工智能滤镜一度火爆朋友圈、Prisma、电影《你的名字》同样的滤镜是一样的,但人工智能在图像方面的进步远不止这些。

除了打造“艺术滤镜”,人工智能还可以帮助用户按需生成图片、添加纹理、对原本像素较差的图片进行超分辨率处理,助你成为“画家”。

所使用的技术也与最近流行的“生成对抗网络”(GAN)有关。

本次公开课,雷锋网邀请了图谱科技机器学习工程师Vincent,为大家揭秘AI助你成为“画家”。

Vincent在英国学习了两年。

回国后,他作为机器学习工程师加入TUP。

他参与了多个TUP产品的研发,并发誓要从事深度学习至死不渝。

嘉宾介绍:Vincent,图谱科技机器学习工程师,主要从事工业级深度学习算法的研发。

曾任摩根大通欧洲技术中心分析师、IBM爱丁堡办事处分析师。

熟悉自然语言处理(文本分类、语言模型等)、图像转换(艺术滤镜、图片着色等)和分类算法。

以下内容章节均来自公开课分享整理。

|深度神经网络在图像识别领域的进展。

自从2016年Alexnet出山,一举拿下ImageNet图片分类竞赛冠军后,深度学习一路飙升。

以卷积网络为首的深度神经网络不断刷新着各种计算机视觉。

任务的最新技术。

在过去的四五年里,我们可以看到学术界不断开发出各种结构的卷积神经网络。

而且,这些结构不仅基于Alexnet深厚的数学基础,而且是他们自己的学派。

每个人都有自己的优势。

本次公开课重点分享三种神经网络结构: Network in Network(NIN,网络中的网络):卷积网络是线性运算,非线性表现能力有限。

NIN的开发者设计了一种结构比传统卷积网络更复杂的操作——MLPconv,并使用Globalaveragepooling大大提高了卷积网络的规模。

VGG 和 GoogLeNet (inception_v1):这两个是 2018 年 ImageNet 竞赛的两位英雄。

VGG的设计理念全部采用3x3卷积,增加了网络的深度。

GoogLeNet属于Google的Inception系列,采用了更加花哨的网络设计,降低网络的计算复杂度,加快训练速度。

Resnet(深度残差网络):根据通用逼近定理,我们可以使用一层神经网络实现任意维度到维度的映射,但是网络的参数量(网络的宽度)会随着问题复杂度的增加变得非常大,增加网络的深度可以让我们用更少的参数实现相同的映射。

然而,随着神经网络层数的增加,它们的训练变得越来越困难,因为梯度在训练过程中消失。

Resnet很好地解决了这个问题,使得训练多层神经网络成为可能。

除了图像分类之外,以RCNN系列为首的神经网络技术在物体检测任务上也取得了重大进展。

近年来,还出现了更快的(YOLO)和更好的算法(SSD)。

最近流行的GAN是一个训练框架。

在GAN出现之前,生成模型的训练是一项相对困难的任务。

GAN出现后,生成模型训练的效率得到了很大的提高。

GAN的大多数应用也是生成模型的应用,用来生成图片、音乐、文本等。

不过,对抗性训练对于训练判别模型也很有帮助,因为虽然有非线性激活函数,但深层网络仍然是高度线性并且会累积误差。

累积的误差结果肉眼无法区分,但是从卷积网络可以看出这一点。

但与普通线性模型不同的是,深度神经网络可以拟合对抗性训练,可以很好地解决这个问题。

解决方案是生成对抗性样本,使网络对对抗性样本更加宽容。

GAN这两年产生了很多非常有趣的应用,包括冯嘉石博士在上一次公开课中提到的超分辨率,其目的是放大低分辨率图像而不影响其清晰度。

|纹理转换近几个月开始流行的纹理转换,就是所谓的图像风格化。

在深度学习之前,这也是一个非常困难的问题。

本质原因在于,以往的非深度学习方法只能获取目标图像的低层图像特征,导致这些方法无法独立有效地对图像语义内容和风格的变化进行建模,从而无法正确地对图像的语义内容和风格的变化进行建模。

对图像的语义内容和风格的变化进行建模。

AI如何帮助你成为“画家” -雷锋网公开课

两者解耦又综合。

风格化算法现在已经有两代了。

第一代风格化算法:Neural Style 1999年,德国蒂宾根大学的学者提出了一种利用深度神经网络各层响应来表达图像风格和内容的方法。

方法可以概括为:准备在ImageNet数据集上训练VGG网络,然后选择部分层作为风格语义的提取层,部分层作为内容语义的提取层;使用这个经过训练的 VGG 来提取代表风格的风格图片的高级语义信息。

,具体来说,将风格图像作为VGG的输入,然后提取风格语义选择层中激活值的格拉米安矩阵。

值得一提的是,Gram矩阵的数学意义使其能够很好地捕捉激活值之间的相关性,因此能够很好地表达图像的风格特征;使用VGG来提取风格化图像所表示的内容的高级语义信息,具体来说,将图像作为VGG的输入,然后提取内容语义提取层的激活值。

该方法很好地利用了卷积神经网络的特性,不仅捕获了图像元素的结构信息,而且对细节具有一定的容忍度;随机初始化一张图片,然后使用2和3中介绍的方法提取其风格。

然后从风格图像的风格特征和内容图像的内容特征中减去内容特征,然后加上一定的权重作为优化的目标函数。

保持VGG的权重不变,直接对初始化图像进行梯度下降,直到目标函数下降到一个比较小的值。

这种方法的风格化效果震惊了学术界,但其缺点也很明显。

由于这种风格化方法本质上是利用梯度下降的迭代优化过程,虽然效果不佳,但风格化速度也比较慢。

慢,GPU处理一张图像大约需要十秒的时间。

Deepart.io 网站使用该技术来转换图像纹理。

第二代风格化算法:快速神经风格通过一种将图像风格和内容解耦的方法,我们可以训练一个端到端的网络,这样我们只需要做一次前向传递就可以得到风格化图像。

因此,生成图像的一般步骤是根据变换后的网络获得输出,并将其输出到VGG网络。

提取风格特征后,将其与风格图像的特征进行比较。

还将提取内容图像的特征并与内容图像进行比较。

该算法的优点是速度快,可以在GPU上实时生成。

去年年中风靡全球的 Prisma 正是采用了这项技术。

但这项技术仍然存在缺陷。

例如,由于卷积网络的固有性质,它无法像手工绘图那样仔细地处理图片的细节,因此它就像一个大胆而印象派的画家,对细节有一些要求。

对于相对高级的任务,例如角色动画,此方法不适合。

因此,前段时间流行的《你的名字》滤镜所采用的技术与Prisma不同。

我们猜测这个滤镜并不是端到端的,而是会先对原图进行像素分割,找出可能的天空部分,添加新海城的特征云,其他部分进行一些处理过滤处理。

纹理转换的另一个非常有趣的应用是神经涂鸦。

利用这项技术,我们可以让三岁的孩子轻松成为像莫奈一样的绘画大师。

这项技术的本质是首先对一幅世界名画(例如皮埃尔·奥古斯特·雷诺阿的《河岸》)进行像素分割,获取其语义图,让神经网络学习每个区域。

的风格.然后,我们只需要像孩子一样在这张语义图上涂鸦(比如我们想在图片中间画一条河,在右上角画一棵树),神经网络就会根据面积来渲染它在语义图上,最终得出了一幅印象派的杰作。

如果你关注AI领域的资讯,你可能还知道Facebook宣布了他们的caffe2go框架,并在手机上展示了他们的实时风格化视频。

这个成果意义重大,主要体现在在手机上可以非常高效。

运行人工智能算法,将有趣的人工智能技术置于掌中。

例如,在直播或视频中可以在人的脸上添加各种可爱的动物表情的技术也是一种人工智能技术,主要采用面部关键点检测技术。

视频风格化实现的难点在于,对于图像风格化这样的重载应用,如果想要在手机上实现实时效果,需要进行大量的工程和算法方面的优化,以减少网络流量而不影响效果,如下:尽可能多。

参数数量;与单张图片风格化相比,视频风格化需要更多的考虑。

独立处理视频的每一帧而不考虑帧之间的相关性会导致风格化视频抖动和不规则。

协调。

|黑白照片着色 最后要介绍的技术是黑白照片着色(彩色图像着色)。

想象一下,如果人工智能很好地完成了这项任务,我们就可以用它轻松地为老照片和电影添加色彩。

彩色漫画。

这次公开课我主要介绍去年加州大学伯克利分校在ECCV的一篇文章中介绍的方法。

该方法与之前方法的区别在于,它将照片着色视为分类问题——预测图像每个像素中 300 多种颜色的概率分布。

这种方法解决了任务本身的不确定性。

比如,当你看到一个黑白相间的苹果时,你可能会认为它是红色的,但如果苹果是青色的,其实并没有太大的违和感。

您还可以访问作者的网站尝试他们的演示。

本文介绍的方法有两个非常重要的技巧:颜色重新平衡(类重新平衡)。

我们都知道,世界各地的所有彩色照片中每种颜色的分布都是不同的。

例如,大多数照片可能包含天空、墙壁、草地等。

论文作者给出了 ImageNet 数据集中颜色的分布。

可以看到,如果将图像用LAB表示(L通道是像素的亮度,AB通道表示颜色),ab值较低的颜色出现的频率远高于其他颜色。

如果我们不考虑这个问题,我们的目标函数将对 ab 值较高的颜色极其不敏感。

因此,论文作者提出了一种方法——训练时将每个像素乘以一个系数。

系数的大小与像素ab值的分布有关。

使用这个技巧,输出图像的颜色将更加多样化并且更接近真实图像。

从概率分布中获取预测颜色值(点估计)。

我们知道这个网络的输出是每个像素的ab值的概率分布。

那么我们如何通过这个概率分布得到ab值呢?当然,我们可以直接选择概率最大的值作为我们的预测。

这样,输出图像的颜色会更加鲜艳,但很多情况下会出现不自然的斑块。

另一种方法是采用该概率分布的均值作为预测,这将导致我们的输出图像具有非常低的对比度。

作者在本文中提出了一种折中的做法:我们可以调整Softmax函数的温度,然后求新的概率分布的均值。

尽管本文描述的方法效果很好,但仍然存在缺陷。

例如,在给狗的图片上色时,即使狗没有伸出舌头,神经网络也总是会“想象”它伸出舌头,然后将鼻子下方的一小块区域涂成红色。

此外,彩色图像中有时会出现一个小的、突然的斑块。

上面介绍的技术都不是完美的,但它们的缺陷并不能掩盖它们的缺陷。

我们可以看到深度学习的潜力,并了解它不仅仅可以做分类和检测。

我相信,随着社会对深度学习的热情越来越高,更多有趣的成果将会不断产生。

如果你觉得上面的技术很酷,那么我保证你的惊喜才刚刚开始。

|产品化的思考 当然,将学术界的成果应用到工业界并不容易。

我们搞机器学习的人都知道一个著名的定理叫“没有免费的午餐定理”,它说不可能找到一个对所有问题都最优的算法。

在ImageNet数据集上表现最好的算法不一定在工业级的大型、复杂、多变的数据上表现良好。

因此,我们也根据每个客户不同的数据分布,做了很多具体的优化。

例如,我们正在为映客提供评论服务。

直播场景本身就非常多元化和复杂。

我们发现,当大量人使用手机或者电脑等电子产品在直播视频界面上播放另一个界面的内容时,相对于整个画面,内容呈现部分所占的比例非常小,而且非常模糊,不明显。

当色情、暴恐等不良信息出现时,人工、标准化的审核模型很难准确识别,误判、漏判的概率较高。

所以我们需要专门优化这个问题,识别画中画数据,然后调用普通审计模型。

雷锋网、雷锋网图普的产品已经广泛应用于多个行业,但只能在一定程度上减少大部分审核人力,并不能完全替代人工。

本轮融资后,我们将加大对服务和计算能力的投入,提高产品运行速度和鲁棒性;在算法方面,我们将不断提高图像识别的准确率和召回率。

我们的愿景是彻底解放审核人力,我们还将向审核以外的其他方向拓展业务,比如人脸识别、增强现实等,提供更直接、高效、多样化的任务。

AI如何帮助你成为“画家” -雷锋网公开课

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 工业和信息化部:上半年工业经济继续平稳复苏,主要指标平稳增长

    工业和信息化部:上半年工业经济继续平稳复苏,主要指标平稳增长

    上午10点,国务院新闻办公室举行新闻发布会。 工业和信息化部新闻发言人介绍了上半年工业和信息化发展情况。 上半年工业经济继续平稳复苏,主要指标平稳增长。 工业生产快速增长。 上半年,全国规模以上工业增加值同比增长15.9%,近两年平均增速7.0%。 制造业增加值同比增长1

    06-18

  • 【融资24小时】2022年10月18日投融资事件汇总及详情

    【融资24小时】2022年10月18日投融资事件汇总及详情

    今日国内市场共发生14起投资披露事件,5家企业服务(马赫谷、浪凡集团、山西)燕数据、如盘科技、诚章数据)、医疗健康案例5个(贝塔医学、赛陆医疗、普瑞纯证、金百惠、伟明时光)、先进制造案例1个(海辰储能)、电商零售1个案例(酌也) )、智能硬件1个案例(海象说)、广

    06-17

  • 鲁信创投:参股公司新风光科创板IPO注册获证监会同意

    鲁信创投:参股公司新风光科创板IPO注册获证监会同意

    鲁信创投:参股公司新丰光在科创板IPO注册获证监会核准。 2020年3月9日晚,证监会官媒发布《证监会同意科创板IPO注册》。 首次公开发行股票的登记申请。

    06-17

  • 新松投资完成云启资本、太友基金首批LP投资

    新松投资完成云启资本、太友基金首批LP投资

    投资圈(ID:pedaily)据7月9日消息,新松机器人投资有限公司(简称“新松投资”)与上海云盘投资管理有限公司(简称“云启资本”)与北京泰佑创业投资管理有限公司(简称“泰佑基金”)投资签约仪式在新松投资总部举行。 本次签约将实现战略合作和数亿元LP投资,各方将共同重

    06-18

  • 东车日报 -特斯拉再次涨价,Model Y突破40万-新汉DM系列官图发布-威马汽车亮相广东3·15

    东车日报 -特斯拉再次涨价,Model Y突破40万-新汉DM系列官图发布-威马汽车亮相广东3·15

    简介 特斯拉连续两周上调Model 3/Y售价。 玛莎拉蒂新款GT纯电动路试谍照曝光 新汉DM系列官图发布 奥迪6月起提供车内VR 奥迪Q6应用照片出现在工信部新车目录 宾利计划推出电动每年从“丑闻袭广东”3月15日晚会开始。 福特与大众将扩大MEB平台合作。 Motto将在巴黎推出新的电动

    06-21

  • 致力于智能制造,新格智能获A轮融资

    致力于智能制造,新格智能获A轮融资

    据投资界10月11日消息,据张通社报道,上海新格智能科技有限公司(以下简称“新格智能”)宣布A轮融资完成,由洪泰基金领投,临芯投资跟投,上轮投资者高瓴创投和上海宏图(HTC)持续追加。 据悉,本轮资金将主要用于公司产品的营销、产品线的拓展、进一步加大研发投入、加速

    06-18

  • 奇魂AI香港主体获数千万美元战略投资,中国创业投资集团香港公司投资

    奇魂AI香港主体获数千万美元战略投资,中国创业投资集团香港公司投资

    投资圈(ID:pedaily)3月16日消息,中国国际创新投资控股集团香港有限公司中华创业投资集团香港公司(简称:中华创业投资集团香港公司)与奇魂AI旗下香港实体Miracles AI Co., Limited在深圳签署数千万美元战略投资协议。 该交易将于今年5月左右完成。 奇魂AI是一家专注于生

    06-18

  • “榜奖”表彰科幻创作者,知乎答主“分形橙”获奖

    “榜奖”表彰科幻创作者,知乎答主“分形橙”获奖

    近日,第五届蓝色星球科幻电影周活动上,“科幻微小说大赛”入围作品之一、科幻作家、知乎答题者“分形橙”荣获蓝色星球颁发的“海图奖”荣誉奖。 知乎COO、高级副总裁、社区业务负责人张宁为他颁奖。 张宁表示,“科技和科幻的最终体现是人文精神,是人们对未来的想象和好奇

    06-18

  • 联明股份拟以5.82亿元收购联明包装100%股权

    联明股份拟以5.82亿元收购联明包装100%股权

    据投资界5月29日消息,联明股份公告称,公司拟在每股9.13元,收购联明包装100%股权。 本次交易价格为5.82亿元,构成上市公司重大资产重组。 本次交易前,上市公司主营业务主要包括汽车车身零部件业务和物流服务业务。 本次交易完成后,公司将直接持有联明包装 %股权,并通过联

    06-18

  • 坚持安全和人工智能,周鸿祎入选2023年度中国民营企业社会责任杰出企业家

    坚持安全和人工智能,周鸿祎入选2023年度中国民营企业社会责任杰出企业家

    近日,中华全国工商业联合会公布了《中国民营企业社会责任优秀案例()》名单。 该团体的创始人周鸿祎入选《中国民营企业社会责任优秀案例》企业家章,成为互联网行业唯一候选人。 《中国民营企业社会责任优秀案例()》企业家章共选拔10人。 周鸿祎之所以入选,是因为他坚持

    06-18

  • 元启智能打造“小新”拟人交互系统

    元启智能打造“小新”拟人交互系统

    雷锋网消息,2020年5月31日,六一儿童节前一天,来自青岛的机器人创业团队元启智能在北京发布智能玩具概念,官方称就是“小新”拟人化交互系统。 这款拟人化的交互系统采用BLE通信模块+语音+APP来增加传统玩具的交互性。 元启洞团队告诉我们,“小新”的交互主要体现在预设的

    06-18

  • 【创业24小时】2023年12月1日

    【创业24小时】2023年12月1日

    2023年12月1日,行业内一家大公司半年卖出2.5亿。 是比东方精选更加野心勃勃的对手。 点击此处查看魅族21大动作完整发布。 磕头致死。 这个品牌获胜的机会有多大?点击查看 番茄欲逃脱“字节命运” 点击查看 游戏业务表现不佳,哔哩哔哩广告业务亟待重任 点击查看 从美团杂货

    06-17