国际顶级学术会议CIKM2019即将在北京开幕,重量级嘉宾带你一睹人工智能前沿
06-17
将图像转换为文本。
今天这不再是问题。
各种OCR功能让从图像中提取文本变得更加容易,对于AI解读图片来说也不是什么大问题。
但对于今天的人工智能来说,画画仍然很困难。
识别图片并提取信息就是为AI处理信息。
但绘画多了一层,不仅是处理信息,也是完成创作。
前者是选择题,后者是命题论文。
回答好选择题后,下一步就是回答好自由发挥的主观题。
但没人认为,第一个在自己的应用程序上回答这个问题的人是TikTok。
用TikTok创造Facebook和马云。
与在AI行业投入巨资、长期沉浸在巨头手中的谷歌和OpenAI相比,TikTok或许只是一个“让渡者”。
但转学生绕过了巨头,先解决了问题。
为什么这并不奇怪呢?虽然转校生也用了一些巧思,但至少做出来还是让人惊叹的。
TikTok打造的文字转图像功能被称为“AI绿屏”。
它取代了原来单调的白色背景,利用AI为您生成视频的背景。
这些视频的背景或许并不能全部满足创作者的需求,但毕竟这是为您定制的独一无二的绿屏背景。
如果幸运的话,可能更符合视频内容的主题。

▲ 发布视频时点击特效即可体验该功能。
图片来自硅星。
我们对这个新功能做了一些测试,看看 TikTok 绘制的图片是什么样子的。
在随机测试的词语中,有些画作的呈现方式让人摸不着头脑,而另一些则被评价为“非常擅长描绘怪异感”。
备受好评的是输入“Facebook”后出现的画作。
你依稀可以认出Facebook的蓝色图标。
画面中的单眼单耳营造出一种独特的恐怖感。
结合最近关于Facebook的新闻,不得不说这张图很好的描述了Facebook这个词的感觉。
图像中还准确地描绘了“苹果”和“中国”等词语。
前者很容易被视为一个苹果,而后者也可以被视为一座中式建筑。
同时,也避免了国旗等二次创新领域较为敏感的图案。
只是如果你想呈现一张苹果的图片,那是很困难的。
甚至关键词“苹果”+“苹果首席执行官库克”也呈现出与苹果和菜肴相关的模式。
不过,也有很多无关紧要的。
比如我们尝试了阿里巴巴、腾讯、字节跳动,但生成的也不能说与这些品牌断然无关。
但无论怎样,一眼望去都很难辨认,而且有些抽象。
还有很多通过输入人名画出的有趣的图画。
享誉海外的手工博主李子柒以自己的名字创作了一幅舒缓的山水画;前英超著名教练温格生成的图片也具有辨识度,属于经典照片重新解构的风格。
;马云的画风也有点怪异,和脸书一致的眼神有一种偷窥的感觉。
至于马斯克,我们使用 TikTok 生成了四张图像,但都无法识别。
当然,除了通过人物文字和抽象图片取得成功之外,还有Switch和广州被认为是恰到好处、能让人联想到的。
塞尔达风格的绘画中的人物可以被粉丝认出“这可能是马里奥”。
同样,广州的标志性建筑和绚丽的色彩也很容易辨认。
每个背景图像的生成时间不到 5 秒。
如果主题相似,那么这些图片就非常适合用作视频的背景图片。
生成时间短,每个人都可以使用。
这些都是TikTok的优势。
因此,这样一款文字转图像产品出现在日均数亿用户的应用上,可以说是一个里程碑式的事件。
只是TikTok还是走了捷径。
目前产生的图像几乎都属于绘画风格,很多甚至属于抽象派、印象派。
与生成真实图像相比,这个难度要低得多。
毕竟,即使看起来不像,但你仍然可以依靠你的大脑来弄清楚。
理解你输入的单词的人工智能面临着和你去美术馆看艺术展览时同样的问题。
如果相似度不够,那就理解并弥补。
这也是一种节省成本的方法。
它的难度较小,需要的计算能力较少,因此成本较低。
▲ 即使是带有轻微血腥文字的图片也不会太吓人。
即使是谷歌也没有可以立即生成的产品。
从效果来看,TikTok的AI绿屏渲染效果不能给予高分。
但作为一项门槛较高的技术,如果能在几秒钟内无任何门槛地被用户使用,那就算是进步了。
虽然目前生成的图像还不够“日常”、不够真实,引发了人们对技术滥用和图像造假的担忧,但真实的图像实际上是可以实现的,但还没有像 AI 绿屏那样为所有人所用。
就这样。
谷歌还发布了 Imagen AI 工具,可以将简单的句子变成真实的图片——就像拍摄的照片一样真实。
但遗憾的是,即便是在AI方面投入巨资的谷歌,也未能生产出可以即时生成的产品。
换句话说,输入请求并让 AI 为您绘制图像的选项在 Imagen AI 中尚不可用。
▲ Imagen AI 可以点击不同的选项来创建不同的图片。
目前,官网仅提供一些预设选项。
即使点开每一种,也只有几十种组合,但有写实风格和油画风格可供选择。
有兴趣的读者还是可以自己去看看。
谷歌是那种出名的人,一举一动都引人注目。
而人工智能研究实验室OpenAI则依靠作品,他们推出了原创且最流行的人工智能文本转图像生成器Dall-E。
▲ Dall-EDall-E 可以根据文本内容真实地重新编辑现有图像。
它可以为您添加和删除元素。
在执行这些操作的同时,它还会考虑阴影、反射和纹理的渲染效果——PS技术可以秒杀你。
分析和模仿现有的绘画并替换它们是非常简单的。
灵感风格来源于原作,但主角换了。
作为一个研究项目,Dall-E 仍处于内测阶段,名单上的“有限数量的可信用户”已经陆续在社交媒体上发布了照片。
每个参与测试的用户最初可以获得50个免费积分,然后每月获得15个积分。
1点可以生成4张图片,其中一种文字内容,还可以选择三种绘画风格。
目前,Dall-E 针对内测用户的变现方式仍然很少——如果每月用完 15 个积分后仍想体验该服务,可以以 15 美元的价格购买 1 个积分。
幸运的是,生成的图像也可以商业化,一旦您使用 Dall-E 创建它们,您就可以将它们用于从插图到封面再到 T 恤设计的所有内容。
▲ 用户可以在设定的位置添加元素,添加到照片中的元素会自动补充阴影等方面。
视频总监Karen X. Cheng告诉彭博社:我已经经历了几个小时的生成图片,甚至迷路了。
方向...感觉更像是在和一个活生生的、会呼吸的人一起工作,而不是像 Photoshop 这样的工具。
当然,Dall-E 目前并不完美。
要创造出完全逼真的人脸,还是有一定难度的。
它需要专业的医学知识才能准确地代表人体骨骼。
这也不是很好。
研究人员 Aditya Ramesh 表示,DALL-E 只知道如何阅读文本并生成图像,因此它实际上是在尝试创建视觉上相似的东西。
▲Dall-E生成奇幻图片的技术无疑是非常有前景的。
你可以想象它为内容创作者降低了图像搜索的门槛,你也可以想象肖像画家可以在它的帮助下提高工作效率。
但正如每一项出现的技术都可能被滥用一样,AI帮助文本生成图像的技术也存在着Deepfakes上曾经出现过的负面应用场景一一重现的风险。
好在,这一次技术提供商已经提前做好了准备,想要将AI关在笼子里。
TikTok的抽象形象本身就是一种保护,因为它不现实。
另外,即使你在TikTok中输入一些暗示性内容(暴力、裸露),画作仍然不会达到预期效果。
抽象风格不清晰,避免了巨大的审稿成本。
▲ Dall-E 官网的限制表明,Dall-E 还限制 AI 生成暴力、成人和仇恨内容,并且算法最大限度地减少了 Dall-E 接触此类概念的机会。
同时,该平台还拥有先进的技术,可以防止使用真人脸部生成图像(名人松了一口气),自动和手动监控系统也可以防止 Dall-E 的滥用。
只是随着新技术的出现,我们不能只看到不好的一面。
其带来的高效前景值得期待。
至少,爱范儿很期待文章推送的那一天,并在文章末尾加上“文章标题图片由Dall-E生成”的字样。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-06
06-17
06-21
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态