淘宝饮品直播加“猛将”,拉飞哥首秀实现“一个小目标”
06-17
没有人可以永远成为王者,但有了前缀,任何人都有机会成为王者。
AI文圣图还能玩出什么新花样?在这片英雄划分的红海中,头部被Midjourney、DALL·E、Stable Diffusion等占据,其他能让人眼前一亮的产品并不多。
不过,仍有黑马不断涌现:由前谷歌工程师创立、硅谷AI大师投资的Ideogram于去年8月推出,并于2月底发布了最新型号。
Ideogram 的特殊之处在于它擅长生成包含文本的图像,而这正是几家巨头正在改进的问题。
事实证明,从别人跌倒的地方爬起来,才是弯道超车的方法。
它会“画画”、“拍照”,但AI可能还是“文盲”。
准确生成文本一直是AI的痛点。
即使生成的人物和风景看起来像相机捕捉到的,但它们就像乱码和扭曲的文字,瞬间暴露了AI的真实身份。
。
▲ Midjourney v5.2 生成的错误文本。
Ideogram站出来表示,不肯让AI继续“文盲”,不妨先从它开始。
接触Ideogram的门槛很低。
只需打开一个网页(渲染和其他图片样式)。
表意文字还考虑到人类可能会因提示词而“受苦”。
今年2月,它推出了“Magic Prompt”,它就像内置的ChatGPT一样,可以帮助你改进提示。
换句话说,人工智能可以捕捉到类似人的想法。
包含文字内容的图片有哪些?产品徽标、T 恤印刷品、书籍封面、电影海报。
让我们从入门级测试开始,要求几个人举起写有动物名称的标牌。
乍一看,文字是正确的,但脸和手不正常。
两者互相抵消。
事实证明,缺点并没有消失,而是转移了。
如果我只是让表意文字来写的话,效果会更加惊人。
“我宁愿乐观而错误,也不愿悲观而正确。
”除了“W”有缺陷外,其他字都写得正确。
字体比较活泼一些。
20世纪70年代出生的马斯克不知道自己能否接受,但黑白的碰撞。
应该能让蓝鸟小家伙满意。
以经典谚语“只工作不玩耍让聪明的孩子变笨”作为测试题,虽然提示词强调使用打印机字体,但Ideogram似乎未能做到这一点。
字体不能单独使用提示词来定义,只能是近似的。
然后,AI 被命令为一家名为“Coffee AI”的 AI 初创公司设计徽标。
主体是一个带有电路图案的咖啡杯。
右上角有一个机器人咖啡师。
公司名称以粗体大写字母书写。
布局简洁内敛。
作为一个标志,它是非常直观的,但一般来说,它是预期的,很难让人知道。
方方很快就做出了决定。
是时候让 AI 变得更加困难了,句子更长,设计要求更高。
我请 Ideogram 为一本儿童图画书设计内页。
不仅要在显着位置写上“穿袜子的狐狸,戴高帽的兔子”,而且在底部注明“匿名”。
这两行文字,Ideogram基本完成了任务,采用了手绘字体和粉笔涂鸦,甚至还附上了符合标题含义的插图。
绘本的味道是对的,但错误也很明显。
“在”这个词有问题。
兔子长得很像狐狸,而且是狐狸的兄弟。
表意文字也可用于电影海报。
不妨试试前段时间爆红的阮经天主演的电影《周处除三害》。
我把典故和电影混入了提示词中。
背景使用了骑士剪影、海洋和山脉的图像,文字引用了电影的英文名称:猪、蛇和鸽子。
除了少了一个“the”之外,最终的海报效果还是不错的,融合了古典图像和现代字体。
鸽子涂鸦是点睛之笔,但整体上更像是西方奇幻风格,让人感觉陌生,难以联想。
电影的情节。
经过经验,我发现文本出现表意文字错误的概率不小。
有时会生成两三次才能得到逐字的理想结果。
即使文字正确,人物的脸和手指也常常看起来不对劲。
它还可能添加一些花哨的技巧,随机生成无意义且扭曲的文本,打自己的脸。
▲ 这里的小人物都是糊状的。
但总的来说,Ideogram 是令人惊讶的。
能写长句子,并采用适当的字体和布局方法来配合画面的气氛。
虽然还不会写中文,但就像鬼画一样。
这句话与衣服的褶皱完美契合。
▲ 这四个字其实就是“恭喜发财”的意思。
尽管有其缺点,Ideogram 已经拥有许多就业场景。
它可以作为设计标志、海报和T恤图形时的灵感参考和创意助手。

过去我担心AI会“画画”、“拍照”,但未来我会担心AI会识字、会设计。
颜值不输中游,而且还是表情神器。
AI的进步是以天来衡量的,一觉醒来世界可能就会改变。
尽管Ideogram声称自己的文本渲染能力是最强的,但它的对手并不服输。
尚未向公众发布且开源的 Stable Diffusion 3 已于 2 月份正式发布,并改进了文本拼写功能。
▲ Stable Diffusion 3 的拼写能力。
Midjourney v6 于去年 12 月作为测试版发布,是 Midjourney 的第一个具有可靠文本生成功能的版本。
不过,它的要求还是相当苛刻的。
除了将文本放在引号中外,提示词最好能说明文本的位置和书写方法,并使用“打印”和“书写”等关键字,一到两个单词的文本生成效果最好。
▲ Midjourney v6 的文本生成功能。
被追的意文队并不惊慌,认为优势在我。
表意文字仍然具有较高的准确性,可以处理复杂的长句子。
Ideogram 的系统评测也表明,Ideogram 1.0 在渲染文本方面准确率最高,与 DALL·E 3 等其他模型相比,错误率降低了近 2 倍。
与其光说练招,不如用同样的提示语,让Ideogram 1.0与Midjourney V6、DALL·E 3同台竞技。
首先,我们来比较一下生成文本的准确性。
我让AI画了一幅浮世绘风格的日出插图。
《飘》的经典台词“明天是新的一天”被放置在适当的位置,表达希望和重生。
这次,Ideogram 获胜,其拼写准确,线条和色彩设计大胆出色。
本来就很文艺的DALL·E,竟然很有质感。
文字基本正确但不完全正确,画风较为抽象。
中途不但文字不准确,审美也低劣,连提问都没有认真听。
▲ 左边是DALL·E,右边是Midjourney。
二是比拼创造模因的能力。
Ideogram官方提到了生成表情的功能。
借助“魔法提示”,AI会发挥想象力,拓展提示词、添加文案。
,赋予画面情感。
我想看看人工智能是否可以生成一个工作的猫表情符号,所以我输入了提示:“画一个有趣的表情包,一只戴着领结、穿着衬衫、在电脑前打字的泪流满面的猫,来比喻人类工作的辛苦” ”。
Ideogram发挥了自己的想象力,有意识地加上了一句“猫也要工作”。
唯一的缺点是多了一个“有”,前爪的手指数量不对。
看来人工智能不仅在人类的手上遇到了麻烦,而且在猫爪子上也遇到了麻烦。
与原版表情包相比,算是中规中矩,不能像“哭猫头”那样碰碰运气。
▲ 左为网页图片,右为表意文字。
中途的猫严肃而优雅,仿佛是一位富裕而自由的作家。
看起来更像是拍杂志照片,但不知道鼠标是怎么回事。
▲ 左边是中途,右边是DALL·E.DALL·E。
情绪是最到位的。
画风虽然有点随意,但优点是粗犷。
看起来不在同一层的面条有内部气味。
实在是太适合抱了。
将其用作表情符号。
三是对复杂、长的提示词的理解能力,特别是提示词的要素是否完整、提示词的位置是否准确。
于是,我输入了比较啰嗦的提示词,并规定了各个科目的位置。
表意文字在整体构图中表现得更好。
提示词中提到的几个关键点都涵盖了。
心形品牌、机器人、宇航员、气球和奖章都包含在内,但缺少宇航员的手和奖章上的文字等细节。
问题。
相比之下,中途更有艺术感,但缺少元素,还有一些没有的装饰,有自己的想法和个性。
DALL·E不仅元素缺失,细节也不对劲,而且看起来也不好看。
▲ 上图为Midjourney,下图为DALL·E。
所以不管文字如何,单看图片质量,Ideogram还不错。
有时提示词中物体空间关系的还原比其他AI更准确。
从用户体验上来说,Ideogram的生成速度比Midjourney要快。
一般四张图十多秒就可以完成。
即使按照行业的评估规则,在线索对齐、图像连贯性、整体偏好和文本渲染质量方面,人类评估者也更喜欢 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6。
即使你对Ideogram生成的图片不满意,使用它神奇的提示文字,在Midjourney和DALL·E上生成的效果可能比用手擦还要好。
可以算是一种优化提示词的方式。
我的BGM没人能打败我,但如果同一个提示词被不同的AI使用,结果还真不确定。
Ideogram是谷歌工程师创立的明星公司,也是一款接地气的AI产品,成立于去年8月,今年2月推出了最新型号Ideogram 1.0。
这是又一家明星公司,创始团队七人分别来自谷歌大脑、加州大学伯克利分校、卡内基梅隆大学、多伦多大学。
其中四人是 Google Imagen 图扩散模型 Imagen 研究论文的作者。
谨慎的谷歌往往推出产品的速度很慢,并且多次眼睁睁地看着对手名扬全球。
聊天机器人被ChatGPT抢先,Imagen被DALL·E 2超越。
从工程师的角度来看,研究成果不能落地到消费应用中并不是一件好事。
很多人选择离开,自己打造新产品,尽可能开放使用,首先积累用户规模和声誉。
Ideogram每天25个提示词的免费额度可能也是基于这个考虑。
市场对该产品非常看好。
Ideogram 已完成由硅谷风投 a16z 领投的 10,000 美元 A 轮融资。
投资者中不乏人工智能大师,包括谷歌首席科学家 Jeff Dean 和 OpenAI 创始团队成员 Andrej Karpathy。
其实,在体验了很多AI产品之后,我暗自有一个疑问:如何定义一个产品的有用性? ▲ Ideogram 生成的T 恤图案。
之前我觉得有用的是“沉浸式翻译”插件。
与谷歌翻译不同的是,它覆盖了原文,可以进行中英文对比。
它不仅是新闻网页,还有X信息流、YouTube字幕和PDF。
可以使用文件。
表意文字似乎是那么的接地气。
一方面,它可以更准确地生成用户所需的文本内容并适应各种风格的图片。
另一方面,它也可以无中生有,将图片与合适的文字(例如表情符号)相匹配。
虽然Ideogram生成的结果很多不能立即使用,但至少基本满足提示词要求,而且大部分文字是可读的。
我在体验中还发现,Ideogram的写实画面一般,但它的涂鸦、插画、绘画都不错,艺术天赋与中途不相上下。
▲ Ideogram 生成的涂鸦艺术插图。
Ideogram的官网也有各种作品的人气排名。
打开网站的那一刻,你仿佛误入了一个Instagram风格的图片社区,而且还可以学习上面的提示词。
当人工智能工具将创造力、便利性和共享性结合在一起时,人们很容易上瘾。
具体表现就是每天25个提示词很快就用完了。
这种焦急的感觉,就跟等待苏诺的积分更新一样。
Ideogram 的会员月费为 7 美元或 16 美元,除了更多的生成时间之外,还提供图像上传和编辑功能。
图片上传是指用户上传自己的图片,然后通过Remix功能重新创建。
▲ 左边是原始图像,右边是输出图像。
除了裁剪和缩放等常规功能外,编辑器还有一个有趣的绘图工具,可以从抽象绘画生成图像。
人类画家大致勾勒出每个元素的形状、构图、色彩等,AI则负责化腐朽为神奇,让马良有一种似曾相识的感觉。
表意文字能在血雨腥风中幸存下来,易用性当然是最重要的,而且它的定位也非常准确。
如果美观是最重要的标准,那么 Midjourney 更胜一筹。
虽然DALL·E的级别有上有下,但内置的ChatGPT调用方便,开源的Stable Diffusion带来了自由。
仅就用户规模而言,Ideogram 或许无法击败其中任何一家,但它在长长的名单中已经做得很好,应该能够获得自己坚实的受众。
至少在免费的AI图像生成器中,Ideogram的整体质量是领先的,网页简单易用,提供免费积分,文本渲染强大,神奇的提示功能和创作者社区提供创造力和灵感。
文森图模型还远未达到完美,仍在努力还原物理世界,或者与画家和设计师看齐。
更多的表意文字可能仍然会找到它们的位置。
这就是AI竞争的残酷性和魅力所在。
我们不知道谁能笑到最后,但总会有新的对手瞄准阿喀琉斯之踵。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态