首页 > 科技未来 > 内容

打败中途，谷歌巨头推出的这款AI产品怎么可能弯道超车

发布于：2024-06-21 编辑：匿名来源：网络

没有人可以永远成为王者，但有了前缀，任何人都有机会成为王者。

AI文圣图还能玩出什么新花样？在这片英雄划分的红海中，头部被Midjourney、DALL·E、Stable Diffusion等占据，其他能让人眼前一亮的产品并不多。

不过，仍有黑马不断涌现：由前谷歌工程师创立、硅谷AI大师投资的Ideogram于去年8月推出，并于2月底发布了最新型号。

Ideogram 的特殊之处在于它擅长生成包含文本的图像，而这正是几家巨头正在改进的问题。

事实证明，从别人跌倒的地方爬起来，才是弯道超车的方法。

它会“画画”、“拍照”，但AI可能还是“文盲”。

准确生成文本一直是AI的痛点。

即使生成的人物和风景看起来像相机捕捉到的，但它们就像乱码和扭曲的文字，瞬间暴露了AI的真实身份。

。

▲ Midjourney v5.2 生成的错误文本。

Ideogram站出来表示，不肯让AI继续“文盲”，不妨先从它开始。

接触Ideogram的门槛很低。

只需打开一个网页（渲染和其他图片样式）。

表意文字还考虑到人类可能会因提示词而“受苦”。

今年2月，它推出了“Magic Prompt”，它就像内置的ChatGPT一样，可以帮助你改进提示。

换句话说，人工智能可以捕捉到类似人的想法。

包含文字内容的图片有哪些？产品徽标、T 恤印刷品、书籍封面、电影海报。

让我们从入门级测试开始，要求几个人举起写有动物名称的标牌。

乍一看，文字是正确的，但脸和手不正常。

两者互相抵消。

事实证明，缺点并没有消失，而是转移了。

如果我只是让表意文字来写的话，效果会更加惊人。

“我宁愿乐观而错误，也不愿悲观而正确。

”除了“W”有缺陷外，其他字都写得正确。

字体比较活泼一些。

20世纪70年代出生的马斯克不知道自己能否接受，但黑白的碰撞。

应该能让蓝鸟小家伙满意。

以经典谚语“只工作不玩耍让聪明的孩子变笨”作为测试题，虽然提示词强调使用打印机字体，但Ideogram似乎未能做到这一点。

字体不能单独使用提示词来定义，只能是近似的。

然后，AI 被命令为一家名为“Coffee AI”的 AI 初创公司设计徽标。

主体是一个带有电路图案的咖啡杯。

右上角有一个机器人咖啡师。

公司名称以粗体大写字母书写。

布局简洁内敛。

作为一个标志，它是非常直观的，但一般来说，它是预期的，很难让人知道。

方方很快就做出了决定。

是时候让 AI 变得更加困难了，句子更长，设计要求更高。

我请 Ideogram 为一本儿童图画书设计内页。

不仅要在显着位置写上“穿袜子的狐狸，戴高帽的兔子”，而且在底部注明“匿名”。

这两行文字，Ideogram基本完成了任务，采用了手绘字体和粉笔涂鸦，甚至还附上了符合标题含义的插图。

绘本的味道是对的，但错误也很明显。

“在”这个词有问题。

兔子长得很像狐狸，而且是狐狸的兄弟。

表意文字也可用于电影海报。

不妨试试前段时间爆红的阮经天主演的电影《周处除三害》。

我把典故和电影混入了提示词中。

背景使用了骑士剪影、海洋和山脉的图像，文字引用了电影的英文名称：猪、蛇和鸽子。

除了少了一个“the”之外，最终的海报效果还是不错的，融合了古典图像和现代字体。

鸽子涂鸦是点睛之笔，但整体上更像是西方奇幻风格，让人感觉陌生，难以联想。

电影的情节。

经过经验，我发现文本出现表意文字错误的概率不小。

有时会生成两三次才能得到逐字的理想结果。

即使文字正确，人物的脸和手指也常常看起来不对劲。

它还可能添加一些花哨的技巧，随机生成无意义且扭曲的文本，打自己的脸。

▲ 这里的小人物都是糊状的。

但总的来说，Ideogram 是令人惊讶的。

能写长句子，并采用适当的字体和布局方法来配合画面的气氛。

虽然还不会写中文，但就像鬼画一样。

这句话与衣服的褶皱完美契合。

▲ 这四个字其实就是“恭喜发财”的意思。

尽管有其缺点，Ideogram 已经拥有许多就业场景。

它可以作为设计标志、海报和T恤图形时的灵感参考和创意助手。

打败中途，谷歌巨头推出的这款AI产品怎么可能弯道超车

过去我担心AI会“画画”、“拍照”，但未来我会担心AI会识字、会设计。

颜值不输中游，而且还是表情神器。

AI的进步是以天来衡量的，一觉醒来世界可能就会改变。

尽管Ideogram声称自己的文本渲染能力是最强的，但它的对手并不服输。

尚未向公众发布且开源的 Stable Diffusion 3 已于 2 月份正式发布，并改进了文本拼写功能。

▲ Stable Diffusion 3 的拼写能力。

Midjourney v6 于去年 12 月作为测试版发布，是 Midjourney 的第一个具有可靠文本生成功能的版本。

不过，它的要求还是相当苛刻的。

除了将文本放在引号中外，提示词最好能说明文本的位置和书写方法，并使用“打印”和“书写”等关键字，一到两个单词的文本生成效果最好。

▲ Midjourney v6 的文本生成功能。

被追的意文队并不惊慌，认为优势在我。

表意文字仍然具有较高的准确性，可以处理复杂的长句子。

Ideogram 的系统评测也表明，Ideogram 1.0 在渲染文本方面准确率最高，与 DALL·E 3 等其他模型相比，错误率降低了近 2 倍。

与其光说练招，不如用同样的提示语，让Ideogram 1.0与Midjourney V6、DALL·E 3同台竞技。

首先，我们来比较一下生成文本的准确性。

我让AI画了一幅浮世绘风格的日出插图。

《飘》的经典台词“明天是新的一天”被放置在适当的位置，表达希望和重生。

这次，Ideogram 获胜，其拼写准确，线条和色彩设计大胆出色。

本来就很文艺的DALL·E，竟然很有质感。

文字基本正确但不完全正确，画风较为抽象。

中途不但文字不准确，审美也低劣，连提问都没有认真听。

▲ 左边是DALL·E，右边是Midjourney。

二是比拼创造模因的能力。

Ideogram官方提到了生成表情的功能。

借助“魔法提示”，AI会发挥想象力，拓展提示词、添加文案。

，赋予画面情感。

我想看看人工智能是否可以生成一个工作的猫表情符号，所以我输入了提示：“画一个有趣的表情包，一只戴着领结、穿着衬衫、在电脑前打字的泪流满面的猫，来比喻人类工作的辛苦” ”。

Ideogram发挥了自己的想象力，有意识地加上了一句“猫也要工作”。

唯一的缺点是多了一个“有”，前爪的手指数量不对。

看来人工智能不仅在人类的手上遇到了麻烦，而且在猫爪子上也遇到了麻烦。

与原版表情包相比，算是中规中矩，不能像“哭猫头”那样碰碰运气。

▲ 左为网页图片，右为表意文字。

中途的猫严肃而优雅，仿佛是一位富裕而自由的作家。

看起来更像是拍杂志照片，但不知道鼠标是怎么回事。

▲ 左边是中途，右边是DALL·E.DALL·E。

情绪是最到位的。

画风虽然有点随意，但优点是粗犷。

看起来不在同一层的面条有内部气味。

实在是太适合抱了。

将其用作表情符号。

三是对复杂、长的提示词的理解能力，特别是提示词的要素是否完整、提示词的位置是否准确。

于是，我输入了比较啰嗦的提示词，并规定了各个科目的位置。

表意文字在整体构图中表现得更好。

提示词中提到的几个关键点都涵盖了。

心形品牌、机器人、宇航员、气球和奖章都包含在内，但缺少宇航员的手和奖章上的文字等细节。

问题。

相比之下，中途更有艺术感，但缺少元素，还有一些没有的装饰，有自己的想法和个性。

DALL·E不仅元素缺失，细节也不对劲，而且看起来也不好看。

▲ 上图为Midjourney，下图为DALL·E。

所以不管文字如何，单看图片质量，Ideogram还不错。

有时提示词中物体空间关系的还原比其他AI更准确。

从用户体验上来说，Ideogram的生成速度比Midjourney要快。

一般四张图十多秒就可以完成。

即使按照行业的评估规则，在线索对齐、图像连贯性、整体偏好和文本渲染质量方面，人类评估者也更喜欢 Ideogram 1.0，而不是 DALL·E 3 和 Midjourney V6。

即使你对Ideogram生成的图片不满意，使用它神奇的提示文字，在Midjourney和DALL·E上生成的效果可能比用手擦还要好。

可以算是一种优化提示词的方式。

我的BGM没人能打败我，但如果同一个提示词被不同的AI使用，结果还真不确定。

Ideogram是谷歌工程师创立的明星公司，也是一款接地气的AI产品，成立于去年8月，今年2月推出了最新型号Ideogram 1.0。

这是又一家明星公司，创始团队七人分别来自谷歌大脑、加州大学伯克利分校、卡内基梅隆大学、多伦多大学。

其中四人是 Google Imagen 图扩散模型 Imagen 研究论文的作者。

谨慎的谷歌往往推出产品的速度很慢，并且多次眼睁睁地看着对手名扬全球。

聊天机器人被ChatGPT抢先，Imagen被DALL·E 2超越。

从工程师的角度来看，研究成果不能落地到消费应用中并不是一件好事。

很多人选择离开，自己打造新产品，尽可能开放使用，首先积累用户规模和声誉。

Ideogram每天25个提示词的免费额度可能也是基于这个考虑。

市场对该产品非常看好。

Ideogram 已完成由硅谷风投 a16z 领投的 10,000 美元 A 轮融资。

投资者中不乏人工智能大师，包括谷歌首席科学家 Jeff Dean 和 OpenAI 创始团队成员 Andrej Karpathy。

其实，在体验了很多AI产品之后，我暗自有一个疑问：如何定义一个产品的有用性？ ▲ Ideogram 生成的T 恤图案。

之前我觉得有用的是“沉浸式翻译”插件。

与谷歌翻译不同的是，它覆盖了原文，可以进行中英文对比。

它不仅是新闻网页，还有X信息流、YouTube字幕和PDF。

可以使用文件。

表意文字似乎是那么的接地气。

一方面，它可以更准确地生成用户所需的文本内容并适应各种风格的图片。

另一方面，它也可以无中生有，将图片与合适的文字（例如表情符号）相匹配。

虽然Ideogram生成的结果很多不能立即使用，但至少基本满足提示词要求，而且大部分文字是可读的。

我在体验中还发现，Ideogram的写实画面一般，但它的涂鸦、插画、绘画都不错，艺术天赋与中途不相上下。

▲ Ideogram 生成的涂鸦艺术插图。

Ideogram的官网也有各种作品的人气排名。

打开网站的那一刻，你仿佛误入了一个Instagram风格的图片社区，而且还可以学习上面的提示词。

当人工智能工具将创造力、便利性和共享性结合在一起时，人们很容易上瘾。

具体表现就是每天25个提示词很快就用完了。

这种焦急的感觉，就跟等待苏诺的积分更新一样。

Ideogram 的会员月费为 7 美元或 16 美元，除了更多的生成时间之外，还提供图像上传和编辑功能。

图片上传是指用户上传自己的图片，然后通过Remix功能重新创建。

▲ 左边是原始图像，右边是输出图像。

除了裁剪和缩放等常规功能外，编辑器还有一个有趣的绘图工具，可以从抽象绘画生成图像。

人类画家大致勾勒出每个元素的形状、构图、色彩等，AI则负责化腐朽为神奇，让马良有一种似曾相识的感觉。

表意文字能在血雨腥风中幸存下来，易用性当然是最重要的，而且它的定位也非常准确。

如果美观是最重要的标准，那么 Midjourney 更胜一筹。

虽然DALL·E的级别有上有下，但内置的ChatGPT调用方便，开源的Stable Diffusion带来了自由。

仅就用户规模而言，Ideogram 或许无法击败其中任何一家，但它在长长的名单中已经做得很好，应该能够获得自己坚实的受众。

至少在免费的AI图像生成器中，Ideogram的整体质量是领先的，网页简单易用，提供免费积分，文本渲染强大，神奇的提示功能和创作者社区提供创造力和灵感。

文森图模型还远未达到完美，仍在努力还原物理世界，或者与画家和设计师看齐。

更多的表意文字可能仍然会找到它们的位置。

这就是AI竞争的残酷性和魅力所在。

我们不知道谁能笑到最后，但总会有新的对手瞄准阿喀琉斯之踵。

站长声明

标签：

上一篇：靠着西北风过日子的日子要来了吗？二氧化碳不仅可以合成淀粉，还可以建造房屋和玻璃

下一篇：万圣节必看：全世界的恐怖电影都为之疯狂

韩国当选总统尹锡岳今天将与荷兰首相通电话，或讨论深化半导体合作等事宜

据韩联社报道，3月30日，韩国发言人金恩惠韩国当选总统尹锡岳在新闻发布会上表示，尹锡岳将于当天下午与荷兰首相马克吕特通电话。金恩惠表示，韩国和荷兰是历史悠久的友好国家，双方共同追求自由民主、市场经济、人权等价值观。欧盟国家中，荷兰是韩国第二大贸易伙伴，两国

06-08
宁德时代投资4400万元投资加拿大Neo Lithium锂电公司

投资界9月17日消息，据当地媒体报道，在加拿大多伦多V板上市的Neo Lithium近日宣布签署战略合作协议。与宁德时代旗下子公司签订股权认购协议。宁德时代将以每股普通股0.84加元的价格认购1万多股加拿大新锂业股票，投资总额约人民币1万元，占新锂业总股本的8%，成为该公司第

06-17
河北：建成476个科技特派员工作站、43个科技特派员工作室

创头条获悉，近日，河北省科技厅下发通知，启动个人科技特派员工作站和43个科技特派员工作室建设，重点提升科技特派员服务支撑体系，推动高校、科研院所科技成果与市县主导产业、科技型企业、农业合作社精准对接，深度解决科技成果转化“最后一公里”问题成果转化为现实生产力

06-18
多地出台“十四五”新基建规划，加快新一轮5G建设，

创建了头条新闻。据《证券日报》报道，新一轮5G建设正进入加速期。近阶段，“十四五”新基建规划多地密集发布，积极释放政策红利推进5G建设。据悉，5G建设已逐渐成为各城市建设的重点。例如，四川省颁布的《四川省“十四五”新型基础设施建设规划》提出了5G建设的量化指标

06-18
张鸣晨先生在红点中国晋升合伙人

据投资界9月17日消息，红点创投中国基金宣布张鸣晨先生晋升合伙人。到目前为止，红点中国共有三位合伙人：主管合伙人袁文达先生、合伙人张翰先生、合伙人张鸣晨先生。张先生于2016年加入红点中国团队，主要关注消费互联网、工业互联网、人工智能等领域的早期投资。他目前

06-18
北京第三支S基金已启动，初始规模5亿

据投资界（ID：pedaily）6月10日消息，北京愿景接力创业投资基金近日在东城区注册成立。该基金是继青岛S基金、英国科勒资本之后，北京推动设立的第三只S基金。该基金由中关村发展集团旗下中关村创业投资发展有限公司管理，初始规模5亿元。主要投资于高精尖行业私募基金二级

06-18
马斯克：SpaceX星链天线成本正在快速下降

SpaceX首席执行官埃隆马斯克表示，星链互联网卫星天线的成本正在“快速下降”。近日，针对“SpaceX正在以远低于制造成本的价格出售星链卫星天线”的推文，马斯克回应道：“目前来看，成本正在迅速下降。

06-18
中国中医药研究促进会将参与设立中医药健康产业引导基金，规模20亿

据投资界（ID：pedaily）4月26日消息，近日，日前，由中国中医药研究促进会管理有限公司牵头的北京中开资本宣布，将与旗下联航发展投资有限公司共同设立中医药健康产业引导基金。重庆南川区国有金融中心。据了解，该基金总规模为20亿元，基金首期将募集1亿元。以中医药健

06-18
创投市场“最忙下半年”：惊喜注册红利还是虚假繁荣？

冬天已经到来，一级市场已经超越了经济周期，变得比以往更加繁忙和火爆。 “我第一次出差是在五月份，没想到今年这么忙：尤其是下半年，基本上就没停过。 ”一位FA告诉今日头条。出差、对项目进行尽职调查、做报告和决策、与创始人会面，这样的日常工作比往年更加密集。金沙

06-18
华中科技大学成立未来科技学院、集成电路学院

创头条获悉，7月14日，华中科技大学未来科技学院、集成电路学院同步揭牌。据悉，该校未来科技学院是今年5月教育部批准的首批12所未来科技学院之一。将围绕“大工程、大健康”未来战略产业发展，依托机械工程、生物医学工程、光电信息科学与工程、自动化等四个国家一流本科专

06-18
阿里、腾讯、小米投资，百川智能完成3亿美元融资，成新独角兽

投资界（ID：pedaily）消息，百川智能近日完成A1轮战略融资，融资金额为3亿美元。阿里、腾讯、小米等科技巨头以及多家顶级投资机构参与了本轮融资。算上1万美元天使轮，百川智能融资金额已达3.5亿美元。成立不到半年，就跨入科技独角兽行列，创下了国内大型初创企业成为独

06-17
滴答旅游重新提交港股上市申请更新数据，2020年调整后净利润升至3.43亿元

4月13日，滴答旅游向港交所重新提交上市申请，并更新了经营状况和相关数据。更新后的招股书披露，财务数据方面，嘀嗒出行全年总交易额（GTV）为90亿元人民币，营业收入为7.91亿元人民币，同比增长36.3%，调整后净利润为人民币3.43亿元。

06-18