首页 > 科技未来 > 内容

打败中途,谷歌巨头推出的这款AI产品怎么可能弯道超车

发布于:2024-06-21 编辑:匿名 来源:网络

没有人可以永远成为王者,但有了前缀,任何人都有机会成为王者。

AI文圣图还能玩出什么新花样?在这片英雄划分的红海中,头部被Midjourney、DALL·E、Stable Diffusion等占据,其他能让人眼前一亮的产品并不多。

不过,仍有黑马不断涌现:由前谷歌工程师创立、硅谷AI大师投资的Ideogram于去年8月推出,并于2月底发布了最新型号。

Ideogram 的特殊之处在于它擅长生成包含文本的图像,而这正是几家巨头正在改进的问题。

事实证明,从别人跌倒的地方爬起来,才是弯道超车的方法。

它会“画画”、“拍照”,但AI可能还是“文盲”。

准确生成文本一直是AI的痛点。

即使生成的人物和风景看起来像相机捕捉到的,但它们就像乱码和扭曲的文字,瞬间暴露了AI的真实身份。

▲ Midjourney v5.2 生成的错误文本。

Ideogram站出来表示,不肯让AI继续“文盲”,不妨先从它开始。

接触Ideogram的门槛很低。

只需打开一个网页(渲染和其他图片样式)。

表意文字还考虑到人类可能会因提示词而“受苦”。

今年2月,它推出了“Magic Prompt”,它就像内置的ChatGPT一样,可以帮助你改进提示。

换句话说,人工智能可以捕捉到类似人的想法。

包含文字内容的图片有哪些?产品徽标、T 恤印刷品、书籍封面、电影海报。

让我们从入门级测试开始,要求几个人举起写有动物名称的标牌。

乍一看,文字是正确的,但脸和手不正常。

两者互相抵消。

事实证明,缺点并没有消失,而是转移了。

如果我只是让表意文字来写的话,效果会更加惊人。

“我宁愿乐观而错误,也不愿悲观而正确。

”除了“W”有缺陷外,其他字都写得正确。

字体比较活泼一些。

20世纪70年代出生的马斯克不知道自己能否接受,但黑白的碰撞。

应该能让蓝鸟小家伙满意。

以经典谚语“只工作不玩耍让聪明的孩子变笨”作为测试题,虽然提示词强调使用打印机字体,但Ideogram似乎未能做到这一点。

字体不能单独使用提示词来定义,只能是近似的。

然后,AI 被命令为一家名为“Coffee AI”的 AI 初创公司设计徽标。

主体是一个带有电路图案的咖啡杯。

右上角有一个机器人咖啡师。

公司名称以粗体大写字母书写。

布局简洁内敛。

作为一个标志,它是非常直观的,但一般来说,它是预期的,很难让人知道。

方方很快就做出了决定。

是时候让 AI 变得更加困难了,句子更长,设计要求更高。

我请 Ideogram 为一本儿童图画书设计内页。

不仅要在显着位置写上“穿袜子的狐狸,戴高帽的兔子”,而且在底部注明“匿名”。

这两行文字,Ideogram基本完成了任务,采用了手绘字体和粉笔涂鸦,甚至还附上了符合标题含义的插图。

绘本的味道是对的,但错误也很明显。

“在”这个词有问题。

兔子长得很像狐狸,而且是狐狸的兄弟。

表意文字也可用于电影海报。

不妨试试前段时间爆红的阮经天主演的电影《周处除三害》。

我把典故和电影混入了提示词中。

背景使用了骑士剪影、海洋和山脉的图像,文字引用了电影的英文名称:猪、蛇和鸽子。

除了少了一个“the”之外,最终的海报效果还是不错的,融合了古典图像和现代字体。

鸽子涂鸦是点睛之笔,但整体上更像是西方奇幻风格,让人感觉陌生,难以联想。

电影的情节。

经过经验,我发现文本出现表意文字错误的概率不小。

有时会生成两三次才能得到逐字的理想结果。

即使文字正确,人物的脸和手指也常常看起来不对劲。

它还可能添加一些花哨的技巧,随机生成无意义且扭曲的文本,打自己的脸。

▲ 这里的小人物都是糊状的。

但总的来说,Ideogram 是令人惊讶的。

能写长句子,并采用适当的字体和布局方法来配合画面的气氛。

虽然还不会写中文,但就像鬼画一样。

这句话与衣服的褶皱完美契合。

▲ 这四个字其实就是“恭喜发财”的意思。

尽管有其缺点,Ideogram 已经拥有许多就业场景。

它可以作为设计标志、海报和T恤图形时的灵感参考和创意助手。

打败中途,谷歌巨头推出的这款AI产品怎么可能弯道超车

过去我担心AI会“画画”、“拍照”,但未来我会担心AI会识字、会设计。

颜值不输中游,而且还是表情神器。

AI的进步是以天来衡量的,一觉醒来世界可能就会改变。

尽管Ideogram声称自己的文本渲染能力是最强的,但它的对手并不服输。

尚未向公众发布且开源的 Stable Diffusion 3 已于 2 月份正式发布,并改进了文本拼写功能。

▲ Stable Diffusion 3 的拼写能力。

Midjourney v6 于去年 12 月作为测试版发布,是 Midjourney 的第一个具有可靠文本生成功能的版本。

不过,它的要求还是相当苛刻的。

除了将文本放在引号中外,提示词最好能说明文本的位置和书写方法,并使用“打印”和“书写”等关键字,一到两个单词的文本生成效果最好。

▲ Midjourney v6 的文本生成功能。

被追的意文队并不惊慌,认为优势在我。

表意文字仍然具有较高的准确性,可以处理复杂的长句子。

Ideogram 的系统评测也表明,Ideogram 1.0 在渲染文本方面准确率最高,与 DALL·E 3 等其他模型相比,错误率降低了近 2 倍。

与其光说练招,不如用同样的提示语,让Ideogram 1.0与Midjourney V6、DALL·E 3同台竞技。

首先,我们来比较一下生成文本的准确性。

我让AI画了一幅浮世绘风格的日出插图。

《飘》的经典台词“明天是新的一天”被放置在适当的位置,表达希望和重生。

这次,Ideogram 获胜,其拼写准确,线条和色彩设计大胆出色。

本来就很文艺的DALL·E,竟然很有质感。

文字基本正确但不完全正确,画风较为抽象。

中途不但文字不准确,审美也低劣,连提问都没有认真听。

▲ 左边是DALL·E,右边是Midjourney。

二是比拼创造模因的能力。

Ideogram官方提到了生成表情的功能。

借助“魔法提示”,AI会发挥想象力,拓展提示词、添加文案。

,赋予画面情感。

我想看看人工智能是否可以生成一个工作的猫表情符号,所以我输入了提示:“画一个有趣的表情包,一只戴着领结、穿着衬衫、在电脑前打字的泪流满面的猫,来比喻人类工作的辛苦” ”。

Ideogram发挥了自己的想象力,有意识地加上了一句“猫也要工作”。

唯一的缺点是多了一个“有”,前爪的手指数量不对。

看来人工智能不仅在人类的手上遇到了麻烦,而且在猫爪子上也遇到了麻烦。

与原版表情包相比,算是中规中矩,不能像“哭猫头”那样碰碰运气。

▲ 左为网页图片,右为表意文字。

中途的猫严肃而优雅,仿佛是一位富裕而自由的作家。

看起来更像是拍杂志照片,但不知道鼠标是怎么回事。

▲ 左边是中途,右边是DALL·E.DALL·E。

情绪是最到位的。

画风虽然有点随意,但优点是粗犷。

看起来不在同一层的面条有内部气味。

实在是太适合抱了。

将其用作表情符号。

三是对复杂、长的提示词的理解能力,特别是提示词的要素是否完整、提示词的位置是否准确。

于是,我输入了比较啰嗦的提示词,并规定了各个科目的位置。

表意文字在整体构图中表现得更好。

提示词中提到的几个关键点都涵盖了。

心形品牌、机器人、宇航员、气球和奖章都包含在内,但缺少宇航员的手和奖章上的文字等细节。

问题。

相比之下,中途更有艺术感,但缺少元素,还有一些没有的装饰,有自己的想法和个性。

DALL·E不仅元素缺失,细节也不对劲,而且看起来也不好看。

▲ 上图为Midjourney,下图为DALL·E。

所以不管文字如何,单看图片质量,Ideogram还不错。

有时提示词中物体空间关系的还原比其他AI更准确。

从用户体验上来说,Ideogram的生成速度比Midjourney要快。

一般四张图十多秒就可以完成。

即使按照行业的评估规则,在线索对齐、图像连贯性、整体偏好和文本渲染质量方面,人类评估者也更喜欢 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6。

即使你对Ideogram生成的图片不满意,使用它神奇的提示文字,在Midjourney和DALL·E上生成的效果可能比用手擦还要好。

可以算是一种优化提示词的方式。

我的BGM没人能打败我,但如果同一个提示词被不同的AI使用,结果还真不确定。

Ideogram是谷歌工程师创立的明星公司,也是一款接地气的AI产品,成立于去年8月,今年2月推出了最新型号Ideogram 1.0。

这是又一家明星公司,创始团队七人分别来自谷歌大脑、加州大学伯克利分校、卡内基梅隆大学、多伦多大学。

其中四人是 Google Imagen 图扩散模型 Imagen 研究论文的作者。

谨慎的谷歌往往推出产品的速度很慢,并且多次眼睁睁地看着对手名扬全球。

聊天机器人被ChatGPT抢先,Imagen被DALL·E 2超越。

从工程师的角度来看,研究成果不能落地到消费应用中并不是一件好事。

很多人选择离开,自己打造新产品,尽可能开放使用,首先积累用户规模和声誉。

Ideogram每天25个提示词的免费额度可能也是基于这个考虑。

市场对该产品非常看好。

Ideogram 已完成由硅谷风投 a16z 领投的 10,000 美元 A 轮融资。

投资者中不乏人工智能大师,包括谷歌首席科学家 Jeff Dean 和 OpenAI 创始团队成员 Andrej Karpathy。

其实,在体验了很多AI产品之后,我暗自有一个疑问:如何定义一个产品的有用性? ▲ Ideogram 生成的T 恤图案。

之前我觉得有用的是“沉浸式翻译”插件。

与谷歌翻译不同的是,它覆盖了原文,可以进行中英文对比。

它不仅是新闻网页,还有X信息流、YouTube字幕和PDF。

可以使用文件。

表意文字似乎是那么的接地气。

一方面,它可以更准确地生成用户所需的文本内容并适应各种风格的图片。

另一方面,它也可以无中生有,将图片与合适的文字(例如表情符号)相匹配。

虽然Ideogram生成的结果很多不能立即使用,但至少基本满足提示词要求,而且大部分文字是可读的。

我在体验中还发现,Ideogram的写实画面一般,但它的涂鸦、插画、绘画都不错,艺术天赋与中途不相上下。

▲ Ideogram 生成的涂鸦艺术插图。

Ideogram的官网也有各种作品的人气排名。

打开网站的那一刻,你仿佛误入了一个Instagram风格的图片社区,而且还可以学习上面的提示词。

当人工智能工具将创造力、便利性和共享性结合在一起时,人们很容易上瘾。

具体表现就是每天25个提示词很快就用完了。

这种焦急的感觉,就跟等待苏诺的积分更新一样。

Ideogram 的会员月费为 7 美元或 16 美元,除了更多的生成时间之外,还提供图像上传和编辑功能。

图片上传是指用户上传自己的图片,然后通过Remix功能重新创建。

▲ 左边是原始图像,右边是输出图像。

除了裁剪和缩放等常规功能外,编辑器还有一个有趣的绘图工具,可以从抽象绘画生成图像。

人类画家大致勾勒出每个元素的形状、构图、色彩等,AI则负责化腐朽为神奇,让马良有一种似曾相识的感觉。

表意文字能在血雨腥风中幸存下来,易用性当然是最重要的,而且它的定位也非常准确。

如果美观是最重要的标准,那么 Midjourney 更胜一筹。

虽然DALL·E的级别有上有下,但内置的ChatGPT调用方便,开源的Stable Diffusion带来了自由。

仅就用户规模而言,Ideogram 或许无法击败其中任何一家,但它在长长的名单中已经做得很好,应该能够获得自己坚实的受众。

至少在免费的AI图像生成器中,Ideogram的整体质量是领先的,网页简单易用,提供免费积分,文本渲染强大,神奇的提示功能和创作者社区提供创造力和灵感。

文森图模型还远未达到完美,仍在努力还原物理世界,或者与画家和设计师看齐。

更多的表意文字可能仍然会找到它们的位置。

这就是AI竞争的残酷性和魅力所在。

我们不知道谁能笑到最后,但总会有新的对手瞄准阿喀琉斯之踵。

打败中途,谷歌巨头推出的这款AI产品怎么可能弯道超车

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 韩国当选总统尹锡岳今天将与荷兰首相通电话,或讨论深化半导体合作等事宜

    韩国当选总统尹锡岳今天将与荷兰首相通电话,或讨论深化半导体合作等事宜

    据韩联社报道,3月30日,韩国发言人金恩惠韩国当选总统尹锡岳在新闻发布会上表示,尹锡岳将于当天下午与荷兰首相马克吕特通电话。 金恩惠表示,韩国和荷兰是历史悠久的友好国家,双方共同追求自由民主、市场经济、人权等价值观。 欧盟国家中,荷兰是韩国第二大贸易伙伴,两国

    06-08

  • 宁德时代投资4400万元投资加拿大Neo Lithium锂电公司

    宁德时代投资4400万元投资加拿大Neo Lithium锂电公司

    投资界9月17日消息,据当地媒体报道,在加拿大多伦多V板上市的Neo Lithium近日宣布签署战略合作协议。 与宁德时代旗下子公司签订股权认购协议。 宁德时代将以每股普通股0.84加元的价格认购1万多股加拿大新锂业股票,投资总额约人民币1万元,占新锂业总股本的8%,成为该公司第

    06-17

  • 河北:建成476个科技特派员工作站、43个科技特派员工作室

    河北:建成476个科技特派员工作站、43个科技特派员工作室

    创头条获悉,近日,河北省科技厅下发通知,启动个人科技特派员工作站和43个科技特派员工作室建设,重点提升科技特派员服务支撑体系,推动高校、科研院所科技成果与市县主导产业、科技型企业、农业合作社精准对接,深度解决科技成果转化“最后一公里”问题成果转化为现实生产力

    06-18

  • 多地出台“十四五”新基建规划,加快新一轮5G建设,

    多地出台“十四五”新基建规划,加快新一轮5G建设,

    创建了头条新闻。 据《证券日报》报道,新一轮5G建设正进入加速期。 近阶段,“十四五”新基建规划多地密集发布,积极释放政策红利推进5G建设。 据悉,5G建设已逐渐成为各城市建设的重点。 例如,四川省颁布的《四川省“十四五”新型基础设施建设规划》提出了5G建设的量化指标

    06-18

  • 张鸣晨先生在红点中国晋升合伙人

    张鸣晨先生在红点中国晋升合伙人

    据投资界9月17日消息,红点创投中国基金宣布张鸣晨先生晋升合伙人。 到目前为止,红点中国共有三位合伙人:主管合伙人袁文达先生、合伙人张翰先生、合伙人张鸣晨先生。 张先生于2016年加入红点中国团队,主要关注消费互联网、工业互联网、人工智能等领域的早期投资。 他目前

    06-18

  • 北京第三支S基金已启动,初始规模5亿

    北京第三支S基金已启动,初始规模5亿

    据投资界(ID:pedaily)6月10日消息,北京愿景接力创业投资基金近日在东城区注册成立。 该基金是继青岛S基金、英国科勒资本之后,北京推动设立的第三只S基金。 该基金由中关村发展集团旗下中关村创业投资发展有限公司管理,初始规模5亿元。 主要投资于高精尖行业私募基金二级

    06-18

  • 马斯克:SpaceX星链天线成本正在快速下降

    马斯克:SpaceX星链天线成本正在快速下降

    SpaceX首席执行官埃隆马斯克表示,星链互联网卫星天线的成本正在“快速下降”。 近日,针对“SpaceX正在以远低于制造成本的价格出售星链卫星天线”的推文,马斯克回应道:“目前来看,成本正在迅速下降。

    06-18

  • 中国中医药研究促进会将参与设立中医药健康产业引导基金,规模20亿

    中国中医药研究促进会将参与设立中医药健康产业引导基金,规模20亿

    据投资界(ID:pedaily)4月26日消息,近日,日前,由中国中医药研究促进会管理有限公司牵头的北京中开资本宣布,将与旗下联航发展投资有限公司共同设立中医药健康产业引导基金。 重庆南川区国有金融中心。 据了解,该基金总规模为20亿元,基金首期将募集1亿元。 以中医药健

    06-18

  • 创投市场“最忙下半年”:惊喜注册红利还是虚假繁荣?

    创投市场“最忙下半年”:惊喜注册红利还是虚假繁荣?

    冬天已经到来,一级市场已经超越了经济周期,变得比以往更加繁忙和火爆。 “我第一次出差是在五月份,没想到今年这么忙:尤其是下半年,基本上就没停过。 ”一位FA告诉今日头条。 出差、对项目进行尽职调查、做报告和决策、与创始人会面,这样的日常工作比往年更加密集。 金沙

    06-18

  • 华中科技大学成立未来科技学院、集成电路学院

    华中科技大学成立未来科技学院、集成电路学院

    创头条获悉,7月14日,华中科技大学未来科技学院、集成电路学院同步揭牌。 据悉,该校未来科技学院是今年5月教育部批准的首批12所未来科技学院之一。 将围绕“大工程、大健康”未来战略产业发展,依托机械工程、生物医学工程、光电信息科学与工程、自动化等四个国家一流本科专

    06-18

  • 阿里、腾讯、小米投资,百川智能完成3亿美元融资,成新独角兽

    阿里、腾讯、小米投资,百川智能完成3亿美元融资,成新独角兽

    投资界(ID:pedaily)消息,百川智能近日完成A1轮战略融资,融资金额为3亿美元。 阿里、腾讯、小米等科技巨头以及多家顶级投资机构参与了本轮融资。 算上1万美元天使轮,百川智能融资金额已达3.5亿美元。 成立不到半年,就跨入科技独角兽行列,创下了国内大型初创企业成为独

    06-17

  • 滴答旅游重新提交港股上市申请更新数据,2020年调整后净利润升至3.43亿元

    滴答旅游重新提交港股上市申请更新数据,2020年调整后净利润升至3.43亿元

    4月13日,滴答旅游向港交所重新提交上市申请,并更新了经营状况和相关数据。 更新后的招股书披露,财务数据方面,嘀嗒出行全年总交易额(GTV)为90亿元人民币,营业收入为7.91亿元人民币,同比增长36.3%,调整后净利润为人民币3.43亿元。

    06-18