首页 > 科技未来 > 内容

打败中途,谷歌巨头推出的这款AI产品怎么可能弯道超车

发布于:2024-06-21 编辑:匿名 来源:网络

没有人可以永远成为王者,但有了前缀,任何人都有机会成为王者。

AI文圣图还能玩出什么新花样?在这片英雄划分的红海中,头部被Midjourney、DALL·E、Stable Diffusion等占据,其他能让人眼前一亮的产品并不多。

不过,仍有黑马不断涌现:由前谷歌工程师创立、硅谷AI大师投资的Ideogram于去年8月推出,并于2月底发布了最新型号。

Ideogram 的特殊之处在于它擅长生成包含文本的图像,而这正是几家巨头正在改进的问题。

事实证明,从别人跌倒的地方爬起来,才是弯道超车的方法。

它会“画画”、“拍照”,但AI可能还是“文盲”。

准确生成文本一直是AI的痛点。

即使生成的人物和风景看起来像相机捕捉到的,但它们就像乱码和扭曲的文字,瞬间暴露了AI的真实身份。

▲ Midjourney v5.2 生成的错误文本。

Ideogram站出来表示,不肯让AI继续“文盲”,不妨先从它开始。

接触Ideogram的门槛很低。

只需打开一个网页(渲染和其他图片样式)。

表意文字还考虑到人类可能会因提示词而“受苦”。

今年2月,它推出了“Magic Prompt”,它就像内置的ChatGPT一样,可以帮助你改进提示。

换句话说,人工智能可以捕捉到类似人的想法。

包含文字内容的图片有哪些?产品徽标、T 恤印刷品、书籍封面、电影海报。

让我们从入门级测试开始,要求几个人举起写有动物名称的标牌。

乍一看,文字是正确的,但脸和手不正常。

两者互相抵消。

事实证明,缺点并没有消失,而是转移了。

如果我只是让表意文字来写的话,效果会更加惊人。

“我宁愿乐观而错误,也不愿悲观而正确。

”除了“W”有缺陷外,其他字都写得正确。

字体比较活泼一些。

20世纪70年代出生的马斯克不知道自己能否接受,但黑白的碰撞。

应该能让蓝鸟小家伙满意。

以经典谚语“只工作不玩耍让聪明的孩子变笨”作为测试题,虽然提示词强调使用打印机字体,但Ideogram似乎未能做到这一点。

字体不能单独使用提示词来定义,只能是近似的。

然后,AI 被命令为一家名为“Coffee AI”的 AI 初创公司设计徽标。

主体是一个带有电路图案的咖啡杯。

右上角有一个机器人咖啡师。

公司名称以粗体大写字母书写。

布局简洁内敛。

作为一个标志,它是非常直观的,但一般来说,它是预期的,很难让人知道。

方方很快就做出了决定。

是时候让 AI 变得更加困难了,句子更长,设计要求更高。

我请 Ideogram 为一本儿童图画书设计内页。

不仅要在显着位置写上“穿袜子的狐狸,戴高帽的兔子”,而且在底部注明“匿名”。

这两行文字,Ideogram基本完成了任务,采用了手绘字体和粉笔涂鸦,甚至还附上了符合标题含义的插图。

绘本的味道是对的,但错误也很明显。

“在”这个词有问题。

兔子长得很像狐狸,而且是狐狸的兄弟。

表意文字也可用于电影海报。

不妨试试前段时间爆红的阮经天主演的电影《周处除三害》。

我把典故和电影混入了提示词中。

背景使用了骑士剪影、海洋和山脉的图像,文字引用了电影的英文名称:猪、蛇和鸽子。

除了少了一个“the”之外,最终的海报效果还是不错的,融合了古典图像和现代字体。

鸽子涂鸦是点睛之笔,但整体上更像是西方奇幻风格,让人感觉陌生,难以联想。

电影的情节。

经过经验,我发现文本出现表意文字错误的概率不小。

有时会生成两三次才能得到逐字的理想结果。

即使文字正确,人物的脸和手指也常常看起来不对劲。

它还可能添加一些花哨的技巧,随机生成无意义且扭曲的文本,打自己的脸。

▲ 这里的小人物都是糊状的。

但总的来说,Ideogram 是令人惊讶的。

能写长句子,并采用适当的字体和布局方法来配合画面的气氛。

虽然还不会写中文,但就像鬼画一样。

这句话与衣服的褶皱完美契合。

▲ 这四个字其实就是“恭喜发财”的意思。

尽管有其缺点,Ideogram 已经拥有许多就业场景。

它可以作为设计标志、海报和T恤图形时的灵感参考和创意助手。

打败中途,谷歌巨头推出的这款AI产品怎么可能弯道超车

过去我担心AI会“画画”、“拍照”,但未来我会担心AI会识字、会设计。

颜值不输中游,而且还是表情神器。

AI的进步是以天来衡量的,一觉醒来世界可能就会改变。

尽管Ideogram声称自己的文本渲染能力是最强的,但它的对手并不服输。

尚未向公众发布且开源的 Stable Diffusion 3 已于 2 月份正式发布,并改进了文本拼写功能。

▲ Stable Diffusion 3 的拼写能力。

Midjourney v6 于去年 12 月作为测试版发布,是 Midjourney 的第一个具有可靠文本生成功能的版本。

不过,它的要求还是相当苛刻的。

除了将文本放在引号中外,提示词最好能说明文本的位置和书写方法,并使用“打印”和“书写”等关键字,一到两个单词的文本生成效果最好。

▲ Midjourney v6 的文本生成功能。

被追的意文队并不惊慌,认为优势在我。

表意文字仍然具有较高的准确性,可以处理复杂的长句子。

Ideogram 的系统评测也表明,Ideogram 1.0 在渲染文本方面准确率最高,与 DALL·E 3 等其他模型相比,错误率降低了近 2 倍。

与其光说练招,不如用同样的提示语,让Ideogram 1.0与Midjourney V6、DALL·E 3同台竞技。

首先,我们来比较一下生成文本的准确性。

我让AI画了一幅浮世绘风格的日出插图。

《飘》的经典台词“明天是新的一天”被放置在适当的位置,表达希望和重生。

这次,Ideogram 获胜,其拼写准确,线条和色彩设计大胆出色。

本来就很文艺的DALL·E,竟然很有质感。

文字基本正确但不完全正确,画风较为抽象。

中途不但文字不准确,审美也低劣,连提问都没有认真听。

▲ 左边是DALL·E,右边是Midjourney。

二是比拼创造模因的能力。

Ideogram官方提到了生成表情的功能。

借助“魔法提示”,AI会发挥想象力,拓展提示词、添加文案。

,赋予画面情感。

我想看看人工智能是否可以生成一个工作的猫表情符号,所以我输入了提示:“画一个有趣的表情包,一只戴着领结、穿着衬衫、在电脑前打字的泪流满面的猫,来比喻人类工作的辛苦” ”。

Ideogram发挥了自己的想象力,有意识地加上了一句“猫也要工作”。

唯一的缺点是多了一个“有”,前爪的手指数量不对。

看来人工智能不仅在人类的手上遇到了麻烦,而且在猫爪子上也遇到了麻烦。

与原版表情包相比,算是中规中矩,不能像“哭猫头”那样碰碰运气。

▲ 左为网页图片,右为表意文字。

中途的猫严肃而优雅,仿佛是一位富裕而自由的作家。

看起来更像是拍杂志照片,但不知道鼠标是怎么回事。

▲ 左边是中途,右边是DALL·E.DALL·E。

情绪是最到位的。

画风虽然有点随意,但优点是粗犷。

看起来不在同一层的面条有内部气味。

实在是太适合抱了。

将其用作表情符号。

三是对复杂、长的提示词的理解能力,特别是提示词的要素是否完整、提示词的位置是否准确。

于是,我输入了比较啰嗦的提示词,并规定了各个科目的位置。

表意文字在整体构图中表现得更好。

提示词中提到的几个关键点都涵盖了。

心形品牌、机器人、宇航员、气球和奖章都包含在内,但缺少宇航员的手和奖章上的文字等细节。

问题。

相比之下,中途更有艺术感,但缺少元素,还有一些没有的装饰,有自己的想法和个性。

DALL·E不仅元素缺失,细节也不对劲,而且看起来也不好看。

▲ 上图为Midjourney,下图为DALL·E。

所以不管文字如何,单看图片质量,Ideogram还不错。

有时提示词中物体空间关系的还原比其他AI更准确。

从用户体验上来说,Ideogram的生成速度比Midjourney要快。

一般四张图十多秒就可以完成。

即使按照行业的评估规则,在线索对齐、图像连贯性、整体偏好和文本渲染质量方面,人类评估者也更喜欢 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6。

即使你对Ideogram生成的图片不满意,使用它神奇的提示文字,在Midjourney和DALL·E上生成的效果可能比用手擦还要好。

可以算是一种优化提示词的方式。

我的BGM没人能打败我,但如果同一个提示词被不同的AI使用,结果还真不确定。

Ideogram是谷歌工程师创立的明星公司,也是一款接地气的AI产品,成立于去年8月,今年2月推出了最新型号Ideogram 1.0。

这是又一家明星公司,创始团队七人分别来自谷歌大脑、加州大学伯克利分校、卡内基梅隆大学、多伦多大学。

其中四人是 Google Imagen 图扩散模型 Imagen 研究论文的作者。

谨慎的谷歌往往推出产品的速度很慢,并且多次眼睁睁地看着对手名扬全球。

聊天机器人被ChatGPT抢先,Imagen被DALL·E 2超越。

从工程师的角度来看,研究成果不能落地到消费应用中并不是一件好事。

很多人选择离开,自己打造新产品,尽可能开放使用,首先积累用户规模和声誉。

Ideogram每天25个提示词的免费额度可能也是基于这个考虑。

市场对该产品非常看好。

Ideogram 已完成由硅谷风投 a16z 领投的 10,000 美元 A 轮融资。

投资者中不乏人工智能大师,包括谷歌首席科学家 Jeff Dean 和 OpenAI 创始团队成员 Andrej Karpathy。

其实,在体验了很多AI产品之后,我暗自有一个疑问:如何定义一个产品的有用性? ▲ Ideogram 生成的T 恤图案。

之前我觉得有用的是“沉浸式翻译”插件。

与谷歌翻译不同的是,它覆盖了原文,可以进行中英文对比。

它不仅是新闻网页,还有X信息流、YouTube字幕和PDF。

可以使用文件。

表意文字似乎是那么的接地气。

一方面,它可以更准确地生成用户所需的文本内容并适应各种风格的图片。

另一方面,它也可以无中生有,将图片与合适的文字(例如表情符号)相匹配。

虽然Ideogram生成的结果很多不能立即使用,但至少基本满足提示词要求,而且大部分文字是可读的。

我在体验中还发现,Ideogram的写实画面一般,但它的涂鸦、插画、绘画都不错,艺术天赋与中途不相上下。

▲ Ideogram 生成的涂鸦艺术插图。

Ideogram的官网也有各种作品的人气排名。

打开网站的那一刻,你仿佛误入了一个Instagram风格的图片社区,而且还可以学习上面的提示词。

当人工智能工具将创造力、便利性和共享性结合在一起时,人们很容易上瘾。

具体表现就是每天25个提示词很快就用完了。

这种焦急的感觉,就跟等待苏诺的积分更新一样。

Ideogram 的会员月费为 7 美元或 16 美元,除了更多的生成时间之外,还提供图像上传和编辑功能。

图片上传是指用户上传自己的图片,然后通过Remix功能重新创建。

▲ 左边是原始图像,右边是输出图像。

除了裁剪和缩放等常规功能外,编辑器还有一个有趣的绘图工具,可以从抽象绘画生成图像。

人类画家大致勾勒出每个元素的形状、构图、色彩等,AI则负责化腐朽为神奇,让马良有一种似曾相识的感觉。

表意文字能在血雨腥风中幸存下来,易用性当然是最重要的,而且它的定位也非常准确。

如果美观是最重要的标准,那么 Midjourney 更胜一筹。

虽然DALL·E的级别有上有下,但内置的ChatGPT调用方便,开源的Stable Diffusion带来了自由。

仅就用户规模而言,Ideogram 或许无法击败其中任何一家,但它在长长的名单中已经做得很好,应该能够获得自己坚实的受众。

至少在免费的AI图像生成器中,Ideogram的整体质量是领先的,网页简单易用,提供免费积分,文本渲染强大,神奇的提示功能和创作者社区提供创造力和灵感。

文森图模型还远未达到完美,仍在努力还原物理世界,或者与画家和设计师看齐。

更多的表意文字可能仍然会找到它们的位置。

这就是AI竞争的残酷性和魅力所在。

我们不知道谁能笑到最后,但总会有新的对手瞄准阿喀琉斯之踵。

打败中途,谷歌巨头推出的这款AI产品怎么可能弯道超车

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 淘宝饮品直播加“猛将”,拉飞哥首秀实现“一个小目标”

    淘宝饮品直播加“猛将”,拉飞哥首秀实现“一个小目标”

    “大家好,虽然已经播了很多次了,但今天第一次来淘宝,我是拉飞哥。 ” 4月24日当天,“酒哥”拉飞哥首次亮相淘宝直播。 淘宝喝酒直播加了“猛将”。 开播仅2小时55分钟GMV就突破1亿,最终结算为1.17亿。 单场新增粉丝数突破13万,交易笔数突破10万,创下达人首次登陆淘宝的

    06-17

  • 银保监会:2020年四季度保险消费投诉同比增长超20%

    银保监会:2020年四季度保险消费投诉同比增长超20%

    4月1日,银保监会消费者权益保护局发布《关于年第四季度保险消费投诉情况的通报》介绍去年四季度保险消费投诉情况。

    06-18

  • 深圳:加快载人电动垂直起降、飞行汽车等应用产品产业化发展

    深圳:加快载人电动垂直起降、飞行汽车等应用产品产业化发展

    来自投资界的消息(ID:pedaily),12月27日,深圳七部门联合下发《深圳市支持低空经济高质量发展的若干措施》,其中提到加快推广eVTOL等低空飞行器载人产业化。 加快载人电动垂直起降、飞行汽车等应用产品产业化发展。 对在深圳实际从事相关经营活动、研发和销售载人电动垂

    06-18

  • 「法贝兹」获近千万元种子轮融资,投资方为庆钰投资

    「法贝兹」获近千万元种子轮融资,投资方为庆钰投资

    据投资界(ID:pedaily)8月5日消息,据36氪获悉,宠物营养生鲜品牌“法贝兹”已获近千万元种子轮融资,投资方为庆钰投资。 本轮融资将主要用于营销、广告、核心团队建设和新产品研发。 随着新一代宠物主人对宠物的情感需求不断增加,他们希望宠物能陪伴自己更长时间,自然也

    06-17

  • 央行:2月末广义货币(M2)余额223.6万亿元,同比增长10.1%

    央行:2月末广义货币(M2)余额223.6万亿元,同比增长10.1%

    据央行官网显示,2月末,广义货币(M2)余额223.6万亿元,同比增长10.1%。 广义货币(M2)余额0.6万亿元,同比增长10.1%,增速分别比上月末和同期高0.7和1.3个百分点去年;狭义货币(M)余额59.35万亿元,同比增长7.4%,增速比上月末低7.3个百分点,比上年同期高2.6个百分点;流

    06-18

  • 三部委:互联网平台企业限期整改,坚决杜绝“二选一”行为

    三部委:互联网平台企业限期整改,坚决杜绝“二选一”行为

    上头条,4月13日,国家市场监管总局、中央网信办、国家发改委税务总局联合召开互联网平台企业管理指导会。 会议指出,我国平台经济总体形势向好。 但在快速发展中,风险隐患也在逐渐积累。 危害不容忽视,依法治理刻不容缓。 强行实行“二选一”,滥用市场支配地位,实施“夹

    06-17

  • 广州南沙:设立50亿元产业引导基金,最高1000万元奖励高层次人才

    广州南沙:设立50亿元产业引导基金,最高1000万元奖励高层次人才

    投资界消息(ID:pedaily),6月6日,广州市政府新闻办召开《广州南沙新区创新链产业链关于资金链、人才链深度融入政策体系新闻发布会》。 据悉,该体系是国家级新区首个“四链”融合的政策文件。 初步测算,未来5年,广州南沙预计将投入1亿元以上,对企业和人才发展进行多层

    06-17

  • 英诺天使项目“中科原动力”完成过亿元A轮融资,加速农业机器人产品上市|英诺喜讯

    英诺天使项目“中科原动力”完成过亿元A轮融资,加速农业机器人产品上市|英诺喜讯

    英诺天使基金合伙人周全表示:“随着我国城镇化率不断提高,农村地区青壮年劳动力短缺日益严重,传统农业作业严重依赖农业操作人员,无人驾驶农机是解决上述矛盾的关键,与道路上的无人驾驶不同,无人驾驶农机需要与农业结合使用。 英诺天使基金作为中科第一轮天使投资人,非

    06-17

  • 世邦通信正在筹划A股IPO,中信证券担任辅导机构,

    世邦通信正在筹划A股IPO,中信证券担任辅导机构,

    世邦通信正在筹划A股IPO。 公司是一家以音频为中心的智能物联网解决方案提供商,专注于IP公共广播和IP内部对讲。 、IP高清拾音器三大系列产品的研发、设计、设备制造及系统集成。

    06-17

  • 福建省海洋经济产业投资基金注册成功,总规模200亿

    福建省海洋经济产业投资基金注册成功,总规模200亿

    据投资界(ID:pedaily)1月14日消息,福建省海洋经济产业投资基金母基金已注册近日,由宁德市国家投资公司发起设立的——福建省海洋经济产业投资有限公司在中国证券投资基金业协会成功注册。 根据宁德市政府相关批准,福建省海洋经济产业投资基金由宁德市国家投资公司发起设

    06-17

  • 融汇金科完成数百万美元B轮融资,由澳洲电信投资领投

    融汇金科完成数百万美元B轮融资,由澳洲电信投资领投

    投资界6月5日获悉,据36氪报道,融汇金科近期完成数百万美元B轮融资由澳洲电信投资公司领导。 本轮融资将用于系统、服务器、存储等方面的技术投资以及金融科技领域的人才招聘。 此前,融汇金科获得了红杉资本中国基金的A轮融资和华创中国领投的A+轮融资。 据了解,融汇金科是

    06-17

  • 乳品品牌“领养一头牛”完成A轮融资

    乳品品牌“领养一头牛”完成A轮融资

    近日,乳品品牌“领养一头牛”完成A轮融资。 本轮融资由KKR、耀明资本(DCP)联合领投,海邦沣华、广合投资跟投,木棉资本担任独家投资方。 本轮融资将主要用于扩大上游优质奶牛养殖规模,同时加速公司数字化升级和产业链精细化运营,提升用户体验。

    06-18