特斯拉Cybertruck上市,起售价6万美元; 快手推出独立“短剧App”西番;魅族正式宣布要“造车” -极客们已经知道
06-17
投资界(ID:pedaily)2月28日消息,Tiamat近期完成近千万美元A轮融资融资。
本次投资由老股东DCM和绿洲资本共同领投,愿景资本担任独家财务顾问。
本轮融资将用于继续打磨产品和自主研发的大车型,扩大商业化能力。
Tiamat成立于2016年,是国内AI图像生成技术服务商。
其自主研发的MorpherVLM是国内首个基于概念融合范式的近百亿级跨模态生成模型。
它采用异构视觉编解码网络结构,并引入强化学习(RLHF)和基于用户反馈的细粒度。
Tips - 潜变量对齐技术提高了模型对图像中多尺度信息进行建模的能力,并且在理解用户提示输入方面也取得了进展。
图为提亚马特的创作。
去年夏天,AIArt突然成为最热门的新兴技术,其在设计、绘画等专业领域的影响力不亚于ChatGPT带来的全民狂欢。
在AIGC的结构性机会下,“不追潮流,而是等待潮流到来”是科技创业者和资本最愿意看到的拥抱创新的方式。
从时差上看,Tiamat从2016年就开始进行模型训练,自研、独立训练底层模型,始终与海外技术节点、开源社区等保持同步。
告诉大家,这件事很快就会成为一种趋势。
” Tiamat创始人甘庆表示,去年上半年他们融资的时候,还需要花大量的精力去教育市场,解释什么是AI生成,什么是多模态,为什么我们需要使用图像?当时,距离Stable Diffusion、MidJourney等引领行业创新的产品推出还有几个月的时间。
作为国内AI生成图像领域最早的团队之一,Tiamat现已成为为数不多的成功融资并实现商业化的技术服务商之一。
Tiamat创始人甘庆与联合创始人Eric基于Tiamat自主研发的大规模模型和商业化的阶段性成果,探讨了AIGC未来在国内市场应用的可行性。
Q:从大模型出发,AI绘画与以ChatGPT为代表的对话式AI有什么区别?庆甘:AIGC的不同赛道其实在细节上有很多差异。
首先是这些模型是涉及单一模态还是多种模态。
我们的模型开辟了多种模式,这意味着用户可以使用文本来引导生成的图像,也可以使用草图来获得新的生成结果。
ChatGPT 作为一种专注于文本领域的理解和生成模型,只有一种模态:文本。
但同时它的参数较多,需要大量的时间和数据来清理有害信息。
所以实际花费的时间、精力、算力比我们AIArt领域要大很多。
从更直观的感受出发,如果文本中出现一些逻辑错误或者对话扭曲,用户很快就能感受到,不像那些可能更能容忍图片中的细微瑕疵。
我们正在研究的Tiamat文本到图像模型现在有大约数十亿个参数,这实际上比ChatGPT文本模型的参数数量低了近倍。
算起来当时的发展,大概是在GPT1-2之间。
因此,虽然都称为大模型,但数据和参数量值实际上有很大不同。
在此基础上,对于我们来说,不断扩大模型的参数量级并不是最重要的指标。
Eric:除了模态和输入类型的差异之外,生成的任务是另一个可供参考的维度。
当我们谈论AI时,其实有很多解释的空间,比如人脸识别、大数据文本分析等,它们更多的是对数据的理解。
但回到AIGC领域,更多的是基于理解而产生的。
ChatGPT首先可以很好地理解你的输入内容,并利用隐藏在自身参数中的知识来响应人类的输入。
在这方面我们可以与ChatGPT进行类比。
我们将使用多个不同的网络,将用户的输入放到一个对AI来说更自然的空间中,然后从这个空间中找到合适的答案。
这与之前生成理解类的AI不同。
图为Tiamat Creative Generation 问:AI生成图像比较重要的指标有哪些?青甘:更重要的指标是在垂直领域是否能够有更好的精准度和可控性,是否能够更好的让图像展现出理想的人体构图,或者人物的一致性等。
另外,我们对于自研的考虑也来了从如何让研发成本结构更加精简可控。
从这一点来看,初创企业也会有更多的机会。
刚才提到,图像和文本的多模态生成的领域参数量级较低,标注数据和训练的成本也可以得到有效压缩。
AIGC在整个图像品类的创新更注重具体的技术路径和商业化突破,成本压力相对较小。
目前文本领域的培训可能需要几千万到几百万美元,成本巨大。
Eric:是的,可控性也是与商业应用密切相关的一个指标。
当我们谈论大型模型时,就会出现一个问题。
许多大型模型都是建立在大规模数据集上的,其中大部分来自于互联网上获得的知识。
问题出现了:如何以人类可以控制的方式使用它来做这些大模型能做的事情?我们都知道OpenAI的GPT-3和ChatGPT在技术上是同源的,但是ChatGPT的效果明显更高,大家也直观地感受到了它在各行各业的应用。
在技??术方面,ChatGPT比GPT-3多了一个利用人类反馈的自学习过程,这可以使其应用更加符合预期。
因此,我们在制作Tiamat生成模型的时候,也会特别关注这一点,即如何让生成的结果满足用户的期望。
问:从去年下半年开始,AIGC 的运行速度非常快。
整个行业都是由资本驱动的。
它可能没有时间推出经过广泛验证的商业模式。
提亚马特如何考虑商业化?甘庆:从创业开始,我们就一直在开发自己的图像模型,自己训练,一步步优化迭代。
所以到目前为止,我们应该是国内AI成像领域商业化最快的。
去年第四季度,我们的合同订单有数百万元。
因为图像领域实际上需要的是更专业、更垂直的理解和生成。
以我们正在商业化的服装行业为例。
服装领域现在需要人工智能来取代设计师或者帮助设计师寻找灵感。
所以首先他们的输入法肯定是服装设计领域的“俚语”。
例如,什么样的领口布局和图案是外行不一定能理解的?行业知识。
因此,我们在制作行业模型时,首先会了解设计师之间的沟通语言,然后再了解相应的图片。
在这个过程中,我们可能需要重新构建一些图像文本作为训练数据集。
另外,我们会通过一些方法来增强AI对行业的理解,在大模型的基础上进行调整,然后才能做出针对行业的模型。
所以相比于其他非自主研发的图像生成公司,这就是我们可以展现优势的地方。
Q:在当前开源趋势下,非自研模型有哪些劣势?庆甘:文本图像生成领域基本上是去年二三月份开始公测的。
去年7、8月,SD(Stable Diffusion)等开源模型发布后,大批创业者进入该领域。
但开源模型本身的参数是固定的,模型本身并没有涵盖行业特定的知识和术语。
如果没有进一步有效的培训,许多用户输入很难理解。
而且在我们看来,纯开源模型本身在图像的准确性和可控性上还存在一些问题。
因此,我们在国内市场经常遇到的一些情况是,一些需要图像生成供应商的厂商可能会找到一些使用开源模式的公司,发现他们不能取得好的效果,然后来找我们。
所以自研也是我们商业化比较顺利的原因之一,因为非自研的服务商永远无法直接产生一个行业想要的东西。
Eric:开源的另一个问题是难以模仿数据训练的细节。
因为虽然Stable Diffusion自己的模型结果是开源的,但是对于一些具体的训练方法和细节大家还是不清楚。
举个例子,如果我们想做一个ChatGPT,这一系列的论文都是公开的,大家大概都知道它使用的参数和数据量,但是如果我们真的想从头开始做一个ChatGPT,遇到的难度会大得多还不如收集这么多数据。
所以当我们强调自研的时候,也意味着我们在图像生成工程上已经跨过了很多坑,现在才能够取得更好的阶段性成果。
图为Tiamat 创意提问:经过一段时间的商业化,您发现了哪些具体行业的商业化潜力?庆甘:我们最初主要关注一些垂直领域的中小企业,因为他们有很多定制化属性或者跨界合作的需求。
他们在市场层面也是最活跃的,接受度较高,客户反馈也较多。
许多。
其中,最发达的行业其实是广告及相关设计行业,因为该领域的中小型公司在调性、兴趣程度、需求强度、预算等方面表现较好。
。
我们的合作大部分都是主动进行的,一些定制案例帮助我们更深入地了解特定业务场景的痛点。
问:行业模型的积累是AIGC商业化的核心障碍吗?庆甘:从我们的角度来看,是的,甚至行业数据也会变得越来越重要。
因为未来大家可能都想拥有AI技术,差距可能是数据量,如何过滤有效数据,哪些数据是唯一的,包括用户的正反馈数据和负反馈数据。
这些东西会逐渐成为各个AI公司的壁垒,并逐渐走向不同的垂直领域。
不同类型的数据收集会产生不同的影响。
问:“大公司”进入AIGC会给初创公司带来压力吗?庆甘:当我们训练大型模型时,我们的目标是找到更有效、更有利的函数定义。
对于大厂商来说,基于产品生态,在训练语料数据量上会有一定优势,但可用性不一定更强。
此外,汉语词汇环境特点较为复杂,数据清洗难度很大。
目前文本的实际可用性并没有那么高,可能只有英文上下文可用性的1/20。
同时,就图像生成而言,没有观察到像文本领域那样由参数量引起的质变。
因此,在数据清理和数据选择方面,大公司经历的过程与初创公司没有太大区别。
当然,也不排除大公司有更好的驱动力,也有更多擅长数据清洗的人。
但从我们技术的角度来看,我们通常会开玩笑说,我们并不担心一个大制造商突然做出一个非常强大的东西,而是担心一个非常聪明的年轻人会利用有限的资源来做出一些东西。
非常有趣的技术和方向,解决了一个复杂的问题。
因为现在看来,人工智能可能更接近现代技术,但如果一项技术的工程潜力不是那么强,任何关于它的白日梦很快就会在下一代技术出现时被迭代。
Q:您如何评价ChatGPT引发的“AI浪潮”? Eric:现在的AI技术其实更像是以前的成像技术。
到了一个关键的技术节点之后,自然会有一些不同的流程。
比如有的做相机,有的做摄像机,ChatGPT从产品化上来说就像直接做电视一样。
大家现在的冲动可能来自于有一天看到电视,对电视上的图像呈现非常感兴趣,从而引发了对整个成像技术的兴趣。
但事实上,在用户兴趣的背后,不同的技术都有着各自不同的发展方向。
单纯做成像或者相机本身,也可以开发像徕卡、佳能这样的应用端公司,中间层还包括蔡司镜头。

细分市场的延伸不同,每个人都有自己独特的数据,但技术节点之后的市场空间会非常广阔,每个赛道都可能诞生非常大的公司。
ChatGPT一个非常重要的意义就是提高了大家对AI的接受度。
过去,人工智能只是帮助人类解决识别、分析、判断等辅助问题。
但现在关于人工智能的讨论已经发展到如何将其与人类工作流程有机结合,哪些环节应该直接交给人工智能,到什么程度,应该形成什么样的互动或相互依赖。
但这些必须针对访问特定的业务场景和工作流程。
图为Tiamat Creation Generation 问:我们如何理解将AIGC融入工作流程的重要性?甘庆:在某一点上,图像生成和文本生成可能存在很大差异。
例如,人工智能帮助我写一封电子邮件或一段文字。
可以平滑集成到生产力工具中,提高编辑效率,例如NotionAI。
但图像生成的最终标准是图像本身。
人们可能更关注图像的效果而不是工具体验的质量。
因为SD开源之后,人们其实制作了很多插件,放到了Blender、Figma等生产力环境中。
然而更多的用户并没有顺利使用这些插件。
相反,他们更喜欢去 MidJourney 生成图片,复制并下载以在工具中使用。
根本原因是MidJourney的生成质量要好很多。
当然,人们愿意在生成图像后快速使用一些小的二次编辑功能,但这与他们过去使用的软件并不冲突。
总体来说,我的感觉是,在图像生成领域,目前基于工具的接入方式还没有成为用户关注的焦点。
Q:未来Tiamat会考虑做文本语言模型吗?庆甘:我们公司整体的风格和选择的方向是比较集中的。
我们对前沿技术非常坚信,但我们更关心当前的技术能否解决当前的问题。
也许有能力的人会努力成为“中国的OpenAI”,但就目前而言,我们还没有理由建立像ChatGPT这样的大型文本模型。
因为对于一个初创公司来说,如果能够实现图像模型最好的可控性、准确性和连续性,其实是可以带来很多垂直行业和场景的商业应用的。
比如支持更细分、更具体的设计行业,帮助其提高生产力。
令我们高兴的是,我们看到AI技术正在走向“新互联网”形态,我们在产品策略上也会更加审慎。
一个非常有代表性的现象是,OpenAI可能没有思考过ChatGPT的商业应用场景,但国内的初创公司会更清楚地思考这些问题。
总体来说,AI是一个新的主题,每一个细分领域都值得仔细打磨。
只有专注他们擅长的事情,才能形成更好的行业。
DCM中国创始合伙人兼管理合伙人林信和表示:“AIGC正在走向真正落地,不仅要保持对前沿技术的探索,还要捕捉更多商业化机会,也更重要将AI能力迁移到不同的场景,同时满足效率和成本的要求,AI才能具有更大的价值。
”绿洲资本投资负责人表示:“Tiamat利用生成式AI自动生成新的图像数字内容。
通过结合已知的文字或图像文件,突破专业插画 绿洲资本从去年上半年开始就一直关注AIGC给行业带来的底层变化,我们认为Tiamat是基于特定风格的积累。
管道和社区用户的广泛影响力必将为用户提供新一代的创意设计工具产品。
Tiamat正在围绕设计的垂直场景逐步构建“基于AIGC”的工作流程,我们相信这将为整个创意产业带来巨大的变化。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态