如何选择海外即时通讯系统?企业出海的最佳选择
06-18
文生图模型成熟后,有多少人努力练习中途咒语,却始终得不到可用的图像?设计界的专业术语、不准确的英文翻译、难以理解的中国古代建筑,都存在于当前的文生图工具中。
本质上,源于国内很多团队基于翻译+英文开源Stable Diffusion模型,或者基于少量中文数据,在一些特殊场景下做了finetune。
这两种方法都存在对中文理解不够的问题,不具有普适性。
针对这些痛点,腾讯带来了中国本土文生图的大模型。
5月14日,腾讯宣布开源混元文生地图模型。
它是中国第一个本土化的DiT架构模型。
具有中英文双语理解和生成能力。
它可以生成古诗词、俚语、传统建筑、中餐等中国元素。
杰出的。
例如,对于同时包含关键字“昆曲”和“狗不理包子”的提示,通过比较不同对的文生图模型,浑源生成了最匹配的图像对:为了进一步降低用户的门槛,解决了以下问题:几个提示。
对于一张图片的问题,相比之前大多数孔图模型77个??字符的输入,混元支持最多字符的输入,简直就是孔图界的“Kimi”。
我们简单尝试了腾讯混元文生图模型的长文本能力,发现当给用户足够的输入空间来描述图像细节时,生成结果的可控性变得更高。
例如,向混元模型抛出一个字符长的提示:一张详细的照片捕获了一个类似古代法老的雕像的图像,头上意外地戴着一副青铜蒸汽朋克护目镜。
雕像身着复古别致的服装,清爽的白色T恤和合身的黑色皮夹克,与传统的头饰形成鲜明对比。
背景是简单的纯色,突出了雕像非常规服装和蒸汽朋克眼镜的复杂细节。
生成的效果如下:此功能是一项重大进步,特别是对于专业用户而言,通过更丰富、更详细的描述来增强图像的相关性和准确性。
混元文生地图模型除了具备长文本输入的基本能力外,还根据用户的使用场景,支持用户文本重写和多轮(十轮以上)绘制,保证生成结果的可用性。
这也是腾讯首次开源大型模型,可能为后续主模型的开源做好铺垫。
文生像也需要DiT吗?混元文生大模型的差异源于底层技术架构。
架构方面,混元文生地图模型采用DiT架构,支持中英文双语输入和理解,拥有15亿个参数。
Sora推广的DiT架构结合了扩散模型和Transformer架构的优点,提供了强大的视觉生成能力。
该架构不仅可以用于文生图,还可以作为生成视频和其他多模态视觉内容的基础。
。
据Silicon Star报道,腾讯混元团队认为,基于Transformer架构的扩散模型(如DiT)具有更大的可扩展性,很可能成为下一代主流视觉生成架构。
很可能会变成文生图、视频生成、3D生成。
用于多模态视觉生成的统一架构。
“Transformer具有非常强大的扩展能力,目前我们还不知道它的天花板在哪里,这也是我们坚定地向Transformer迈进的原因。
”腾讯文生地图负责人卢庆林解释道。
混元文生图从今年7月份开始定义了基于Transformer架构的文生图模型,并开始了为期半年的研发、优化和打磨。
今年2月初,模型基础设施从U-Net升级为Transformer。
在这个过程中,腾讯混元主要从三个方面进行了改进和优化: 模型算法是模型的灵魂。
Hunyuan 在模型中添加了 LLM 组件,使 DiT 架构具备了理解长文本的能力。
同时,它使用多模态大语言模型来增强简单/抽象的用户命令文本,并将其转录成更丰富/具体的图片。
文字描述最终提高了文生图片的生成效果;通过中文原生文本编码器的独立训练,增加了对原生中文的理解能力,并且还支持英文;另外,通过技术手段控制同一题材、同一主题下图片主题的一致性。
增加了进行多轮对话的能力。

数据是决定模型质量的养料。
为了解决文生图模型训练数据量不足、质量低的问题,腾讯混元团队采用了一些系统的方法来提高数据的数量和质量。
包括语言模型数据质量优化和图像训练数据处理流程(数据管道)优化。
提高语言模型数据质量主要从完善图像文本描述和建立多维数据集开始。
首先,腾讯混元团队构建了能够描述图像详细内容的结构化文本。
这些描述不仅准确,而且包含丰富的知识点。
例如,将专家意见和专门设计的文本模型相结合,提高描述质量,使模型学习到的数据更有意义、更具体。
其次,他们创建了一个包含多个方面和主题的数据集,这样无论训练数据有多么多样化,模型都能够根据不同的指令适应和生成内容,使其能够更好地适应各种情况。
在图像训练数据处理(数据管道)优化方面,采用高效、准确的自动标注系统获取图像,同时对图像内容进行标注和分层,并根据图像质量服务于不同级别的模型。
此外,为了提供优质、均衡的数据样本,降低数据变更带来的风险,腾讯混元团队设计了“数据穿梭”机制。
通过比较在线模型的模型性能和变化后的样本分布,评估不同类型训练样本对模型的影响,形成循环优化的训练样本调整过程。
除此之外,工程流程的效率提升空间最大。
为了更好地提高模型训练和运行的效率,提高计算资源的利用率,腾讯Pututu团队为模型构建了专属的工程加速工具库。
同时,针对大型模型训练和推理场景,采用腾讯自研的Angel机器学习平台,主要包括负责训练的AngelPTM和负责推理的AngelHCF两部分,从而提高训练效率。
正是通过这一系列的努力,腾讯混元文生图模型的效果得到了提升和优化。
根据腾讯技术报告中的评测结果,最新的腾讯混元文生图模型远比开源的Stable Diffusion模型有效,是目前最好的开源的文生图模型。
卢庆林还表示,目前的混元文生地图模型与闭源相比,有其自身的优势和劣势。
“我们希望通过我们的开源,我们可以缩小这一差距。
”同时,他还明确表示,未来混源将主要通过两个方面进一步缩小差距:数据方面,图文对已从去年的500个扩大到6亿个。
达到20亿,并且未来还会继续扩大,包括更高质量的筛选;模型方面,目前参数数量为15亿,更大参数的模型已经在尝试。
腾讯拥抱大模型开源路线?据Silicon Star报道,开源的混元文生地图模型已在Hugging Face平台和Github上发布。
包含模型权重、推理代码、模型算法等完整模型,可供企业和个人开发者免费商业使用。
这次开源可以算是一次比较完整的开源行为。
它不仅提供了必要的技术文档和代码,而且允许商业使用,这对促进技术发展和应用具有积极作用。
值得一提的是,开源的混元文生地图模型与最新版本的腾讯混元文生地图产品(包括微信小程序、Web客户端、云API等)完全一致。
“我们希望拿出最好的东西,并与我们的社区和行业合作伙伴一起应用它们。
”显然,混元文生大模型的开源被视为他想要加入开源阵营的重要信号。
在混元之前,整个大型模型行业对于开源还是闭源的话题充满争议。
做闭源的人抱怨“开源大模型没有竞争力”,做开源的人控诉“OpenAI不开放”。
OpenAI是闭源阵营的坚定拥护者,押注于创建更强的通用模型;开源阵营Meta、Google、国内的阿里巴巴也在不断迭代。
当然,也有其他大型模型公司选择中间道路:“低配版”模型开源,参数量较高的模型闭源。
例如Google的Gemini多模态模型是闭源的,单模态的Gemma语言模型是开源的; Mistral最新的旗舰大型型号Mistral Large也是闭源的。
即便如此,随着去年底到今年的趋势,越来越多的后来者选择了开放模式。
同时,有目共睹的是,开源是推动创新的重要力量。
整个大模型行业的快速发展也是基于开源技术。
如果 Google 没有开源 Transformer,就不会有 GPT。
如果没有 TensorFlow 和 PyTorch 等开源机器学习库,今天的大规模模型训练和部署就不会得到简化。
Meta的Llama也让我们看到了高质量的开源项目能为企业带来什么。
长期利益。
大型模型公司采取开源策略,一方面是为了抓住市场机会,吸引没有足够资金和资源支持的用户免费使用其开源模型;另一方面,开源可以促进良好的用户交互,企业可以通过收集用户的反馈来收集数据,了解他们的使用难点可以快速优化和改进模型。
这种做法不仅增加了用户基础,还加速了产品技术创新和版本迭代,最终导致规则设计和生态系统建设。
腾讯开源混元文生地图模型可能更注重展示腾讯的技术实力和开放合作的态度。
“开源社区让大家都参与,共建才能走得更快,这就是我们现在做开源的原因。
”陆青林说道。
此时选择尝试开源,不仅是行业的选择,对于腾讯自身来说也具有更现实的意义。
今年3月以来,腾讯在大模型领域长期闭源低调。
马化腾在腾讯年度股东大会上表示:“不急于提前完成工作,展示半成品。
”在所有人都在加速的AI时代,Pony仍然是一个“慢人”。
在此背景下,腾讯的大模式更加注重强化内部商业化路径。
卢庆林表示,“腾讯内部的业务场景非常丰富,给他们带来价值是非常好的。
” 5月14日,腾讯最新财报中,广告业务与AI的结合成为一大亮点。
财报显示:网络广告业务收入的增长得益于用户参与度的提升以及集团不断升级的AI驱动广告技术平台;广告技术平台已升级,帮助广告主更有效地开展广告,并已向所有广告主推出。
生成式人工智能驱动的广告创意工具。
目前还不清楚腾讯是否会推动大模型的进一步开源,但混元文生大模型的开源至少是一个积极的信号。
接下来,就看腾讯是否会发布更多“成品”了。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-21
最新文章
首先告诉我什么是智能汽车!
盲盒明星卡的暴利与泡沫:2元卡卖700万,直播卖卡月入百万
黑色星期五轰轰烈烈地回来了,结果这些中国企业扛起了全场
锂电池隔膜疯狂扩产:兴源材料欲夺回C位?
当我考上缅语专业时:凌晨三点我还在走廊里背单词,毕业后,我不仅仅是一名翻译者
被遗弃,被收获?老年人上网到底有多难?
海外日报 -今年,我国自主研发游戏海外实际销售收入实现两位数增长;三星电子正式成立机器人业务团队36氪海外·15分钟前
腾讯音乐:爱、相信、坚持