首页 > 技术迭代 > 内容

腾讯开发混元文生图模型已经快一年了,说是开源就是开源吗?

发布于:2024-06-28 编辑:匿名 来源:网络

文生图模型成熟后,有多少人努力练习中途咒语,却始终得不到可用的图像?设计界的专业术语、不准确的英文翻译、难以理解的中国古代建筑,都存在于当前的文生图工具中。

本质上,源于国内很多团队基于翻译+英文开源Stable Diffusion模型,或者基于少量中文数据,在一些特殊场景下做了finetune。

这两种方法都存在对中文理解不够的问题,不具有普适性。

针对这些痛点,腾讯带来了中国本土文生图的大模型。

5月14日,腾讯宣布开源混元文生地图模型。

它是中国第一个本土化的DiT架构模型。

具有中英文双语理解和生成能力。

它可以生成古诗词、俚语、传统建筑、中餐等中国元素。

杰出的。

例如,对于同时包含关键字“昆曲”和“狗不理包子”的提示,通过比较不同对的文生图模型,浑源生成了最匹配的图像对:为了进一步降低用户的门槛,解决了以下问题:几个提示。

对于一张图片的问题,相比之前大多数孔图模型77个??字符的输入,混元支持最多字符的输入,简直就是孔图界的“Kimi”。

我们简单尝试了腾讯混元文生图模型的长文本能力,发现当给用户足够的输入空间来描述图像细节时,生成结果的可控性变得更高。

例如,向混元模型抛出一个字符长的提示:一张详细的照片捕获了一个类似古代法老的雕像的图像,头上意外地戴着一副青铜蒸汽朋克护目镜。

雕像身着复古别致的服装,清爽的白色T恤和合身的黑色皮夹克,与传统的头饰形成鲜明对比。

背景是简单的纯色,突出了雕像非常规服装和蒸汽朋克眼镜的复杂细节。

生成的效果如下:此功能是一项重大进步,特别是对于专业用户而言,通过更丰富、更详细的描述来增强图像的相关性和准确性。

混元文生地图模型除了具备长文本输入的基本能力外,还根据用户的使用场景,支持用户文本重写和多轮(十轮以上)绘制,保证生成结果的可用性。

这也是腾讯首次开源大型模型,可能为后续主模型的开源做好铺垫。

文生像也需要DiT吗?混元文生大模型的差异源于底层技术架构。

架构方面,混元文生地图模型采用DiT架构,支持中英文双语输入和理解,拥有15亿个参数。

Sora推广的DiT架构结合了扩散模型和Transformer架构的优点,提供了强大的视觉生成能力。

该架构不仅可以用于文生图,还可以作为生成视频和其他多模态视觉内容的基础。

据Silicon Star报道,腾讯混元团队认为,基于Transformer架构的扩散模型(如DiT)具有更大的可扩展性,很可能成为下一代主流视觉生成架构。

很可能会变成文生图、视频生成、3D生成。

用于多模态视觉生成的统一架构。

“Transformer具有非常强大的扩展能力,目前我们还不知道它的天花板在哪里,这也是我们坚定地向Transformer迈进的原因。

”腾讯文生地图负责人卢庆林解释道。

混元文生图从今年7月份开始定义了基于Transformer架构的文生图模型,并开始了为期半年的研发、优化和打磨。

今年2月初,模型基础设施从U-Net升级为Transformer。

在这个过程中,腾讯混元主要从三个方面进行了改进和优化: 模型算法是模型的灵魂。

Hunyuan 在模型中添加了 LLM 组件,使 DiT 架构具备了理解长文本的能力。

同时,它使用多模态大语言模型来增强简单/抽象的用户命令文本,并将其转录成更丰富/具体的图片。

文字描述最终提高了文生图片的生成效果;通过中文原生文本编码器的独立训练,增加了对原生中文的理解能力,并且还支持英文;另外,通过技术手段控制同一题材、同一主题下图片主题的一致性。

增加了进行多轮对话的能力。

腾讯开发混元文生图模型已经快一年了,说是开源就是开源吗?

数据是决定模型质量的养料。

为了解决文生图模型训练数据量不足、质量低的问题,腾讯混元团队采用了一些系统的方法来提高数据的数量和质量。

包括语言模型数据质量优化和图像训练数据处理流程(数据管道)优化。

提高语言模型数据质量主要从完善图像文本描述和建立多维数据集开始。

首先,腾讯混元团队构建了能够描述图像详细内容的结构化文本。

这些描述不仅准确,而且包含丰富的知识点。

例如,将专家意见和专门设计的文本模型相结合,提高描述质量,使模型学习到的数据更有意义、更具体。

其次,他们创建了一个包含多个方面和主题的数据集,这样无论训练数据有多么多样化,模型都能够根据不同的指令适应和生成内容,使其能够更好地适应各种情况。

在图像训练数据处理(数据管道)优化方面,采用高效、准确的自动标注系统获取图像,同时对图像内容进行标注和分层,并根据图像质量服务于不同级别的模型。

此外,为了提供优质、均衡的数据样本,降低数据变更带来的风险,腾讯混元团队设计了“数据穿梭”机制。

通过比较在线模型的模型性能和变化后的样本分布,评估不同类型训练样本对模型的影响,形成循环优化的训练样本调整过程。

除此之外,工程流程的效率提升空间最大。

为了更好地提高模型训练和运行的效率,提高计算资源的利用率,腾讯Pututu团队为模型构建了专属的工程加速工具库。

同时,针对大型模型训练和推理场景,采用腾讯自研的Angel机器学习平台,主要包括负责训练的AngelPTM和负责推理的AngelHCF两部分,从而提高训练效率。

正是通过这一系列的努力,腾讯混元文生图模型的效果得到了提升和优化。

根据腾讯技术报告中的评测结果,最新的腾讯混元文生图模型远比开源的Stable Diffusion模型有效,是目前最好的开源的文生图模型。

卢庆林还表示,目前的混元文生地图模型与闭源相比,有其自身的优势和劣势。

“我们希望通过我们的开源,我们可以缩小这一差距。

”同时,他还明确表示,未来混源将主要通过两个方面进一步缩小差距:数据方面,图文对已从去年的500个扩大到6亿个。

达到20亿,并且未来还会继续扩大,包括更高质量的筛选;模型方面,目前参数数量为15亿,更大参数的模型已经在尝试。

腾讯拥抱大模型开源路线?据Silicon Star报道,开源的混元文生地图模型已在Hugging Face平台和Github上发布。

包含模型权重、推理代码、模型算法等完整模型,可供企业和个人开发者免费商业使用。

这次开源可以算是一次比较完整的开源行为。

它不仅提供了必要的技术文档和代码,而且允许商业使用,这对促进技术发展和应用具有积极作用。

值得一提的是,开源的混元文生地图模型与最新版本的腾讯混元文生地图产品(包括微信小程序、Web客户端、云API等)完全一致。

“我们希望拿出最好的东西,并与我们的社区和行业合作伙伴一起应用它们。

”显然,混元文生大模型的开源被视为他想要加入开源阵营的重要信号。

在混元之前,整个大型模型行业对于开源还是闭源的话题充满争议。

做闭源的人抱怨“开源大模型没有竞争力”,做开源的人控诉“OpenAI不开放”。

OpenAI是闭源阵营的坚定拥护者,押注于创建更强的通用模型;开源阵营Meta、Google、国内的阿里巴巴也在不断迭代。

当然,也有其他大型模型公司选择中间道路:“低配版”模型开源,参数量较高的模型闭源。

例如Google的Gemini多模态模型是闭源的,单模态的Gemma语言模型是开源的; Mistral最新的旗舰大型型号Mistral Large也是闭源的。

即便如此,随着去年底到今年的趋势,越来越多的后来者选择了开放模式。

同时,有目共睹的是,开源是推动创新的重要力量。

整个大模型行业的快速发展也是基于开源技术。

如果 Google 没有开源 Transformer,就不会有 GPT。

如果没有 TensorFlow 和 PyTorch 等开源机器学习库,今天的大规模模型训练和部署就不会得到简化。

Meta的Llama也让我们看到了高质量的开源项目能为企业带来什么。

长期利益。

大型模型公司采取开源策略,一方面是为了抓住市场机会,吸引没有足够资金和资源支持的用户免费使用其开源模型;另一方面,开源可以促进良好的用户交互,企业可以通过收集用户的反馈来收集数据,了解他们的使用难点可以快速优化和改进模型。

这种做法不仅增加了用户基础,还加速了产品技术创新和版本迭代,最终导致规则设计和生态系统建设。

腾讯开源混元文生地图模型可能更注重展示腾讯的技术实力和开放合作的态度。

“开源社区让大家都参与,共建才能走得更快,这就是我们现在做开源的原因。

”陆青林说道。

此时选择尝试开源,不仅是行业的选择,对于腾讯自身来说也具有更现实的意义。

今年3月以来,腾讯在大模型领域长期闭源低调。

马化腾在腾讯年度股东大会上表示:“不急于提前完成工作,展示半成品。

”在所有人都在加速的AI时代,Pony仍然是一个“慢人”。

在此背景下,腾讯的大模式更加注重强化内部商业化路径。

卢庆林表示,“腾讯内部的业务场景非常丰富,给他们带来价值是非常好的。

” 5月14日,腾讯最新财报中,广告业务与AI的结合成为一大亮点。

财报显示:网络广告业务收入的增长得益于用户参与度的提升以及集团不断升级的AI驱动广告技术平台;广告技术平台已升级,帮助广告主更有效地开展广告,并已向所有广告主推出。

生成式人工智能驱动的广告创意工具。

目前还不清楚腾讯是否会推动大模型的进一步开源,但混元文生大模型的开源至少是一个积极的信号。

接下来,就看腾讯是否会发布更多“成品”了。

腾讯开发混元文生图模型已经快一年了,说是开源就是开源吗?

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 如何选择海外即时通讯系统?企业出海的最佳选择

    如何选择海外即时通讯系统?企业出海的最佳选择

    .wp-block-column h3{margin-left:0} 随着全球化的加速,越来越多的企业选择出海,海外即时通讯系统成为首选企业出海的选择。 必备工具之一。 选择一款合适的海外即时通讯系统对于海外企业来说至关重要。 那么,如何选择海外即时通讯系统呢?海外企业该如何在众多产品中做出最

    06-18

  • 中巴人民币母基金启动

    中巴人民币母基金启动

    投资界(ID:pedaily),北京时间6月1日,中巴产业发展投资基金启动并举行首批重大项目签约。 中巴产业投资母基金的设立规模为1亿元人民币,旨在促进巴基斯坦经济建设、改善民生,促进中巴产业合作。 该基金将重点投资智能家居、大宗商品交易、能源与新能源、人才培训与合作、

    06-18

  • 安踏要抢lululemon的生意

    安踏要抢lululemon的生意

    一直在运动服饰圈“买买买”的安踏,把目光聚焦在瑜伽服赛道上。 10月16日,安踏早间发布公告称,旗下子公司已于13日与玛伊娅服饰(上海)有限公司部分股东签订多项买卖协议,拟收购玛伊娅服饰(上海)有限公司75.13%的股权。 目标公司。 。 当日,香港服装股再度上涨,迅销(

    06-18

  • “跳转App阅读更多”已经成为移动互联网的拦路虎

    “跳转App阅读更多”已经成为移动互联网的拦路虎

    事情是这样的:这两天,系统邮件客户端一直提醒我“邮件账号设置已过期”,就是说,邮件无法同步。 登录网页版邮箱后,我才意识到问题所在:邮箱的POP3/SMTP服务(一套向客户端传输邮件的协议)被莫名其妙地关闭了。 到了这一步,似乎还只是一个小问题。 需要做的就是打开服务

    06-21

  • B612 Kaji 完成 5000 万美元 A 轮融资,红杉资本领投

    B612 Kaji 完成 5000 万美元 A 轮融资,红杉资本领投

    据投资界 1 月 31 日消息,B612 Kaji 近日完成 1 万美元 A 轮融资,由红杉资本领投。 BKaji官方表示,本轮融资将用于AR业务的长期拓展。 业务范围不仅包括中国,还将逐步拓展到海外,与更多合作伙伴达成合作,进一步扩大应用基础。   BKaji于今年1月成立。 它是一款美颜相

    06-17

  • 港交所回应推出SPAC:不时研究加强或改革上市制度的计划

    港交所回应推出SPAC:不时研究加强或改革上市制度的计划

    港交所回应称不时研究加强或改革上市制度的各种计划上市系统。 我们致力于提高香港新股市场的竞争力和吸引力,并确保维持市场质量。

    06-18

  • 开源 -谷歌发布最新“天马”模型,自动生成超越人类的文本摘要!

    开源 -谷歌发布最新“天马”模型,自动生成超越人类的文本摘要!

    我们知道Transfromer在处理长文本序列方面比CNN/RNN表现更好。 因此,最强大的预训练模型,例如BERT和GPT,都使用了Transfromer基础设施。 并且已经证明,在处理机器翻译、文本摘要、语音识别、问答系统等多语言任务时,只需微调即可实现 SOTA 性能。 然而,Transfromer 的自

    06-18

  • Paige Biotech已完成天士力领投的2000万美元E轮融资,患有糖尿病和肥胖症的患者有福了

    Paige Biotech已完成天士力领投的2000万美元E轮融资,患有糖尿病和肥胖症的患者有福了

    据投资界7月17日消息,创新药物研发公司佩奇生物科技宣布完成天士力领投的1万美元E轮融资。 投掷。   此前,PegMed分别于2016年和2018年获得联想之星两轮投资,首期投资1万美元,追加投资1万美元。 此外,PegMed还获得了元和控股和明信中国成长基金的投资。 投资。   Pe

    06-18

  • Teledyne e2v 获得 MIL-PRF-38535 Y 级航空航天认证,成为欧洲第一家半导体制造商

    Teledyne e2v 获得 MIL-PRF-38535 Y 级航空航天认证,成为欧洲第一家半导体制造商

    Teledyne e2v 位于法国格勒诺布尔的半导体生产基地获得美国国防后勤局 (DLA) MIL-PRF- 的全球认可5 Y 级认证。 法国格勒诺布尔 - 7 月 3 日 - Teledyne e2v 已获得 DLA 颁发的 MIL-PRF-5 Y 级认证,成为欧洲第一家、全球第三家获得此殊荣的半导体制造商。 该认证简称为QML L

    06-06

  • Fund Admin Chain完成种子轮融资,由领沨资本领投

    Fund Admin Chain完成种子轮融资,由领沨资本领投

    12月21日消息,Fund Admin Chain(以下简称FAC)近日宣布完成首期10000英镑(约万人民币)天使轮融资。 本轮融资由深耕金融科技领域的领沨资本和QBN资本联合领投。 FAC第二期天使轮融资预计将于今年2月结束。 FAC 总部位于伦敦,专注于传统基金管理流程的数字化。 FAC致力于

    06-17

  • “博清科技”完成新一轮数千万元融资,由沃言资本领投

    “博清科技”完成新一轮数千万元融资,由沃言资本领投

    投资圈(ID:pedaily)9月23日消息,北京博清科技有限公司近日宣布完成一轮融资新一轮融资数千万元。 一轮融资。 本轮融资由沃言资本领投,合肥创新投资跟投,唯贤资本担任独家投资方。 北京博清科技有限公司(以下简称:博清科技)是一家专注于智能特种机器人研发、生产、销

    06-18

  • 新城控股前三个月销售额同比增长60.25%,位列江苏省销售面积第一

    新城控股前三个月销售额同比增长60.25%,位列江苏省销售面积第一

    新城控股发布3月份及今年一季度经营简报。

    06-18