天风天瑞两只基金已完成募资设立,总规模达2.5亿元,
06-18
当地时间12月6日,谷歌正式公布了最新的大型机型Gemini 1.0。
Gemini 1.0 与 LLaMA 模型类似。
它也是一个系列模型,包括三个版本: Gemini Ultra——参数数量最多,能力最强,适合高度复杂的任务。
Gemini Pro – 可以扩展到多种任务的模型。
Gemini Nano - 高效的设备端任务模型。
Gemini 1.0 侧重于多模态能力。
谷歌将 Gemini 定义为“原生多模式”模型。
在模型能力方面,谷歌表示,在大型语言模型(LLM)研发中使用的 32 个广泛使用的学术基准中,Gemini Ultra 的性能超过了当前最先进的结果中的 30 个。
在MMLU(大规模多任务语言理解)测试框架中,Gemini Ultra 得分高达 90.0%,甚至超越了人类专家。
Gemini 被 Google CEO Sundar Pichai 称为“Google 迄今为止最大、最强大的 AI 模型”。
Sundar Pichai 在 Gemini 官方公告博客上写道:“在许多领先基准测试中都具有先进的性能。
Google 的第一个版本 Gemini 1.0 针对不同的外形尺寸进行了优化:Ultra、Pro 和 Nano。
这些是 Gemini 时代的第一个型号,也是第一个为了实现谷歌今年早些时候创建谷歌 DeepMind 时的愿景,这个新时代的模型代表了谷歌作为一家公司所做的最大的科学和工程努力之一,Gemini 对于它将给世界各地的人们带来的机会感到非常兴奋。
”目前,谷歌官方宣称其旗舰聊天机器人Bard已经升级至Gemini Pro版本,其在推理、规划、理解等方面的能力得到了显着提升,并将继续免费为用户提供服务。
谷歌预计明年初推出更先进的“Bard Advanced”,它将使用Gemini Ultra,而在Gemini、PaLM 2和LaMDA发布之前,谷歌主要在生成式AI和LLM方面推广的两个模型还没有出现。
在用户中获得了很高的评价,远远落后于业界领先的GPT-4,因此传闻中谷歌研发重点的Gemini模型一直备受期待。
Gemini 也是 Google Brain 和 DeepMind 合并形成 Google DeepMind 后最重要的产品。
我们来看看,双子座在哪里? 01 超越人类专家,离强人工智能又近了一步? “Gemini 在 MMLU 基准测试中超越了人类专家。
”虽然,有了AlphaGo的经验,我们并不认为AI在某些领域超越人类是什么新鲜事。
但今天与过去不同。
在AGI和ChatGPT带来的强人工智能的“威慑”下,任何号称优于人类的AI,或多或少都会引起人们的关注。
那么在这个测试集上超越人类专家到底有多强大呢? 大型语言模型(LLM)的主流评估数据集包括:GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。
通常用于评估模型在语言理解、推理、阅读理解和常识推理方面的能力。
MMLU(大规模多任务语言理解)是一个测试集,结合了数学、物理、历史、法律、医学和伦理学等 57 个学科。
与其他测试集相比,MMLU 更加广泛和深入。
它考验AI模型通过大量、多样化的任务理解自然语言的能力,尤其是在复杂多变的现实场景中的表现。
这使得MMLU成为综合评估和促进大型语言模型发展最具挑战性的评估框架。
GPT-4 和 Gemini 在 MMLU 测试集上的比较 该框架通常包含数千个不同的任务,涵盖广泛的主题和挑战。
MMLU的目的是提供一种全面且多样化的方法来测试和评估语言模型在各种复杂和现实场景中的性能。
测试任务可能包括理解笑话、回答有关世界历史的问题、解释科学现象以及许多其他更接近人类知识、常识和理解的项目。
在MMLU测试中超越人类专家也可以理解为在这个测试框架下,Gemini在“各种复杂和现实场景下的表现”上超越了人类专家。
谷歌在其官方博客中表示:Gemini 使用 MMLU 基准方法使 Gemini 能够利用其推理能力在回答难题之前更仔细地思考,从而比仅使用 * 印象得到显着改进。
除此之外,Gemini Ultra 还在新的 MMMU(专家 AGI 大规模多学科多模态理解和推理)基准测试中取得了 59.4% 的最高分,该基准测试由跨不同领域的深思熟虑的推理组成。
域。
由多模式任务组成。
谷歌的测试表明,Gemini Ultra 的性能优于之前最先进的模型,无需借助对象字符识别 (OCR) 系统从图像中提取文本以进行进一步处理。
这些基准凸显了双子座与生俱来的多模态性,并显示了双子座更复杂推理能力的早期迹象。
Gemini 在文本、编码等一系列基准测试中的表现在某个测试集上超越了人类专家。
虽然距离AGI或者强人工智能还有很远的距离,但仍然可以说是在这条道路上迈出了坚实的一步。
。
02 原生多模态,比GPT-4更强大? 事实上,Gemini的LLM表现并不是它的亮点。
Gemini真正值得关注的差异化能力是“原生多模态”。
首先,什么是“双子座原生多模态”? 原生多模态能力是指Gemini模型直接理解和处理多种不同类型的数据而不需要额外的专门处理或转换的固有能力。
有人可能会问,这和GPT-4有什么不同? 我们打个简单的比方:如果GPT-4是一位诗人,他不仅擅长写诗,而且还会画画,但写诗是他的职业,画画只是他的副业。
GPT-4可以处理文本(写诗)和图片(画画),但主要强在文字处理方面。
拥有“天生的多模态能力”的双子座,是诗人和画家的“双才”。
他诗书画画同样出色,谁也不比谁弱。
双子座可以处理文本和图像,并且两者都做得很好,没有优先级。
GPT-4的多模态能力可能更多地是通过将不同模型的能力集成到一个框架中来实现的,而不是所有功能都在一个统一的模型中原生实现。
作为一个大型语言模型,GPT-4的主要优化和训练是围绕语言理解和生成。
对于图像处理来说,虽然它展现出了一定的能力,但可能不如那些专门针对图像处理优化的模型。
真正的本地多模式模型在所有模式之间进行平衡和优化。
双子座的多模态理解能力。
原生多模态能力意味着模型能够更自然、高效地处理和融合多种类型的数据,这对于实现更复杂的人工智能应用具有重要意义。
当然,这也更接近人类的理解。
人类在认识世界时,会自然地整合视觉、听觉、语言等多种感官的信息。
具有本地多模态能力的AI模型在处理信息时也采用类似的综合方法,更接近人类理解和识别的方式。
03 全面“击败”GPT-4 Gemini不仅在模型能力、多模态能力上敢于与GPT-4抗衡。
在应用方面,也提供了更多的选择。
“小型号” Gemini Nano 型号是该型号系列中最小的型号,旨在适用于内存受限的端侧设备。
它在各种任务上表现出出色的性能,特别是多模式和多语言处理。
Gemini Nano 的这些功能使其成为适合在资源有限的环境中使用的强大工具。
虽然目前大模型的主流趋势仍然是“云端诞生”,但在未来AI的商业化中,离线化、个性化、小型化的端侧模型越来越受到关注。
过去几个月,高通、联想等多家巨头多次强调在端侧生成AI的战略布局。
高通推出的最新一代Snapdragon芯片为生成式AI提供了强有力的支持。

联想提出了AI PC的概念,并强调未来现有的所有产品都将围绕AI进行根本性的变革。
不过,虽然硬件设备厂商非常活跃,但AI厂商对于终端侧的关注度却并不高。
以数百款车型竞争的国内市场为例,目前只有个位数厂商正式公布了自己的小型端对端车型。
其中包括雷军在8月年度演讲中提到的13亿参数版本的小米MiLM模型,以及12月1日统一钱文开源的Qwen-1.8B模型。
在这方面,相比OpenAI,谷歌更胜一筹有动力研究小型端侧模型。
毕竟谷歌本身就拥有Pixel手机和Android的双重优势。
训练谷歌在Gemini的训练过程中使用了大量自研的张量处理单元(TPU)v4和v5e。
在 TPU 上,Gemini 的运行速度明显快于早期、较小且功能较弱的型号。
这些定制设计的人工智能加速器一直是谷歌人工智能产品的核心,为搜索、YouTube、Gmail、谷歌地图、Google Play 和 Android 的数十亿用户提供支持。
它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。
Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机。
随着Gemini的出现,谷歌还宣布了TPU系统最强大的升级——Cloud TPU v5p,专为训练尖端AI模型而设计。
在训练优化方面,Gemini增加了模型并行性和数据并行性的利用率,优化了网络延迟和带宽。
Gemini 还使用 Jax 和 Pathways 编程模型为复杂的数学运算(例如机器学习中常见的数学运算)提供优化支持。
Jax 特别适合高效执行大规模数组操作。
路径是指用于管理和协调大规模培训任务的编程模型或框架。
通过使用这些工具,Gemini模型的开发人员可以使用单个Python进程来协调整个训练过程,这可以简化开发和训练工作流程,同时利用Jax和Pathways的高效性能。
复杂推理能力Gemini 1.0的复杂多模态推理能力可以帮助理解复杂的书面和视觉信息。
这赋予了它在大量数据中发现难以辨别的知识的独特能力。
为物理作业评分其*通过阅读、过滤和理解信息从数十万份文档中提取见解的能力将有助于在从科学到金融的许多领域以数字速度实现新的突破。
Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等,因此它可以更好地理解微妙信息并回答有关复杂主题的问题。
这使得它特别擅长解释数学和物理等复杂学科的推理。
编程双子座能够理解、解释并生成世界上最好的编程语言(例如 Python、Java、C++ 和 Go)的高质量代码。
它跨语言工作和推理复杂信息的能力使其成为世界顶级的编码基础模型之一。
Gemini Ultra 在多个编码基准测试中表现良好,包括 HumanEval(评估编码任务性能的重要行业标准)和 Natural2Code(Google 内部保存的数据集),该数据集使用作者生成的源而不是基于网络的信息。
Gemini 还可以用作更高级编码系统的引擎。
两年前,谷歌推出了AlphaCode,一个竞赛级别的人工智能代码生成系统。
现在基于Gemini技术开发,AlphaCode 2刚刚开发出来,专门针对竞技性编程任务进行了优化和增强。
04 Gemini的下一步计划 虽然谷歌在技术文档和官方博客中对Gemini赞誉有加,但似乎已经踩上了OpenAI。
但今天发布的其实只是一份“论文”。
真正能够对标GPT-4的Gemini Ultra要到明年初才会推出。
Gemini 家族的第二个孩子 Gemini Pro 现在已准备好开始支持 Google 的对话机器人产品 Bard。
谷歌在博客中表示:从今天开始,巴德将使用经过微调的 Gemini Pro 版本进行更高级的推理、规划、理解等。
这是 Bard 自推出以来的唯一升级。
它将在多个国家和地区提供英语版本,谷歌计划在不久的将来扩展到不同的模式并支持新的语言和地区。
不过,截至发稿,对bard的测试依然显示并未升级为Gemini,而且bard对Gemini的了解也非常有限。
当被问及 Bard 是否升级了 Gemini 时,Gemini Nano 计划用于 Pixel。
谷歌将首次将 Gemini Nano 内置到 Pixel 8 Pro 中。
从 WhatsApp 开始,这款手机将支持 Recorder 应用中的 Summarize 和 Gboard 中的 Smart Reply 等新功能,明年还将支持更多消息应用。
从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。
Google AI Studio 是一款免费的基于网络的开发人员工具,可让您使用 API 密钥快速构建原型并启动应用程序。
当需要完全托管的 AI 平台时,Vertex AI 允许对 Gemini 进行定制,提供全面的数据控制,并受益于额外的 Google Cloud 功能,以实现企业安全、安保、隐私以及数据治理和合规性。
Android 开发人员还可以通过 AICore(Android 14 中提供的新系统功能,从 Pixel 8 Pro 设备开始)使用 Google 最高效的设备端任务模型 Gemini Nano 进行构建。
此外,Gemini已确定将很快融入谷歌业务。
未来几个月,Gemini 将出现在更多 Google 产品和服务中,例如搜索、广告、Chrome 和 Duet AI。
谷歌表示,已开始在搜索领域试验 Gemini,为用户提供更快的搜索生成体验(SGE),将美式英语的延迟减少 40%,并提高质量。
值得注意的是,对于谷歌来说,搜索一直是它的看家业务。
Gemini在谷歌搜索和广告业务的全面推出,可能会彻底改变未来的广告和营销逻辑。
在最近的一次工业软件研讨会上,一位工业公司高管向虎嗅抱怨,“谷歌的竞争对手在网上发布了很多软文,但我们没有购买软文。
这导致这些软文成为了LLM培训的数据,然后在AI的意识中,我们的竞争对手已经将这种现象视为默认的行业标准,“SEO已死,LLMO万岁”。
当时的ChatGPT还没有联网能力,但今天的Gemini几乎肯定会融入Google的搜索引擎,彻底改变未来的网络搜索逻辑【本文由合作伙伴虎秀网授权发布。
投资界。
本平台仅提供信息存储服务。
】如有疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态