首页 > 科技未来 > 内容

GPT-4地位难保，谷歌新双子座王会登基吗？

发布于：2024-06-17 编辑：匿名来源：网络

当地时间12月6日，谷歌正式公布了最新的大型机型Gemini 1.0。

Gemini 1.0 与 LLaMA 模型类似。

它也是一个系列模型，包括三个版本： Gemini Ultra——参数数量最多，能力最强，适合高度复杂的任务。

Gemini Pro – 可以扩展到多种任务的模型。

Gemini Nano - 高效的设备端任务模型。

Gemini 1.0 侧重于多模态能力。

谷歌将 Gemini 定义为“原生多模式”模型。

在模型能力方面，谷歌表示，在大型语言模型（LLM）研发中使用的 32 个广泛使用的学术基准中，Gemini Ultra 的性能超过了当前最先进的结果中的 30 个。

在MMLU（大规模多任务语言理解）测试框架中，Gemini Ultra 得分高达 90.0%，甚至超越了人类专家。

Gemini 被 Google CEO Sundar Pichai 称为“Google 迄今为止最大、最强大的 AI 模型”。

Sundar Pichai 在 Gemini 官方公告博客上写道：“在许多领先基准测试中都具有先进的性能。

Google 的第一个版本 Gemini 1.0 针对不同的外形尺寸进行了优化：Ultra、Pro 和 Nano。

这些是 Gemini 时代的第一个型号，也是第一个为了实现谷歌今年早些时候创建谷歌 DeepMind 时的愿景，这个新时代的模型代表了谷歌作为一家公司所做的最大的科学和工程努力之一，Gemini 对于它将给世界各地的人们带来的机会感到非常兴奋。

”目前，谷歌官方宣称其旗舰聊天机器人Bard已经升级至Gemini Pro版本，其在推理、规划、理解等方面的能力得到了显着提升，并将继续免费为用户提供服务。

谷歌预计明年初推出更先进的“Bard Advanced”，它将使用Gemini Ultra，而在Gemini、PaLM 2和LaMDA发布之前，谷歌主要在生成式AI和LLM方面推广的两个模型还没有出现。

在用户中获得了很高的评价，远远落后于业界领先的GPT-4，因此传闻中谷歌研发重点的Gemini模型一直备受期待。

Gemini 也是 Google Brain 和 DeepMind 合并形成 Google DeepMind 后最重要的产品。

我们来看看，双子座在哪里？ 01 超越人类专家，离强人工智能又近了一步？ “Gemini 在 MMLU 基准测试中超越了人类专家。

”虽然，有了AlphaGo的经验，我们并不认为AI在某些领域超越人类是什么新鲜事。

但今天与过去不同。

在AGI和ChatGPT带来的强人工智能的“威慑”下，任何号称优于人类的AI，或多或少都会引起人们的关注。

那么在这个测试集上超越人类专家到底有多强大呢？大型语言模型（LLM）的主流评估数据集包括：GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。

通常用于评估模型在语言理解、推理、阅读理解和常识推理方面的能力。

MMLU（大规模多任务语言理解）是一个测试集，结合了数学、物理、历史、法律、医学和伦理学等 57 个学科。

与其他测试集相比，MMLU 更加广泛和深入。

它考验AI模型通过大量、多样化的任务理解自然语言的能力，尤其是在复杂多变的现实场景中的表现。

这使得MMLU成为综合评估和促进大型语言模型发展最具挑战性的评估框架。

GPT-4 和 Gemini 在 MMLU 测试集上的比较该框架通常包含数千个不同的任务，涵盖广泛的主题和挑战。

MMLU的目的是提供一种全面且多样化的方法来测试和评估语言模型在各种复杂和现实场景中的性能。

测试任务可能包括理解笑话、回答有关世界历史的问题、解释科学现象以及许多其他更接近人类知识、常识和理解的项目。

在MMLU测试中超越人类专家也可以理解为在这个测试框架下，Gemini在“各种复杂和现实场景下的表现”上超越了人类专家。

谷歌在其官方博客中表示：Gemini 使用 MMLU 基准方法使 Gemini 能够利用其推理能力在回答难题之前更仔细地思考，从而比仅使用 * 印象得到显着改进。

除此之外，Gemini Ultra 还在新的 MMMU（专家 AGI 大规模多学科多模态理解和推理）基准测试中取得了 59.4% 的最高分，该基准测试由跨不同领域的深思熟虑的推理组成。

域。

由多模式任务组成。

谷歌的测试表明，Gemini Ultra 的性能优于之前最先进的模型，无需借助对象字符识别 (OCR) 系统从图像中提取文本以进行进一步处理。

这些基准凸显了双子座与生俱来的多模态性，并显示了双子座更复杂推理能力的早期迹象。

Gemini 在文本、编码等一系列基准测试中的表现在某个测试集上超越了人类专家。

虽然距离AGI或者强人工智能还有很远的距离，但仍然可以说是在这条道路上迈出了坚实的一步。

。

02 原生多模态，比GPT-4更强大？事实上，Gemini的LLM表现并不是它的亮点。

Gemini真正值得关注的差异化能力是“原生多模态”。

首先，什么是“双子座原生多模态”？原生多模态能力是指Gemini模型直接理解和处理多种不同类型的数据而不需要额外的专门处理或转换的固有能力。

有人可能会问，这和GPT-4有什么不同？我们打个简单的比方：如果GPT-4是一位诗人，他不仅擅长写诗，而且还会画画，但写诗是他的职业，画画只是他的副业。

GPT-4可以处理文本（写诗）和图片（画画），但主要强在文字处理方面。

拥有“天生的多模态能力”的双子座，是诗人和画家的“双才”。

他诗书画画同样出色，谁也不比谁弱。

双子座可以处理文本和图像，并且两者都做得很好，没有优先级。

GPT-4的多模态能力可能更多地是通过将不同模型的能力集成到一个框架中来实现的，而不是所有功能都在一个统一的模型中原生实现。

作为一个大型语言模型，GPT-4的主要优化和训练是围绕语言理解和生成。

对于图像处理来说，虽然它展现出了一定的能力，但可能不如那些专门针对图像处理优化的模型。

真正的本地多模式模型在所有模式之间进行平衡和优化。

双子座的多模态理解能力。

原生多模态能力意味着模型能够更自然、高效地处理和融合多种类型的数据，这对于实现更复杂的人工智能应用具有重要意义。

当然，这也更接近人类的理解。

人类在认识世界时，会自然地整合视觉、听觉、语言等多种感官的信息。

具有本地多模态能力的AI模型在处理信息时也采用类似的综合方法，更接近人类理解和识别的方式。

03 全面“击败”GPT-4 Gemini不仅在模型能力、多模态能力上敢于与GPT-4抗衡。

在应用方面，也提供了更多的选择。

“小型号” Gemini Nano 型号是该型号系列中最小的型号，旨在适用于内存受限的端侧设备。

它在各种任务上表现出出色的性能，特别是多模式和多语言处理。