首页 > 科技未来 > 内容

谷歌大模Gemini能否打败GPT4?

发布于:2024-06-17 编辑:匿名 来源:网络

?“沉寂”许久的谷歌终于有大动作了。

美国当地时间12月6日,谷歌发布了Gemini的大型多模态模型。

谷歌DeepMind直接宣布Gemini是“谷歌第一个也是最强的人工智能模型”。

谷歌Deepmind官方账号截图,来源:谷歌DeepMindGemini谷歌是一个从头开始构建的多模态模型,这也更接近人类理解世界的方式。

作为Google对付GPT-4的“杀手锏”。

Gemini在32项多模态基准测试中取得了30项SOTA(State Of The Art)记录,并且是第一个在MMLU(大规模多任务语言理解)评估中超越人类专家的模型。

Gemini在这一类别中的得分为90.0%。

作为比较,人类专家的得分为89.8%,GPT-4为86.4%。

Gemini共有三个版本: Gemini Ultra:适合高度复杂的任务; Gemini Pro:一个可以扩展到多种任务的 Gemini 模型; Gemini Nano:尺寸更小,适合特定任务和移动设备。

谷歌 DeepMind 产品副总裁 Eli Collins 表示:“Gemini 的多功能性使其能够在从移动设备到大型数据中心的所有设备上运行。

” “我们正在离新一代人工智能模型的愿景越来越近。

”有了人工智能,我们将有机会在更大规模上做重要的事情。

”谷歌CEO桑达尔·皮查伊在谷歌成立25周年的公开信中特别提到了人工智能。

面对强大的OpenAI,学霸谷歌需要一款现象级的产品来证明Gemini在人工智能领域的强项是Google的答案 1.“只打精英” Google Gemini模型的核心优势在于其原生的多模态特性,过去大型多模态模型往往是通过训练来构建的。

虽然它们在某些任务(例如图像描述)上表现良好,但在处理需要更深入概念理解和复杂推理的任务时,它们往往表现不佳。

从一开始就在不同模态上进行预训练,然后使用额外的多模态数据进行微调,进一步提高模型的有效性。

这种原生的多模态训练方法使得Gemini在处理多类数据和复杂任务时更加高效准确,从而在多模态人工智能领域树立了新标准。

而且,Gemini此次推出主要是“针对OpenAI的GPT-4”。

用《亮剑》里李云龙的话来说——“打仗的就是精英”。

在计算性能方面,Gemini几乎“完全击败”了GPT-4。

Gemini Ultra拥有32个广泛应用于大型模型开发的学术基准测试集,其中30个的性能超过了之前的SOTA结果。

其中,Gemini在多项选择题、数学题、Python代码任务、阅读等方面的表现都超过了之前的最先进水平。

谷歌表示,他们对MMLU采用了新的基准方法,这使得Gemini可以利用他的推理能力来思考在回答困难的问题之前要更加仔细。

与简单地根据问题的第一印象来回答相比,Gemini的表现有了明显的提高。

Gemini Ultra 在多个编码基准测试中表现良好,包括 HumanEval 和 Natural2Code。

其中,只有Gemini在HellaSWAG数据集上的测试逊色于GPT-4。

HellaSWAG数据集主要用于研究扎根常识推理能力,但NLP领域的研究者专家告诉《甲子光年》:“这并不意味着GPT4的常识推理性能更好,因为它无法排除了 ChatGPT 模型在 HellaSWAG 数据集上训练的性能更好《Gemini 模型与 GPT-4 部分测试成绩的比较》,图片来源:Google 另外,在多模态方面,Gemini Ultra 取得了领先的成绩。

在新的 MMMU 基准上得分为 59.4%,凸显了其多模态和复杂推理能力。

在图像基准测试中,Gemini Ultra 可以在不从图像中提取文本的情况下进行 OCR 处理,并且表现优于之前最先进的模型。

Gemini模型与GPT-4V在多模态方面的测试对比。

图片来源:Google Gemini 1.0 经过训练可以同时识别和理解文本、图像、音频等,因此可以更好地理解有细微差别的信息。

回答复杂主题的问题,特别擅长解释数学和物理等复杂主题的推理。

“推理缺陷”也是GPT系列的问题。

著名的语言模型批评家加里·马库斯博士评论道:“大型语言模型无法完成一些严格定义的任务:遵守国际象棋规则、五位数相乘、在家谱中进行可靠的推理、比较不同的物体的重量等。

”尽管技术取得了重大进步,但人工智能生成的虚假或伪造信息的问题仍然存在,这仍然是一个尚未完全解决的研究问题,但他也强调,Gemini接受了谷歌迄今为止最全面的安全评估。

为了确保其可靠性和安全性,谷歌针对Gemini进行了一系列对抗性测试,模拟恶意用户使用该模型并输入各种提示词,以检测该模型是否产生仇恨言论或表现出政治偏见,这些测试包括“真实的毒性线索”。

值得注意的是,Gemini在谷歌自主研发的云芯片张量处理单元(TPU)上完成了训练,特别是TPU v5p版本的性能有了显着提升。

模型训练速度比上一代快2.8倍 据悉,TPU v5p芯片专为数据中心训练和大规模模型运行而设计。

从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 访问 Gemini Pro 模型。

Google AI Studio 是一款免费的基于网络的开发工具,为开发人员提供 API 密钥以快速创建原型和启动应用程序。

Vertex AI 提供定制服务,以提供更全面、更托管的 AI 平台,该平台具有完整的数据控制功能,并能够利用 Google Cloud 的附加功能,包括企业级安全性、隐私保护以及数据治理和合规性。

性别。

此外,从 Pixel 8 Pro 设备开始,Android 开发者还可以通过 Android 14 中的新系统功能 AICore 使用 Gemini Nano。

Gemini Nano 是专为设备上任务而设计的高效模型。

通过注册AICore早期预览版,开发者可以深入挖掘其潜力,更方便地利用Gemini的先进技术,在Android生态的应用开发中迸发出更多的火花。

可能性。

到今年,谷歌计划推出 Bard Advanced,它与 AI 代理的初级形式非常相似。

Bard Advanced 将由 Gemini Ultra 提供支持,它可以快速理解多模式输入,包括文本、图像、音频和视频,并做出相应的响应。

2. Google VS OpenAI 尽管OpenAI的GPT大放异彩,但Google似乎太安静了。

今年2月,谷歌在巴黎举办活动时,其聊天机器人巴德的一个错误导致市值蒸发1亿美元,同时也引发了人们对巴德准确性的担忧。

随着OpenAI推出ChatGPT,特别是在将GPT技术集成到Bing搜索中并在应用程序下载量上首次超越谷歌之后,人们开始怀疑谷歌在人工智能领域是否落后于竞争对手。

事实上,谷歌是2011年提出Transformer模型的先驱,并为今天的游戏制定了规则。

谷歌意识到大模型“高地”竞争的时间不晚于OpenAI。

2018年,谷歌推出了1.6万亿参数的Switch Transformer,强调稀疏多模态结构的潜力。

谷歌大模Gemini能否打败GPT4?

同时,谷歌还提出了Flan-T5模型,通过更多的监督数据来减小模型大小。

它比 GPT-3 模型参数更少,但性能更好。

为了进行技术评估,《经济学人》在今年 1 月进行了对比测试,向 ChatGPT 和 Google 基于 Lamda 的机器人 Bard 询问数学、阅读和约会建议等问题。

测试结果显示,Google AI 在数学问题上表现更好,但 ChatGPT 在常识问题上表现更准确。

几天后,OpenAI 升级了 ChatGPT,在另一项测试中,它在数学问题上与 Google AI 不相上下。

尽管ChatGPT是一个大规模语言模型,训练成本高且迭代困难,但它也显示了其持续进化的巨大潜力。

值得注意的是,Google 的语言模型在性能上与 ChatGPT 相当。

在这场对决中,谷歌和微软都需要更具成本效益的解决方案。

谷歌在人工智能领域取得了大量研究进展,但尚未将这些成果进行部署和货币化,这与过去某些时期的微软类似。

这可能是因为谷歌低估了微软和OpenAI的竞争实力,或者是对其在搜索引擎领域的主导地位过于自信。

《甲子光年》多角度分析,得出结论:谷歌在技术方面更具前瞻性*,而OpenAI则更注重打磨产品。

OpenAI由Sam Altman领导,专注于产品导向的工作,致力于扩展和优化模型,主要关注细节的微调方法。

谷歌在技术发展方向上始终保持积极、前瞻性的态度,但其整体战略规划却多次调整。

Google 对稀疏模型架构进行了深入的探索。

仅仅两年过去了,万亿级开关变压器还没有引起什么轰动,而千亿参数级GPT系列却正在蓬勃发展。

同样,经过反复改进的Flan-T5模型虽然在性能上超越了GPT-3,但其优化进度却相对缓慢。

在谷歌“选择困难症”时期,OpenAI完成了ChatGPT的训练。

今年9月,谷歌子公司DeepMind推出了Sparrow模型,该模型与ChatGPT一样,采用了基于人类反馈的强化学习(RL)框架。

该模型采用了较小的参数设置,与Google看重的LaMDA和PaLM模型的思路有显着不同。

然而,谷歌未能迅速确定Sparrow模型是否是最佳选择,这也导致了Sparrow模型的产品化进程迟缓,最终未能“飞上枝头,成凤凰”。

“优柔寡断”似乎一直是谷歌的一个长期问题。

“但迟到总比不到好!OpenAI 王座终于有了强有力的竞争者。

” Nvidia AI 科学家 Jim Fan 在谷歌宣布这一消息后发表评论。

今年4月,谷歌将Google Brain和DeepMind团队合并,成立了Google DeepMind。

有人戏称这支队伍为“AI复仇者”。

谷歌人工智能产品前负责人伊莱·柯林斯 (Eli Collins) 被任命为新团队的产品副总裁。

目前,Gemini Pro和Gemini Nano已经集成在聊天机器人Bard和智能手机Pixel 8 Pro上,实现更高级的推理、规划、理解等能力。

更强大的Gemini Ultra将于明年发布。

不知道OpenAI会如何“应对”?或许我们可以等待 GPT-5 尽快发布。

不过,学霸谷歌并不完全关心这场暂时的战斗,而是着眼于未来。

“我们对答案的探索将在未来 25 年推动非凡的技术进步。

如果世界上某个地方有一个青少年对我们用人工智能构建的一切耸耸肩,我们就会知道我们成功了。

然后,我们回去工作”谷歌首席执行官桑达尔·皮查伊在谷歌成立25周年的公开信中表示。

联系投资界 ()。

谷歌大模Gemini能否打败GPT4?

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 约200家报纸联手起诉谷歌和Facebook操纵广告市场

    约200家报纸联手起诉谷歌和Facebook操纵广告市场

    过去十年,谷歌等科技公司靠广告赚了很多钱,美国当地报纸的资源和资金已经萎缩到一无所有。 后者目前正在为生存而战。 Axios 报道称,美国大约两家地方报纸已对谷歌和 Facebook 提起反垄断诉讼。 他们声称,这两家公司垄断了数字广告市场,获得了本可以用于当地新闻的收入,

    06-21

  • 莆田与普投投资成立产业基金赋能消费产业链

    莆田与普投投资成立产业基金赋能消费产业链

    据投资界9月28日消息,莆田市城厢区宣布将设立规模5亿元的产业投资基金与晟道投资。 投资方向 围绕鞋服制造升级、食品加工等优势产业以及5G、装备制造、新材料、现代化等战略性新兴产业,围绕早期、高成长期企业进行投资。 农业。 莆田位于福建省中部地区,是中国民营经济最

    06-17

  • 信达投资拟赴港IPO融资25亿美元

    信达投资拟赴港IPO融资25亿美元

    汤森路透旗下IFR周四报道称,中国四大不良贷款管理机构之一的中国信达投资管理公司计划在香港首次公开募股在香港公开亮相。 IPO 筹集 25 亿美元。   此次公开发行将为渴望阅读信达即将发布的IPO招股说明书以了解不良贷款回收率信息的投资者提供难得的一睹中国金融体系的机会

    06-17

  • 拼多多更新招股书:腾讯、红杉各拟增持2.5亿美元,上市后市值或超240亿美元

    拼多多更新招股书:腾讯、红杉各拟增持2.5亿美元,上市后市值或超240亿美元

    据投资界7月17日消息,新电商拼多多成立3年的电子商务平台计划进军美国 美国证券交易委员会(SEC)更新了此前提交的招股说明书。   相关文件显示,拼多多拟申请在纳斯达克全球精选板块上市,代码:PDD。 按高达19美元的超额发行计算,拼多多市值将突破1亿美元。 招股书还显

    06-18

  • 云鲸逍遥001扫拖机器人:我们来分解一下“清洁”这件事

    云鲸逍遥001扫拖机器人:我们来分解一下“清洁”这件事

    没有运用最省力的原则,是设计失败的一大原因。 未能应用最少努力原则是设计失败的主要原因。 设计领域的经典参考书《设计的普遍原则》指出,当设计过于复杂或需要用户过多的认知或行为投入时,用户往往会感到沮丧或困惑,导致他们放弃使用该产品或服务。 这个原理尤其适用于

    06-21

  • 电竞数据服务商“万家赛事”完成千万级融资,金信资本领投

    电竞数据服务商“万家赛事”完成千万级融资,金信资本领投

    据投资界3月15日消息,电竞数据服务商“万家赛事”近日完成融资新一轮融资1000万元,由金信资本领投,启迪之星跟投。 本轮资金将主要用于吸引万家赛事APP新用户、为俱乐部提供多维度的青训管理系统、为赛事主办方提供大数据解决方案。 万家会展此前已获得泽厚资本和丰源资本

    06-18

  • 我们也可以用iPad+Windows电脑在苹果电脑上体验“侧边导航”功能

    我们也可以用iPad+Windows电脑在苹果电脑上体验“侧边导航”功能

    随着平板电脑画质和全面屏设计的提升,以及优秀压感体验的推广,平板电脑被使用作为计算机。 第二屏幕和原笔迹输入设备的价值逐渐增加。 毕竟,谁不想最大限度地利用低成本购买的平板电脑的功能呢?早在 iPadOS 13 中,iPad 就已经具备了“sidecar”功能。 当在 macOS Catali

    06-21

  • 都2023年了,还有大公司想做社交?

    都2023年了,还有大公司想做社交?

    尽管微信用户数量已达13.27亿,几乎覆盖了中国全部人口,但仍有各大厂商不死心,希望在这条赛道上获得一席之地。 近日,蔡菜在使用支付宝支付滴滴打车订单时,发现“支付后,支付宝页面出现‘进团享优惠’的提示,加入滴滴支付宝福利群即可领取优惠券” ”。 另一端,在群聊功

    06-17

  • 查看新项目NO.17 -智能康复护理设备精准解决术后患者-残疾人日常护理问题

    查看新项目NO.17 -智能康复护理设备精准解决术后患者-残疾人日常护理问题

    一般来说,残疾人的生活质量和护理水平是衡量一个国家社会保障水平的重要标准。 随着我国社会人口结构“老龄化”不断加剧,“积极应对老龄化”已成为国家战略。 政府工作报告多次强调,相关政策频频出台。 照顾濒临残疾、半残疾的老人关系到每个家庭的幸福。 如何为残疾人或

    06-18

  • 在线观看世界科幻大会精彩内容,快手与组委会一起探索想象的边界

    在线观看世界科幻大会精彩内容,快手与组委会一起探索想象的边界

    10月18日,第十八届世界科幻大会在成都开幕。 这是世界科幻大会首次与中国“携手”。 这也是该赛事第二次在亚洲举办。 作为当今规格最高、历史最悠久、规模最大、最具影响力的科幻主题盛会,世界科幻大会将云集国内外顶尖科幻专家、行业代表、专家院士等,举办多场科幻沙龙。

    06-18

  • 阿里巴巴2020财年Q2财报:科技成果集中爆发,阿里云季度营收92.91亿

    阿里巴巴2020财年Q2财报:科技成果集中爆发,阿里云季度营收92.91亿

    北京时间11月1日晚,阿里巴巴集团公布了截至9月30日的财年季度业绩,而其云计算业务持续强劲,季度营收92.91亿,超出分析师预期。 阿里巴巴在核心技术领域的投入正在推动阿里云进入新的增长阶段。 财报显示,阿里云季度营收92.91亿元,较去年同期净增36.24亿元,增速达64%。

    06-17

  • “糖吉医疗”完成数千万元融资

    “糖吉医疗”完成数千万元融资

    “糖吉医疗”近日完成数千万元融资。 本轮融资由BV百度创投领投,朗麦创投、鼎芯资本等投资方跟投。 此次募集资金将为糖吉医疗正在进行的“胃绕道支架系统”临床研究和生产线建设提供有力支持。 糖吉医疗是一家专注于肥胖、糖尿病、脂肪肝等代谢性疾病治疗新方法研发的高新技

    06-17