首页 > 科技未来 > 内容

ChatGPT-4o，OpenAI的一小步，人类“AI王牌”的一大步

发布于：2024-06-18 编辑：匿名来源：网络

正文 |黎诗韵编辑 |余靖 5月13日，OpenAI以一场春季发布会再次轰动整个人工智能行业。

在 Sam Altman 缺席的情况下，OpenAI CTO Mira Murati 率先推出了 ChatGPT 新产品 ChatGPT-4o。

长达26分钟的发布会，几乎是对科幻电影的现实演绎。

当你打开ChatGPT时，你面对的不再是一个只能帮你生成内容或进行僵化语音聊天的工具——你唤起的将是一个“万能”的语音助手，或者说，一个越来越强大的语音助手。

越接近人类“物种”。

它长出了“眼睛”，可以通过摄像头看到你。

比如，它可以通过研究员扬起的嘴角判断他的心情，通过周围的环境和背景判断他在做什么，甚至给出造型建议；它可以看到你的电脑桌面，直接帮你检查你写的代码是否有问题。

它有更灵敏的“耳朵”，不仅能听懂语言，还能听懂研究员过快的呼吸，并引导他呼吸缓慢而稳定地放松。

OpenAICTO Mura Murati宣布推出ChatGPT-4o | 图片来源：OpenAI 它有一张更灵活的“嘴”，谈话不再有延迟，你可以随时打断它，而且它它的声音可以随时捕捉到你的声音，比如更冷静，更热情，甚至可以唱歌，它还可以帮助研究员一步步解决不平等问题。

，并且还可以通过它与不同语言的人进行交流。

这些强大功能的背后是OpenAI推出的新模型GPT-4o，与现有模型相比，GPT-4o最大的改进在于。

它可以实时推理音频、视觉和文本——换句话说，它让 ChatGPT 实现真正的多模态交互。

这不仅是对技术进步的追求，更是对应用普及的追求。

OpenAI的使命之一就是让AI触手可及，而用户能否顺利使用AI至关重要。

在“模型即应用”时代，这种交互体验最终取决于模型能力的提升。

OpenAI 表示，GPT-4o（“o”代表“o??mni”）是迈向更自然的人机交互的一步。

发布会上，Mira Murati宣布ChatGPT-4o将免费向所有用户开放，而付费用户和企业用户则可以抢先体验。

电影《Her》上映，讲述了一个人类爱上人工智能语音助理的故事。

从今天ChatGPT所呈现的能力来看，这种想象正在加速成为现实。

ChatGPT的惊人进步：甚至不需要人类参与就可以变身为人类“超级助理”。

OpenAI官网上，呈现了ChatGPT作为个人语音“超级助理”的更多令人惊叹的应用场景。

第一个是针对个人用户。

和人一样，主要提供“情感价值”和“认知价值”。

例如，它可以讲笑话、唱生日快乐歌、玩游戏、逗狗、催眠人、放松人等；可以充当面试官并提供面试建议；它还可以为盲人提供环境观察。

，告诉他看到的风景，提醒他过马路时的交通状况。

盲人用户使用ChatGPT-4o“观察”整个世界 |图片来源：OpenAI 接下来，它是面向多个用户的，它提供的更多的是“协作价值”。

例如，为两个不懂语言的人担任翻译，让他们可以毫无障碍地交流；担任两人之间“石头剪刀布”游戏的裁判。

首先喊出命令让比赛开始，然后准确判断谁赢了；担任裁判员。

“家教”辅导父亲做孩子的作业；他甚至充当“会议第三方”，主持并录制多人会议。

最有趣的是不同ChatGPT之间的对话。

这种无需人类参与的交流不仅充满了科幻色彩，也让人们开始想象一个不需要人类协作、机器取代人类协作的未来。

在演示中，用户请求一部手机的ChatGPT代表他向另一部手机的ChatGPT申请售后服务。

结果，两个ChatGPT毫无阻碍地聊了两分钟，成功帮助用户“换货”。

”。

OpenAI 总裁 Greg Brockman 进行了一次有趣的演示，他让两个 ChatGPT 互动并唱歌。

OpenAI 总裁 Greg Brockman 演示了两个 GPT 的交互 |图片来源：OpenAI 一位 10 年前开始研究“AI 语音助理”的大厂前高管告诉极客公园，当时他设想 AI 助理的最终形态应该是“多模态、无所不能”，但技术当时不支持。

他相信ChatGPT会加速这个想法的实现——但他没想到这个过程会发生得这么快。

ChatGPT-4o，OpenAI的一小步，人类“AI王牌”的一大步

。

他认为，实现AGI的关键标志是机器能否具备自主学习、自主迭代、自主解决问题的能力。

这个突破看似很遥远，但当两个 ChatGPT 开始互相聊天时，鸿沟似乎变得更浅了一些。

GPT-4o多模态大模型的技术进步和安全性这些令人惊叹的产品性能，从根本上源于GPT-4o多模态大模型的技术进步。

后者分为文本、语音、图像三部分。

GPT-4o在这三个部分都进行了改进，尤其是后两个部分。

文字方面，根据 OpenAI 的技术报告，GPT-4o 超过了 GPT-4T 和 GPT-4（23（最初于 2018 年 3 月发布），以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 b 和 Gemini例如，在 0-shot COT MMLU 上，GPT-4o 取得了 88.7% 的新高分；图片来源：OpenAI 最关键的是音频、多方面的进步。

- 语言和视觉方面，以往ChatGPT的音频缺点是需要经过三个独立的模型，导致延迟，无法承载丰富的信息。

第一个模型，然后使用 GPT-3.5 或 GPT-4 接收文本并输出文本，最后第三个模型将文本转换回音频——一方面，它使得音频的传输存在延迟，具有GPT-3.5 的平均延迟为 2.8 秒，GPT-4 的平均延迟为 5.4 秒。

歌唱，或者情感的表达。

GPT-4o 的解决方案是跨文本、视觉和音频端到端地训练新模型，这意味着所有输入和输出都由同一个神经网络处理。

OpenAI 表示，这是其突破深度学习界限的最新举措。

目前，GPT-4o 可以在短至毫秒的时间内响应音频输入，平均为毫秒，与人类的响应时间相似。

同时，GPT-4o在音频ASR性能和翻译性能方面比Whisper-v3（OpenAI的语音识别模型）有更好的表现。

M3Exam 基准测试可用于多语言和视觉评估。

它由多项选择题组成，并包含图表。

GPT-4o 在所有语言基准测试中都比 GPT-4 更强。

此外，在视觉理解评估方面，GPT-4o在视觉感知基准上实现了state-of-the-art的表现。

GPT-4o 也擅长视觉理解 |图片来源：OpenAI 一位大型模型训练师曾告诉极客公园，模型的技术领先从来不依赖于排名，而是依赖于用户最真实的感受和体验。

。

从这个角度来看，GPT-4o的技术领先性就显而易见了。

OpenAI 表示，GPT-4o 的文本和图像功能将于发布当天在 ChatGPT 中提供。

免费用户可以使用它，但 Plus 订阅者可以享受高达 5 倍的消息容量。

未来几周，OpenAI 将在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。

开发人员现在可以在 API 中访问 GPT-4o 的文本和视觉模型。

与 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，价格降低一半，速率限制提高 5 倍。

在未来几周内，OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能。

一项强大的技术，外界最担心的就是它的安全性和可控性。

这也是OpenAI的核心考虑之一。

OpenAI 表示，GPT-4o 通过过滤训练数据和训练后细化模型行为等技术，将安全性内置到跨模式设计中。

它还创建了一个新的安全系统来保护语音输出。

为了确保更好的安全性，OpenAI 表示，在未来几周和几个月内，它将致力于技术基础设施、培训后的可用性以及发布其他模型所需的安全性。

OpenAI从未让外界失望，再次引领科技圈的未来。

作为这波AI浪潮的发起者和引领者，OpenAI的每一次发布和更新都关系到其庞大用户量的兴衰、公司竞争的进退以及整个行业的关注和方向。

在本次发布会之前，关于OpenAI的传闻和质疑颇多。

一周前，外媒报道OpenAI将发布一款搜索引擎。

在一年中最重要的新闻发布时刻，该公司没有推出GPT-5，这引发了很多对其创新性的质疑。

。

而如果不能拿出足够创新的技术和产品，公司就很难重振用户增长，也很难满足整个市场的期望。

自年底推出ChatGPT以来，该公司的用户群经历了起伏。

Sameweb估计，2018年5月全球访问量峰值为18亿次。

但进入下半年后，其用户数量有所下降，尚未追平去年5月的全球访问量峰值记录。

自 2019 年 11 月以来 ChatGPT 在全球和美国的流量增长 |图片来源：Similarweb 这次发布会与其用户群的增长直接相关。

外界仍在密切关注搜索引擎。

Sameweb表示，该消息导致当天ChatGPT流量激增。

不过，在发布会前两天，OpenAI CEO Sam Altman 澄清，这次既不会发布 GPT-5，也不会发布搜索引擎，“但我们一直在努力开发一些我们认为人们会喜欢的新东西！”对我来说就像魔法一样。

”他把它描述得更小。

或许，人们对这次OpenAI大会的期待不高。

但最终，他们得到的却是强烈的震撼。

这或许就是OpenAI想要的对比。

无论是最初的GPT-3.5、去年这个时候的GPT-4、去年底的GPTs，还是今年年初的Sora——OpenAI再次证明了它不会让世界失望。

尽管谷歌、Claude、Character AI、Perplexity等竞争对手正在抢夺更多的新用户和资本，但OpenAI仍然证明自己有能力引领技术创新的“高地”。

ChatGPT 与其他聊天机器人的访问量对比｜图片来源：Similarweb 在 OpenAI 推出基于 GPT-4o 的“超级智能助理”之后，这似乎是各大科技公司争相追赶的方向。

据外媒报道，谷歌最近一直在测试利用人工智能来打电话。

有传言称，它将推出一款名为“Pixie”的多模态个人助理，作为“Google Assistant”的替代品。

它可以通过摄像头查看物体并执行人类命令。

这将于明天的 Google I/O 大会上揭晓。

近日，外媒也报道称，苹果即将与OpenAI达成协议。

在 6 月份的苹果年度全球开发者大会上，苹果可能会在 iOS 18 中推出由 ChatGPT 驱动的“聊天机器人”，这可能会对苹果个人语音助理 Siri 产生颠覆性影响。

很难想象，短短一年半的时间，OpenAI就将技术推向了今天的高度，让“超级助理”的想象如此之快地出现在我们眼前。

然而，这只是 OpenAI 释放的技术力量的冰山一角。

毕竟我们今天讨论的只是GPT-4的更新，还不是GPT-5。

OpenAI会给我们带来多大的震撼，又会引起多大的担忧，都是未知的问题。

如果我们站在未来科技的隧道里回望过去，今天GPT-4o“超级语音助理”的诞生或许会成为科技史上具有里程碑意义的时刻。

但也许正如 OpenAI 首席运营官 Brad Lightcap 几天前所说的那样，“在接下来的 12 个月里，我们应该感觉到我们今天使用的（AI）系统糟糕得可笑。

” #阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态，提供一站式资讯服务，实时传递行业热点新闻、深度评论和前瞻观点，帮助企业家把握新兴技术趋势和行业变化，洞察未来技术走向。

站长声明

标签：

上一篇：关于公开征集浙江省产业基金效益子基金的公告

下一篇：创投认为当前IPO市场活跃度低限制了投资回报

马云回应赚钱收购雅虎：钱已经准备好了，但没什么可说的

10月17日消息 17日下午，阿里巴巴董事局主席正面回应是否用淘宝赚钱收购雅虎，说钱已经准备好了，但其他的事情就不能说解释了。　　此前有传言称“淘宝商城提高服务费和押金可以筹集大量资金，为收购雅虎做准备”。对此，马云分析道，“雅虎的市值至少有1亿，如果靠淘宝商城

06-18
【创业24小时】2024年1月5日

2024年1月5日行业大公司支付宝“失控”趋势背后：“变小”的蚂蚁，重塑多元化业务点击查看盒马在线订单加收费是否合理1元一个包装？点击查看苹果或将拓展健康版图，为Apple Watch铺路点击查看钉钉个人版上线，推出AI照片绘画、法律助理等AI工具，支持打造专属特工点击查

06-17
2.5万的华为电视画质有多好？

这是我们9月份评测的最“重量级”的家伙。劲，高1米，宽1.6米，需要四个人才能抬上楼。这个大家伙就是华为SuperMiniLED电视V75 Super，售价9元。虽然我身高1厘米，但站在它旁边显得有点“娇小”。但尺寸大并不是其昂贵的主要原因。更重要的是屏幕背后的技术：MiniLED。

06-21
绝味食品：参股公司和福老面拟实施境外上市计划

绝味食品公告称，其全资子公司深圳参股公司江苏和福餐饮管理有限公司（和福面）网聚）拟实施境外上市计划，并于1月27日与和福老面相关股东签署《江苏和府餐饮管理有限公司之重组框架协议》。

06-18
看新动力NO.08｜专访纯电动出行创始人王颖

当前，我们正处于汽车产业向电动化、共享化、服务创新、网联化发展的大趋势中。电动汽车、电池、充电网络等汽车电动化三大关键技术的发展也成为推动新能源汽车产业发展的重要因素。但随着越来越多的新能源汽车出现在街头，充电成了车主最关心的出行问题。第八期《看见新力

06-17
2022中国（深圳）集成电路峰会在深圳坪山隆重举行

ICS峰会由深圳市人民政府、中国半导体行业协会集成电路设计分会、“核高科”主办国家重大科技专项总体专家组深圳主办的“中国（深圳）集成电路峰会”（以下简称：ICS峰会）由市半导体行业协会主办，主题为“创新强链，双创”驱动发展”，于2020年12月29日在深圳坪山格兰云天国

06-06
股价暴跌80%，高管辞职，人造肉的故事不再流行了吗？

这两年爆红的人造肉，最近却陷入了尴尬的境地。今年一、二季度，人造肉第一股Beyond Meat业绩连续两个季度不及预期。其股价较年初下跌77%，市值蒸发近32亿。近期，Beyond Meat接连收到高管辞职的消息，公司内部正经历严重动荡。日前，该公司宣布首席供应链官伯尼阿德科克

06-17
对于Azure，微软三个月收购了3家初创公司

据雷锋网报道，2020年9月4日，微软在官博宣布收购云迁移技术提供商Movere；以帮助客户通过无线Seam迁移工具实现云创新。微软在博客文章中表示，收购 Movere 是为了“让客户更轻松地将工作迁移到 Azure 云平台”。微软Azure管理层合伙人Jeremy温特也指出：“我们相信成功的

06-18
久违的“水果自由”又回来了吗？

从1月1日起，水果价格纷纷下调，人们渴望的“水果自由”似乎正在成为现实。无论是葡萄中贵族的“阳光玫瑰”，还是中产阶级的车厘子，又或者年底的草莓，这些过去“买不起”的昂贵水果，如今一反常态地飞进了寻常百姓家。。前不久，“草莓价格暴跌”的话题成为热门话题。红

06-18
专注新能源资产管理和数字赋能，“耀明合创”完成天使轮融资

投资界（ID：pedaily）2月21日消息，新能源资产管理公司“耀明合创”近日宣布已完成天使轮融资近千万元融资元天使轮融资由林格创投领投，易程新能源跟投。本轮融资主要用于公司第三代核心产品的技术迭代和市场拓展。耀明合创成立于2017年，是一家基于云计算、物联网、智能

06-18
Miss：和闺蜜一起改变生活

受不了陈旧的应酬，他们用Miss给万时尚女性一种新的生活方式！他们是谁？ Miss的核心团队来自腾讯。卡玛利就是经理，前腾讯SNG创意相机、手Q产品。拥有10年互联网产品及运营经验。除此之外，她还是一位时尚达人。她身边有一个优质的闺蜜圈子，她也敏锐地意识到闺蜜在女性

06-18
智能服务机器人公司“耀明”完成1000万元Pre-A轮融资

投资界（ID：pedaily）据6月26日消息，服务机器人公司福建耀明智能科技有限公司（以下简称“耀明”）完成1000万元Pre-A轮融资。简称：汉特云）宣布完成1000万元Pre-A轮融资。 Pre-A轮融资1万元。本轮投资方为福州金控集团有限公司。本轮融资将主要用于产品研发、行业应用推

06-17