以色列团队推出世界上最大的实验室培育牛排,由真正的牛细胞 3D 打印而成
06-21
正文 |黎诗韵编辑 |余靖 5月13日,OpenAI以一场春季发布会再次轰动整个人工智能行业。
在 Sam Altman 缺席的情况下,OpenAI CTO Mira Murati 率先推出了 ChatGPT 新产品 ChatGPT-4o。
长达26分钟的发布会,几乎是对科幻电影的现实演绎。
当你打开ChatGPT时,你面对的不再是一个只能帮你生成内容或进行僵化语音聊天的工具——你唤起的将是一个“万能”的语音助手,或者说,一个越来越强大的语音助手。
越接近人类“物种”。
它长出了“眼睛”,可以通过摄像头看到你。
比如,它可以通过研究员扬起的嘴角判断他的心情,通过周围的环境和背景判断他在做什么,甚至给出造型建议;它可以看到你的电脑桌面,直接帮你检查你写的代码是否有问题。
它有更灵敏的“耳朵”,不仅能听懂语言,还能听懂研究员过快的呼吸,并引导他呼吸缓慢而稳定地放松。
OpenAICTO Mura Murati宣布推出ChatGPT-4o | 图片来源:OpenAI 它有一张更灵活的“嘴”,谈话不再有延迟,你可以随时打断它,而且它它的声音可以随时捕捉到你的声音,比如更冷静,更热情,甚至可以唱歌,它还可以帮助研究员一步步解决不平等问题。
,并且还可以通过它与不同语言的人进行交流。
这些强大功能的背后是OpenAI推出的新模型GPT-4o,与现有模型相比,GPT-4o最大的改进在于。
它可以实时推理音频、视觉和文本——换句话说,它让 ChatGPT 实现真正的多模态交互。
这不仅是对技术进步的追求,更是对应用普及的追求。
OpenAI的使命之一就是让AI触手可及,而用户能否顺利使用AI至关重要。
在“模型即应用”时代,这种交互体验最终取决于模型能力的提升。
OpenAI 表示,GPT-4o(“o”代表“o??mni”)是迈向更自然的人机交互的一步。
发布会上,Mira Murati宣布ChatGPT-4o将免费向所有用户开放,而付费用户和企业用户则可以抢先体验。
电影《Her》上映,讲述了一个人类爱上人工智能语音助理的故事。
从今天ChatGPT所呈现的能力来看,这种想象正在加速成为现实。
ChatGPT的惊人进步:甚至不需要人类参与就可以变身为人类“超级助理”。
OpenAI官网上,呈现了ChatGPT作为个人语音“超级助理”的更多令人惊叹的应用场景。
第一个是针对个人用户。
和人一样,主要提供“情感价值”和“认知价值”。
例如,它可以讲笑话、唱生日快乐歌、玩游戏、逗狗、催眠人、放松人等;可以充当面试官并提供面试建议;它还可以为盲人提供环境观察。
,告诉他看到的风景,提醒他过马路时的交通状况。
盲人用户使用ChatGPT-4o“观察”整个世界 |图片来源:OpenAI 接下来,它是面向多个用户的,它提供的更多的是“协作价值”。
例如,为两个不懂语言的人担任翻译,让他们可以毫无障碍地交流;担任两人之间“石头剪刀布”游戏的裁判。
首先喊出命令让比赛开始,然后准确判断谁赢了;担任裁判员。
“家教”辅导父亲做孩子的作业;他甚至充当“会议第三方”,主持并录制多人会议。
最有趣的是不同ChatGPT之间的对话。
这种无需人类参与的交流不仅充满了科幻色彩,也让人们开始想象一个不需要人类协作、机器取代人类协作的未来。
在演示中,用户请求一部手机的ChatGPT代表他向另一部手机的ChatGPT申请售后服务。
结果,两个ChatGPT毫无阻碍地聊了两分钟,成功帮助用户“换货”。
”。
OpenAI 总裁 Greg Brockman 进行了一次有趣的演示,他让两个 ChatGPT 互动并唱歌。
OpenAI 总裁 Greg Brockman 演示了两个 GPT 的交互 |图片来源:OpenAI 一位 10 年前开始研究“AI 语音助理”的大厂前高管告诉极客公园,当时他设想 AI 助理的最终形态应该是“多模态、无所不能”,但技术当时不支持。
他相信ChatGPT会加速这个想法的实现——但他没想到这个过程会发生得这么快。

。
他认为,实现AGI的关键标志是机器能否具备自主学习、自主迭代、自主解决问题的能力。
这个突破看似很遥远,但当两个 ChatGPT 开始互相聊天时,鸿沟似乎变得更浅了一些。
GPT-4o多模态大模型的技术进步和安全性 这些令人惊叹的产品性能,从根本上源于GPT-4o多模态大模型的技术进步。
后者分为文本、语音、图像三部分。
GPT-4o在这三个部分都进行了改进,尤其是后两个部分。
文字方面,根据 OpenAI 的技术报告,GPT-4o 超过了 GPT-4T 和 GPT-4(23(最初于 2018 年 3 月发布),以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 b 和 Gemini例如,在 0-shot COT MMLU 上,GPT-4o 取得了 88.7% 的新高分;图片来源:OpenAI 最关键的是音频、多方面的进步。
- 语言和视觉方面,以往ChatGPT的音频缺点是需要经过三个独立的模型,导致延迟,无法承载丰富的信息。
第一个模型,然后使用 GPT-3.5 或 GPT-4 接收文本并输出文本,最后第三个模型将文本转换回音频——一方面,它使得音频的传输存在延迟,具有GPT-3.5 的平均延迟为 2.8 秒,GPT-4 的平均延迟为 5.4 秒。
歌唱,或者情感的表达。
GPT-4o 的解决方案是跨文本、视觉和音频端到端地训练新模型,这意味着所有输入和输出都由同一个神经网络处理。
OpenAI 表示,这是其突破深度学习界限的最新举措。
目前,GPT-4o 可以在短至毫秒的时间内响应音频输入,平均为毫秒,与人类的响应时间相似。
同时,GPT-4o在音频ASR性能和翻译性能方面比Whisper-v3(OpenAI的语音识别模型)有更好的表现。
M3Exam 基准测试可用于多语言和视觉评估。
它由多项选择题组成,并包含图表。
GPT-4o 在所有语言基准测试中都比 GPT-4 更强。
此外,在视觉理解评估方面,GPT-4o在视觉感知基准上实现了state-of-the-art的表现。
GPT-4o 也擅长视觉理解 |图片来源:OpenAI 一位大型模型训练师曾告诉极客公园,模型的技术领先从来不依赖于排名,而是依赖于用户最真实的感受和体验。
。
从这个角度来看,GPT-4o的技术领先性就显而易见了。
OpenAI 表示,GPT-4o 的文本和图像功能将于发布当天在 ChatGPT 中提供。
免费用户可以使用它,但 Plus 订阅者可以享受高达 5 倍的消息容量。
未来几周,OpenAI 将在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。
开发人员现在可以在 API 中访问 GPT-4o 的文本和视觉模型。
与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。
在未来几周内,OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能。
一项强大的技术,外界最担心的就是它的安全性和可控性。
这也是OpenAI的核心考虑之一。
OpenAI 表示,GPT-4o 通过过滤训练数据和训练后细化模型行为等技术,将安全性内置到跨模式设计中。
它还创建了一个新的安全系统来保护语音输出。
为了确保更好的安全性,OpenAI 表示,在未来几周和几个月内,它将致力于技术基础设施、培训后的可用性以及发布其他模型所需的安全性。
OpenAI从未让外界失望,再次引领科技圈的未来。
作为这波AI浪潮的发起者和引领者,OpenAI的每一次发布和更新都关系到其庞大用户量的兴衰、公司竞争的进退以及整个行业的关注和方向。
在本次发布会之前,关于OpenAI的传闻和质疑颇多。
一周前,外媒报道OpenAI将发布一款搜索引擎。
在一年中最重要的新闻发布时刻,该公司没有推出GPT-5,这引发了很多对其创新性的质疑。
。
而如果不能拿出足够创新的技术和产品,公司就很难重振用户增长,也很难满足整个市场的期望。
自年底推出ChatGPT以来,该公司的用户群经历了起伏。
Sameweb估计,2018年5月全球访问量峰值为18亿次。
但进入下半年后,其用户数量有所下降,尚未追平去年5月的全球访问量峰值记录。
自 2019 年 11 月以来 ChatGPT 在全球和美国的流量增长 |图片来源:Similarweb 这次发布会与其用户群的增长直接相关。
外界仍在密切关注搜索引擎。
Sameweb表示,该消息导致当天ChatGPT流量激增。
不过,在发布会前两天,OpenAI CEO Sam Altman 澄清,这次既不会发布 GPT-5,也不会发布搜索引擎,“但我们一直在努力开发一些我们认为人们会喜欢的新东西!”对我来说就像魔法一样。
”他把它描述得更小。
或许,人们对这次OpenAI大会的期待不高。
但最终,他们得到的却是强烈的震撼。
这或许就是OpenAI想要的对比。
无论是最初的GPT-3.5、去年这个时候的GPT-4、去年底的GPTs,还是今年年初的Sora——OpenAI再次证明了它不会让世界失望。
尽管谷歌、Claude、Character AI、Perplexity等竞争对手正在抢夺更多的新用户和资本,但OpenAI仍然证明自己有能力引领技术创新的“高地”。
ChatGPT 与其他聊天机器人的访问量对比|图片来源:Similarweb 在 OpenAI 推出基于 GPT-4o 的“超级智能助理”之后,这似乎是各大科技公司争相追赶的方向。
据外媒报道,谷歌最近一直在测试利用人工智能来打电话。
有传言称,它将推出一款名为“Pixie”的多模态个人助理,作为“Google Assistant”的替代品。
它可以通过摄像头查看物体并执行人类命令。
这将于明天的 Google I/O 大会上揭晓。
近日,外媒也报道称,苹果即将与OpenAI达成协议。
在 6 月份的苹果年度全球开发者大会上,苹果可能会在 iOS 18 中推出由 ChatGPT 驱动的“聊天机器人”,这可能会对苹果个人语音助理 Siri 产生颠覆性影响。
很难想象,短短一年半的时间,OpenAI就将技术推向了今天的高度,让“超级助理”的想象如此之快地出现在我们眼前。
然而,这只是 OpenAI 释放的技术力量的冰山一角。
毕竟我们今天讨论的只是GPT-4的更新,还不是GPT-5。
OpenAI会给我们带来多大的震撼,又会引起多大的担忧,都是未知的问题。
如果我们站在未来科技的隧道里回望过去,今天GPT-4o“超级语音助理”的诞生或许会成为科技史上具有里程碑意义的时刻。
但也许正如 OpenAI 首席运营官 Brad Lightcap 几天前所说的那样,“在接下来的 12 个月里,我们应该感觉到我们今天使用的(AI)系统糟糕得可笑。
” #阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点,帮助企业家把握新兴技术趋势和行业变化,洞察未来技术走向。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-18
06-17
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态