首页 > 科技未来 > 内容

ChatGPT-4o,OpenAI的一小步,人类“AI王牌”的一大步

发布于:2024-06-18 编辑:匿名 来源:网络

正文 |黎诗韵编辑 |余靖 5月13日,OpenAI以一场春季发布会再次轰动整个人工智能行业。

在 Sam Altman 缺席的情况下,OpenAI CTO Mira Murati 率先推出了 ChatGPT 新产品 ChatGPT-4o。

长达26分钟的发布会,几乎是对科幻电影的现实演绎。

当你打开ChatGPT时,你面对的不再是一个只能帮你生成内容或进行僵化语音聊天的工具——你唤起的将是一个“万能”的语音助手,或者说,一个越来越强大的语音助手。

越接近人类“物种”。

它长出了“眼睛”,可以通过摄像头看到你。

比如,它可以通过研究员扬起的嘴角判断他的心情,通过周围的环境和背景判断他在做什么,甚至给出造型建议;它可以看到你的电脑桌面,直接帮你检查你写的代码是否有问题。

它有更灵敏的“耳朵”,不仅能听懂语言,还能听懂研究员过快的呼吸,并引导他呼吸缓慢而稳定地放松。

OpenAICTO Mura Murati宣布推出ChatGPT-4o | 图片来源:OpenAI 它有一张更灵活的“嘴”,谈话不再有延迟,你可以随时打断它,而且它它的声音可以随时捕捉到你的声音,比如更冷静,更热情,甚至可以唱歌,它还可以帮助研究员一步步解决不平等问题。

,并且还可以通过它与不同语言的人进行交流。

这些强大功能的背后是OpenAI推出的新模型GPT-4o,与现有模型相比,GPT-4o最大的改进在于。

它可以实时推理音频、视觉和文本——换句话说,它让 ChatGPT 实现真正的多模态交互。

这不仅是对技术进步的追求,更是对应用普及的追求。

OpenAI的使命之一就是让AI触手可及,而用户能否顺利使用AI至关重要。

在“模型即应用”时代,这种交互体验最终取决于模型能力的提升。

OpenAI 表示,GPT-4o(“o”代表“o??mni”)是迈向更自然的人机交互的一步。

发布会上,Mira Murati宣布ChatGPT-4o将免费向所有用户开放,而付费用户和企业用户则可以抢先体验。

电影《Her》上映,讲述了一个人类爱上人工智能语音助理的故事。

从今天ChatGPT所呈现的能力来看,这种想象正在加速成为现实。

ChatGPT的惊人进步:甚至不需要人类参与就可以变身为人类“超级助理”。

OpenAI官网上,呈现了ChatGPT作为个人语音“超级助理”的更多令人惊叹的应用场景。

第一个是针对个人用户。

和人一样,主要提供“情感价值”和“认知价值”。

例如,它可以讲笑话、唱生日快乐歌、玩游戏、逗狗、催眠人、放松人等;可以充当面试官并提供面试建议;它还可以为盲人提供环境观察。

,告诉他看到的风景,提醒他过马路时的交通状况。

盲人用户使用ChatGPT-4o“观察”整个世界 |图片来源:OpenAI 接下来,它是面向多个用户的,它提供的更多的是“协作价值”。

例如,为两个不懂语言的人担任翻译,让他们可以毫无障碍地交流;担任两人之间“石头剪刀布”游戏的裁判。

首先喊出命令让比赛开始,然后准确判断谁赢了;担任裁判员。

“家教”辅导父亲做孩子的作业;他甚至充当“会议第三方”,主持并录制多人会议。

最有趣的是不同ChatGPT之间的对话。

这种无需人类参与的交流不仅充满了科幻色彩,也让人们开始想象一个不需要人类协作、机器取代人类协作的未来。

在演示中,用户请求一部手机的ChatGPT代表他向另一部手机的ChatGPT申请售后服务。

结果,两个ChatGPT毫无阻碍地聊了两分钟,成功帮助用户“换货”。

”。

OpenAI 总裁 Greg Brockman 进行了一次有趣的演示,他让两个 ChatGPT 互动并唱歌。

OpenAI 总裁 Greg Brockman 演示了两个 GPT 的交互 |图片来源:OpenAI 一位 10 年前开始研究“AI 语音助理”的大厂前高管告诉极客公园,当时他设想 AI 助理的最终形态应该是“多模态、无所不能”,但技术当时不支持。

他相信ChatGPT会加速这个想法的实现——但他没想到这个过程会发生得这么快。

ChatGPT-4o,OpenAI的一小步,人类“AI王牌”的一大步

他认为,实现AGI的关键标志是机器能否具备自主学习、自主迭代、自主解决问题的能力。

这个突破看似很遥远,但当两个 ChatGPT 开始互相聊天时,鸿沟似乎变得更浅了一些。

GPT-4o多模态大模型的技术进步和安全性 这些令人惊叹的产品性能,从根本上源于GPT-4o多模态大模型的技术进步。

后者分为文本、语音、图像三部分。

GPT-4o在这三个部分都进行了改进,尤其是后两个部分。

文字方面,根据 OpenAI 的技术报告,GPT-4o 超过了 GPT-4T 和 GPT-4(23(最初于 2018 年 3 月发布),以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 b 和 Gemini例如,在 0-shot COT MMLU 上,GPT-4o 取得了 88.7% 的新高分;图片来源:OpenAI 最关键的是音频、多方面的进步。

- 语言和视觉方面,以往ChatGPT的音频缺点是需要经过三个独立的模型,导致延迟,无法承载丰富的信息。

第一个模型,然后使用 GPT-3.5 或 GPT-4 接收文本并输出文本,最后第三个模型将文本转换回音频——一方面,它使得音频的传输存在延迟,具有GPT-3.5 的平均延迟为 2.8 秒,GPT-4 的平均延迟为 5.4 秒。

歌唱,或者情感的表达。

GPT-4o 的解决方案是跨文本、视觉和音频端到端地训练新模型,这意味着所有输入和输出都由同一个神经网络处理。

OpenAI 表示,这是其突破深度学习界限的最新举措。

目前,GPT-4o 可以在短至毫秒的时间内响应音频输入,平均为毫秒,与人类的响应时间相似。

同时,GPT-4o在音频ASR性能和翻译性能方面比Whisper-v3(OpenAI的语音识别模型)有更好的表现。

M3Exam 基准测试可用于多语言和视觉评估。

它由多项选择题组成,并包含图表。

GPT-4o 在所有语言基准测试中都比 GPT-4 更强。

此外,在视觉理解评估方面,GPT-4o在视觉感知基准上实现了state-of-the-art的表现。

GPT-4o 也擅长视觉理解 |图片来源:OpenAI 一位大型模型训练师曾告诉极客公园,模型的技术领先从来不依赖于排名,而是依赖于用户最真实的感受和体验。

从这个角度来看,GPT-4o的技术领先性就显而易见了。

OpenAI 表示,GPT-4o 的文本和图像功能将于发布当天在 ChatGPT 中提供。

免费用户可以使用它,但 Plus 订阅者可以享受高达 5 倍的消息容量。

未来几周,OpenAI 将在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。

开发人员现在可以在 API 中访问 GPT-4o 的文本和视觉模型。

与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。

在未来几周内,OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能。

一项强大的技术,外界最担心的就是它的安全性和可控性。

这也是OpenAI的核心考虑之一。

OpenAI 表示,GPT-4o 通过过滤训练数据和训练后细化模型行为等技术,将安全性内置到跨模式设计中。

它还创建了一个新的安全系统来保护语音输出。

为了确保更好的安全性,OpenAI 表示,在未来几周和几个月内,它将致力于技术基础设施、培训后的可用性以及发布其他模型所需的安全性。

OpenAI从未让外界失望,再次引领科技圈的未来。

作为这波AI浪潮的发起者和引领者,OpenAI的每一次发布和更新都关系到其庞大用户量的兴衰、公司竞争的进退以及整个行业的关注和方向。

在本次发布会之前,关于OpenAI的传闻和质疑颇多。

一周前,外媒报道OpenAI将发布一款搜索引擎。

在一年中最重要的新闻发布时刻,该公司没有推出GPT-5,这引发了很多对其创新性的质疑。

而如果不能拿出足够创新的技术和产品,公司就很难重振用户增长,也很难满足整个市场的期望。

自年底推出ChatGPT以来,该公司的用户群经历了起伏。

Sameweb估计,2018年5月全球访问量峰值为18亿次。

但进入下半年后,其用户数量有所下降,尚未追平去年5月的全球访问量峰值记录。

自 2019 年 11 月以来 ChatGPT 在全球和美国的流量增长 |图片来源:Similarweb 这次发布会与其用户群的增长直接相关。

外界仍在密切关注搜索引擎。

Sameweb表示,该消息导致当天ChatGPT流量激增。

不过,在发布会前两天,OpenAI CEO Sam Altman 澄清,这次既不会发布 GPT-5,也不会发布搜索引擎,“但我们一直在努力开发一些我们认为人们会喜欢的新东西!”对我来说就像魔法一样。

”他把它描述得更小。

或许,人们对这次OpenAI大会的期待不高。

但最终,他们得到的却是强烈的震撼。

这或许就是OpenAI想要的对比。

无论是最初的GPT-3.5、去年这个时候的GPT-4、去年底的GPTs,还是今年年初的Sora——OpenAI再次证明了它不会让世界失望。

尽管谷歌、Claude、Character AI、Perplexity等竞争对手正在抢夺更多的新用户和资本,但OpenAI仍然证明自己有能力引领技术创新的“高地”。

ChatGPT 与其他聊天机器人的访问量对比|图片来源:Similarweb 在 OpenAI 推出基于 GPT-4o 的“超级智能助理”之后,这似乎是各大科技公司争相追赶的方向。

据外媒报道,谷歌最近一直在测试利用人工智能来打电话。

有传言称,它将推出一款名为“Pixie”的多模态个人助理,作为“Google Assistant”的替代品。

它可以通过摄像头查看物体并执行人类命令。

这将于明天的 Google I/O 大会上揭晓。

近日,外媒也报道称,苹果即将与OpenAI达成协议。

在 6 月份的苹果年度全球开发者大会上,苹果可能会在 iOS 18 中推出由 ChatGPT 驱动的“聊天机器人”,这可能会对苹果个人语音助理 Siri 产生颠覆性影响。

很难想象,短短一年半的时间,OpenAI就将技术推向了今天的高度,让“超级助理”的想象如此之快地出现在我们眼前。

然而,这只是 OpenAI 释放的技术力量的冰山一角。

毕竟我们今天讨论的只是GPT-4的更新,还不是GPT-5。

OpenAI会给我们带来多大的震撼,又会引起多大的担忧,都是未知的问题。

如果我们站在未来科技的隧道里回望过去,今天GPT-4o“超级语音助理”的诞生或许会成为科技史上具有里程碑意义的时刻。

但也许正如 OpenAI 首席运营官 Brad Lightcap 几天前所说的那样,“在接下来的 12 个月里,我们应该感觉到我们今天使用的(AI)系统糟糕得可笑。

” #阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点,帮助企业家把握新兴技术趋势和行业变化,洞察未来技术走向。

ChatGPT-4o,OpenAI的一小步,人类“AI王牌”的一大步

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 以色列团队推出世界上最大的实验室培育牛排,由真正的牛细胞 3D 打印而成

    以色列团队推出世界上最大的实验室培育牛排,由真正的牛细胞 3D 打印而成

    12 月 7 日,以色列公司 MeaTech 3D 开发出迄今为止最大的实验室培育牛排,重近一克。 牛排由取自活牛组织样本的真正脂肪和肌肉细胞制成,不使用任何大豆或豌豆蛋白,并经过烹饪以形成令人愉悦的烧烤痕迹。 ▲ 成品。 图片来自:MeaTech 3D生产过程结合了细胞生物学、组织工程

    06-21

  • 连TA都不知道,更何况露营

    连TA都不知道,更何况露营

    露营有多受欢迎?每逢长周末假期,打开朋友圈,总会看到几个朋友,带上折叠椅或餐垫,搭起帐篷或大帐篷,在草坪、沙滩甚至山顶,打造一个城市人的游戏屋。 一座山的。 。 随着生活节奏的加快、远行的不确定性增加,人们“逃离城市”的愿望越来越强烈。 此外,还增加了“月亮椅

    06-21

  • 字节跳动再次布局游戏行业,全资收购深机智能,

    字节跳动再次布局游戏行业,全资收购深机智能,

    据投资界消息,据企查查获悉,字节跳动近期完成了对北京深机智能科技有限公司(以下简称“深机智能”)的全资收购。 公开资料显示,深机智能由前青果智能副总裁郭祥昊于2008年创立,他是北京邮电大学博士自然语言处理(NLP)方向。 他学习了钟义信教授的信息论和神经网络,并

    06-18

  • “家家泉”完成近亿元B轮融资,沣途资本领投

    “家家泉”完成近亿元B轮融资,沣途资本领投

    投资界(ID:pedaily)9月5日消息,水家电品牌“家家泉”(原“熊小夕”)已获完成近亿元人民币B轮融资,本轮融资由沣途资本领投,老股东纪源资本、天图资本跟投,木棉资本独家投资。 这是嘉泉成立两年来完成的第四轮融资。 据悉,本轮募集资金将主要用于嘉泉品牌建设以及新品

    06-17

  • 首次发布 -该核心技术获Pre-A轮融资,蔚来资本、启明创投联合领投

    首次发布 -该核心技术获Pre-A轮融资,蔚来资本、启明创投联合领投

    投资界(ID:pedaily)7月19日消息,通用智能芯片公司该核心技术宣布完成Pre-A轮融资轮融资。 本轮融资由蔚来资本、启明创投联合领投,BAI资本、基石资本、中科之星、嘉实投资、元禾璞华、云九资本跟投。 本轮融资将主要用于扩大研发团队、加快市场布局和生态建设。 据悉,这

    06-17

  • 植物肉品牌“植物教授”获5000万元A轮融资,经纬中国独家投资

    植物肉品牌“植物教授”获5000万元A轮融资,经纬中国独家投资

    投资界(ID:pedaily)8月31日消息,据36氪报道,近日,植物肉品牌“植物教授”完成1万元A轮融资,由经纬中国独家投资,回声资本独家投资。 据悉,本轮融资将用于消费者渗透、产品研发、供应链优化和团队扩张。 此前,年初,植教授获得数千万元天使轮融资,投资方为宝洁校友会

    06-18

  • 中航顾问宁振波:智能制造的基础是数字化,机器换人还只是自动化的老路

    中航顾问宁振波:智能制造的基础是数字化,机器换人还只是自动化的老路

    雷锋网记者:近日,中国信息产业商会主办的第九届航天信息化建设合作峰会召开在北京。 本次峰会以“推动军民深度融合,赋能数字化转型”为主题。 航天科工、航天科技、中国商飞、中航发展等单位信息负责人、行业专家及企业代表参加会议。 会上,中国航空工业信息技术中心顾问

    06-18

  • 全球直播购物平台ShopShops完成1500万美元B轮融资

    全球直播购物平台ShopShops完成1500万美元B轮融资

    投资界(ID:pedaily)6月15日报道,北美精品买手店与设计师品牌集合直购平台SHOPSHOPSWheretoShop完成1万美元B轮融资本轮融资,投资方包括Union Square Ventures、Forerunner Ventures、LightShed Ventures(领投)、Acrew Capital(领投)、Gaingels、Dave Lu、TCG Capital

    06-18

  • 海关总署:前两个月,综合保税区实现进出口总值7649.6亿元,同比增长46.9%

    海关总署:前两个月,综合保税区实现进出口总值7649.6亿元,同比增长46.9%

    据海关总署网站显示,今年前两个月,全国综合保税区发展迅速,实现进出口总值6亿元。 人民币同比增长46.9%,高出进出口总体增速14.7个百分点。 其中,出口1亿元,同比增长71.1%,进口5000万元,同比增长25.1%,成为稳外贸稳外资的重要力量。 听,中小企业反馈平台。 倾听用户

    06-17

  • 广州雷德倍尔完成金阖资本超5000万元B轮战略投资

    广州雷德倍尔完成金阖资本超5000万元B轮战略投资

    据投资界9月7日消息,据Arterial.com报道,广州耀明生物科技(简称雷德倍尔)完成B轮战略投资投资1万多元。 金阖资本(黄金)(领域医疗相关基金)投资。 本次战略融资将推动雷德倍尔两大诊断产品的研发和营销,满足两大疾病领域的临床诊断需求。 同年11月成立,是一家专注于

    06-17

  • 奥普玛生物获近亿元战略投资,华兴医疗产业基金领投

    奥普玛生物获近亿元战略投资,华兴医疗产业基金领投

    据投资界4月18日消息,上海奥普玛生物科技有限公司(以下简称“奥普玛生物”) 》)完成战略投资近亿元。 投资方为华兴医疗产业基金和达辰创投。 值得注意的是,本轮交易是迄今为止中国细胞培养领域最大的单笔融资。   博士。 远普生物创始人、董事长兼总经理肖志华表示,

    06-18

  • 100亿,湖北省设立科技天使基金

    100亿,湖北省设立科技天使基金

    投资界-解码LP消息,4月17日,省科技厅发布《湖北省科创企业全生命周期培育计划(-年)》(以下简称《计划》),瞄准针对科技企业不同生命周期,为科技创新企业提供阶段性培育体系,提供项目、人才、平台、资金等创新支持。 其中,为引导社会资本投资早期、小型、“硬科技”

    06-18