首页 > 科技未来 > 内容

OpenAI 在 26 分钟内改变世界! GPT-4免费版来了,视频语音交互快进科幻电影

发布于:2024-06-21 编辑:匿名 来源:网络

今天一早,26分钟的发布会将再次极大地改变AI行业和我们未来的生活,并将也让无数AI初创公司担忧。

这确实不是一个头条新闻,因为这是一场 OpenAI 新闻发布会。

刚刚,OpenAI正式发布了GPT-4o,其中“o”代表“o??mni”(意思是全面、无所不能)。

该模型具有文字、图片、视频、语音功能。

这甚至是 GPT-5 的一个未完成版本。

更重要的是,这个 GPT-4 级别的模型将免费提供给所有用户,并将在未来几周内推广到 ChatGPT Plus。

我们先来概括一下本次会议的亮点。

更多功能分析请阅读下文。

发布会亮点: 全新GPT-4o模型:打通文本、音频、图像的任意输入,无需中间转换即可直接相互生成。

GPT-4o语音延迟大大降低,可以在毫秒内响应音频输入,平均毫秒级。

这类似于人类在对话中的反应时间。

GPT-4向所有用户免费开放GPT-4o API,比GPT4-turbo快2倍,便宜50%。

令人惊叹的实时语音助手演示:对话更人性化,可以实时翻译,识别表情,可以通过摄像头识别屏幕书写代码分析图 ChatGPT 新 UI,更简洁适用于 macOS 的全新 ChatGPT 桌面应用程序, Windows版本将于今年晚些时候推出 这些功能早在预热阶段就被奥特曼形容为“感觉像魔法”。

由于世界各地的人工智能模型正在“追赶 GPT-4”,OpenAI 必须从其武器库中拿出一些真正的东西。

免费可用的GPT-4o来了,但这还不是它最大的亮点。

事实上,在发布的前一天,我们就发现OpenAI已经悄然将GPT-4的描述从“最先进的模型”改为“先进的”。

这是为了迎接GPT-4o的到来。

GPT-4o 的强大之处在于它可以接受文本、音频和图像的任意组合作为输入,并直接生成上述媒体输出。

这意味着人机交互将更加接近人与人之间的自然交流。

GPT-4o 平均可以在毫秒内响应音频输入,这接近人类对话的反应时间。

之前使用语音模式与ChatGPT通信,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。

它在英语和代码文本上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上有显着改进,同时 API 速度更快且成本便宜 50%。

与现有模型相比,GPT-4o 在视觉和音频理解方面表现尤其出色。

谈话过程中您可以随时打断。

您可以根据场景生成多种音调,具有类似人类的情感和情绪。

您可以通过AI视频通话直接在线解答各种问题。

从测试参数来看,GPT-4o的主要能力基本与目前最强的OpenAI GPT-4 Turbo处于同一水平。

我们过去使用 Siri 或其他语音助手的体验并不理想,主要是因为语音助手对话经历三个阶段:语音识别或“ASR”:音频文本,类似于 Whisper; LLM 计划接下来要说什么:文本 1 - 文本 2;文本转语音或“TTS”:文本 2 - 音频,想想 ElevenLabs 或 VALL-E。

然而,我们日常的自然对话基本上是这样的:边听边说,思考接下来要说什么;在适当的时候插入“是,嗯,嗯”;预测对方发言何时结束并立即接替;决定自然打断而不引起冒犯;当你听和说时,考虑接下来要说什么;在适当的时候插入“是的,嗯,嗯”;优雅地处理和中断。

以往的AI语言助手无法很好地处理这些问题,对话的三个阶段均存在较大延迟,导致体验不佳。

同时,在此过程中丢失了大量信息,例如无法直接观察语调、多个说话者或背景噪音,无法输出笑声、歌唱或表达情感。

当音频可以直接生成音频、图像、文本、视频时,整个体验将会突飞猛进。

GPT-4o 是 OpenAI 为此训练的全新模型。

文本、视频和音频之间的直接转换要求所有输入和输出都由同一神经网络处理。

更令人惊讶的是,ChatGPT的免费用户可以使用GPT-4o体验以下功能:体验GPT-4级别的智能、从模型和网络中获取响应分析数据以及创建图表。

讨论您拍摄的照片、上传文件,并获取总结、写作或分析方面的帮助。

使用 GPT 和 GPT 存储构建更有用的内存体验。

当你看下面的GPT-4o的demo时,你的感受可能会更加复杂。

ChatGPT 版本“Jarvis”,每个人都有 ChatGPT。

它不仅能说、能听,还能看。

这不是什么新鲜事,但 ChatGPT 的“发布新版本”仍然让我感到惊讶。

睡前指南以特定的生活场景为例,请ChatGPT讲述一个关于机器人和爱情的睡前故事。

它几乎不需要太多思考,就能用嘴讲述一个充满情感和戏剧性的睡前故事。

它甚至可以用唱歌的形式讲故事,可以作为用户的睡眠伴侣。

题主还可以在发布会上请它演示如何帮助求解线性方程3X=4。

它可以一步步指导您并给您正确的答案。

当然,以上还是有点“儿戏”,现场编码的难度才是真正的考验。

不过,三击、五击、二击就能轻松解决。

凭借ChatGPT的“愿景”,它可以查看计算机屏幕上的一切,例如与代码库交互以及查看代码生成的图表。

呃,有什么问题吗?那以后我们的隐私不就不会被人看清楚了吗?实时翻译现场的观众也向ChatGPT提出了一些棘手的问题。

从英语翻译成意大利语,从意大利语翻译成英语,无论你使用多少次,这个人工智能语音助手都可以轻松完成。

看来没必要花很多钱买翻译机了。

将来,也许ChatGPT可能比你的实时翻译器还相当可靠。

该内容暂时无法在飞书文档之外显示 ▲ 实时翻译(官网案例) 感知语言的情感只是第一步。

ChatGPT 还可以解读人类的面部情绪。

OpenAI 在 26 分钟内改变世界! GPT-4免费版来了,视频语音交互快进科幻电影

发布会上,ChatGPT直接将摄像头捕捉到的人脸误认为是桌子。

正当大家以为要翻车的时候,结果发现是因为最先开启的前置摄像头对准了桌子。

但最终,它准确地描述了自拍照中脸上的情绪,准确地识别出了脸上“灿烂”的笑容。

有趣的是,发布会最后,发言人并没有忘记Cue来自英伟达及其创始人老黄的“大力支持”。

他确实很了解人性。

对话语言界面的想法具有令人难以置信的预见性。

奥特曼在之前的采访中表示,他希望最终能够开发出一款类似于AI电影《Her》中的AI助手,而OpenAI今天发布的语音助手确实正在成为现实。

OpenAI 首席运营官 Brad Lightcap 最近预测,未来我们将像与人类交谈一样与 AI 聊天机器人交谈,就好像它们是团队的一部分一样。

现在看来,这不仅为今天的会议做了铺垫,也为我们未来十年的生活做了生动的注脚。

苹果在AI语音助手上苦苦挣扎了十三年,一直无法走出迷宫,但OpenAI却一夜之间找到了出口。

可以预见,在不久的将来,钢铁侠的“贾维斯”将不再是幻想。

《她》来了。

虽然萨姆·奥尔特曼没有出现在发布会上,但他在发布会后发表了一篇博客,并在X:她上贴了一句话。

这明显是在暗指同名经典科幻电影《她》。

这是我看到这次会议的演讲时第一个想到的画面。

电影中的萨曼莎《她》不仅仅是一个产品,她甚至比人类更了解人类,更像人类本身。

和她交流的时候你真的可以逐渐忘记她是一个AI。

这意味着人机交互方式或将在图形界面之后迎来真正革命性的更新。

正如 Sam Altman 在他的博客中所说:新的语音(和视频)模式是我用过的最好的计算机界面。

感觉就像是电影里的AI;我仍然有点惊讶它是真的。

事实证明,达到人类水平的响应时间和表达能力是一个巨大的变化。

之前的 ChatGPT 让我们第一次看到了自然用户界面:简单高于一切:复杂性是自然用户界面的敌人。

每个交互都应该是不言自明的,不需要说明手册。

但今天发布的 GPT-4o 却完全不同。

它几乎无延迟、智能、有趣且实用。

我们与计算机的交互从未真正经历过如此自然流畅的交互。

这里还隐藏着巨大的可能性。

当支持更多的个性化功能以及与不同终端设备的协作时,意味着我们可以使用手机、电脑、智能眼镜等计算终端来做很多以前不可能的事情。

AI硬件将不再尝试积累。

现在更令人兴奋的是,如果苹果下个月在 WWDC 上正式宣布与 OpenAI 合作,iPhone 的体验可能会比近年来任何一次会议得到更大的改善。

NVIDIA高级代码科学家Jim Fan认为,与OpenAI针对被称为史上最大更新的iOS 18的合作可能有三个层次:放弃Siri,OpenAI将为iOS完善一个纯粹在设备上运行的小型GPT-4o,与付费升级的选项。

云服务。

本机功能将相机或屏幕流馈送到模型中。

对神经音频和视频编解码器的芯片级支持。

集成iOS系统级操作API和智能家居API。

没有人使用 Siri Shortcuts,但现在是复兴的时候了。

这可能会成为一款拥有十亿用户的人工智能代理产品。

这就像智能手机上类似特斯拉的全尺寸数据飞轮。

说到这里,我不得不为谷歌感到遗憾,谷歌明天将召开新闻发布会。

OpenAI 在 26 分钟内改变世界! GPT-4免费版来了,视频语音交互快进科幻电影

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • SK集团旗下3家公司将筹集1万亿韩元投资半导体、Yuanverse等,

    SK集团旗下3家公司将筹集1万亿韩元投资半导体、Yuanverse等,

    据财经消息,韩国SK集团旗下3家公司SK海力士、SK Telecom和SKSquare宣布成立联合开发协会筹集资金。 投资规模达1万亿韩元,共同投资半导体、人工智能、Yuanverse和区块链等。 近日有消息称,三星电子和SK集团将大规模投资,扩大系统半导体业务。

    06-08

  • 日本又一家百年企业倒闭!奥林巴斯撤退深圳,工厂停产

    日本又一家百年企业倒闭!奥林巴斯撤退深圳,工厂停产

    继三星深圳工厂裁员并退出中国市场后,拥有近百年历史的日本企业奥林巴斯也关闭了深圳工厂,并宣布将停止生产。 即日起暂停生产。   据投资界5月8日消息,昨天下午15点10分,董事长与奥林巴斯(深圳)实业有限公司总经理小松祥通过广播向全体员工宣布:“深圳工厂将5月7日起

    06-17

  • 据悉,周鸿祎旗下奇虎计划今年上半年赴美上市

    据悉,周鸿祎旗下奇虎计划今年上半年赴美上市

    据投资界2月17日消息,据海外媒体报道,北京奇虎科技计划于今年上半年赴美上市今年上半年在美国进行首次公开??募股(IPO),但尚未确定融资规模,花旗集团和瑞银将负责IPO交易。   去年10月,奇虎CEO周鸿祎宣布了向内部员工发行股票期权的可能性。 周鸿祎在给新员工的邮件中

    06-18

  • 苹果正式宣布2号人物辞职,曾被预测将成为公司下一任CEO

    苹果正式宣布2号人物辞职,曾被预测将成为公司下一任CEO

    苹果2号人物,公司罕见的女性高管,薪资比CEO库克还高的零售企业副总裁、Angela、Ahrendts(安吉拉阿伦茨)多年来一直领导苹果实体零售部门,但这一任期即将结束——她计划于今年 4 月离开苹果。 3 名高管出现在零售店 总体而言,这对苹果来说是一个巨大的变化,特别是考虑到

    06-17

  • 如何让年轻人爱上贵州茅台?

    如何让年轻人爱上贵州茅台?

    贵州茅台前三季度营收保持两位数增长。 今年有望实现营收增长15%的既定目标,继续保持白酒市场领先地位。 该公司第三季度营收增速放缓,着实让外界感到意外。 这对整体消费市场产生影响,有业内人士猜测这是积极调控的结果。 今年以来,公司跨界动作频频。 与瑞幸、多芬联名,

    06-18

  • 汤臣倍健为LP,将参与设立2亿元新基金

    汤臣倍健为LP,将参与设立2亿元新基金

    投资圈(ID:pedaily)据4月28日消息,汤臣倍健宣布,公司拟与与蔚来股权投资管理(广州)有限公司(简称“蔚来投资”)、安徽龙翼乡村振兴发展有限公司(“龙翼振兴”)共同投资设立安庆蔚来生命健康和绿色食品投资基金合伙企业(有限合伙)(暂名),并签署相关合伙协议。

    06-17

  • 美光科技总裁兼首席执行官 Sanjay Mehrotra 荣获 FMS 闪存峰会 2019 终身成就奖

    美光科技总裁兼首席执行官 Sanjay Mehrotra 荣获 FMS 闪存峰会 2019 终身成就奖

    8 月 6-8 日,闪存峰会 (FMS) 在圣克拉拉会议中心举行,会议期间宣布美光科技总裁兼首席执行官桑杰梅赫罗特拉 (Sanjay Mehrotra) 因“共同创立闪迪、推动闪存行业和市场的发展,以及美光科技和半导体行业协会的卓越领导力”而荣获 2018 年终身成就奖。 FMS 终身成就奖 (LAA)

    06-06

  • 宸安生物已完成A+轮融资,投资方为BV百度创投

    宸安生物已完成A+轮融资,投资方为BV百度创投

    据投资界9月5日消息,单细胞精准诊断临床解决方案提供商宸安生物宣布完成A+轮融资A+轮融资。 本轮投资方为BV百度创投。 ,融资金额尚未披露。 此前,今年1月,宸安生物科技完成了由ETP和晨兴资本领投、火山岩资本跟投的1万美元A轮融资。 今年3月,完成由火山资本、普华资本、

    06-18

  • “一颗星闪耀四方”,智舟集团赋能企业服务升级-年度企业账户系列访谈

    “一颗星闪耀四方”,智舟集团赋能企业服务升级-年度企业账户系列访谈

    作者 |神舟 中国的互联网发展如此之快、如此之广,两三年就呈现出明显的变化。 。 我们只能瞥见电子商务。 从淘宝、京东到拼多多,再到现在抖音快手,传统电商正走向社交电商,所到之处一切都在发生变化。 不断变化的行业生态除了带来大量交易数据和就业之外,也逐渐需要专业

    06-18

  • KKR集团和GIP将以近150亿美元收购美国数据中心运营商CyrusOne

    KKR集团和GIP将以近150亿美元收购美国数据中心运营商CyrusOne

    据报道,美国数据中心运营商和房地产投资信托CyrusOne表示,该公司将被KKR集团和全球基础设施合作伙伴(GIP)收购。 此次收购的交易价值约为1亿美元,包括债务。 此次收购是数据中心领域的最新交易,黑石集团于 6 月以 1 亿美元收购了 QTS Real Estate Trust。

    06-18

  • 英特尔工业物联网大会再推出两款新芯片

    英特尔工业物联网大会再推出两款新芯片

    中关村在线成功实现0+边缘计算客户端部署,英特尔工业物联网大会再推出两款新芯片,进一步丰富产品线。 毫无疑问,英特尔现在正处于行业转型的关键时刻。 数据量的指数增长为新业务洞察和盈利服务的产生带来了巨大的机会。 与此同时,云工作负载类型日益多样化,网络正在向5

    06-06

  • 共享电动滑板车Voi科技完成新一轮8500万美元融资

    共享电动滑板车Voi科技完成新一轮8500万美元融资

    据投资界11月11日消息,欧洲最大共享电动滑板车公司瑞典Voi科技宣布完成新一轮融资融资8500万美元。 本轮融资由 Vostok New Ventures 领投,Balderton Capital 等一系列现有投资者跟投。 Voi科技成立于2017年,致力于为消费者提供便捷的出行解决方案,缓解城市中心的交通拥堵

    06-18