首页 > 科技未来 > 内容

OpenAI 在 26 分钟内改变世界！ GPT-4免费版来了，视频语音交互快进科幻电影

发布于：2024-06-21 编辑：匿名来源：网络

今天一早，26分钟的发布会将再次极大地改变AI行业和我们未来的生活，并将也让无数AI初创公司担忧。

这确实不是一个头条新闻，因为这是一场 OpenAI 新闻发布会。

刚刚，OpenAI正式发布了GPT-4o，其中“o”代表“o??mni”（意思是全面、无所不能）。

该模型具有文字、图片、视频、语音功能。

这甚至是 GPT-5 的一个未完成版本。

更重要的是，这个 GPT-4 级别的模型将免费提供给所有用户，并将在未来几周内推广到 ChatGPT Plus。

我们先来概括一下本次会议的亮点。

更多功能分析请阅读下文。

发布会亮点：全新GPT-4o模型：打通文本、音频、图像的任意输入，无需中间转换即可直接相互生成。

GPT-4o语音延迟大大降低，可以在毫秒内响应音频输入，平均毫秒级。

这类似于人类在对话中的反应时间。

GPT-4向所有用户免费开放GPT-4o API，比GPT4-turbo快2倍，便宜50%。

令人惊叹的实时语音助手演示：对话更人性化，可以实时翻译，识别表情，可以通过摄像头识别屏幕书写代码分析图 ChatGPT 新 UI，更简洁适用于 macOS 的全新 ChatGPT 桌面应用程序， Windows版本将于今年晚些时候推出这些功能早在预热阶段就被奥特曼形容为“感觉像魔法”。

由于世界各地的人工智能模型正在“追赶 GPT-4”，OpenAI 必须从其武器库中拿出一些真正的东西。

免费可用的GPT-4o来了，但这还不是它最大的亮点。

事实上，在发布的前一天，我们就发现OpenAI已经悄然将GPT-4的描述从“最先进的模型”改为“先进的”。

这是为了迎接GPT-4o的到来。

GPT-4o 的强大之处在于它可以接受文本、音频和图像的任意组合作为输入，并直接生成上述媒体输出。

这意味着人机交互将更加接近人与人之间的自然交流。

GPT-4o 平均可以在毫秒内响应音频输入，这接近人类对话的反应时间。

之前使用语音模式与ChatGPT通信，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。

它在英语和代码文本上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上有显着改进，同时 API 速度更快且成本便宜 50%。

与现有模型相比，GPT-4o 在视觉和音频理解方面表现尤其出色。

谈话过程中您可以随时打断。

您可以根据场景生成多种音调，具有类似人类的情感和情绪。

您可以通过AI视频通话直接在线解答各种问题。

从测试参数来看，GPT-4o的主要能力基本与目前最强的OpenAI GPT-4 Turbo处于同一水平。

我们过去使用 Siri 或其他语音助手的体验并不理想，主要是因为语音助手对话经历三个阶段：语音识别或“ASR”：音频文本，类似于 Whisper； LLM 计划接下来要说什么：文本 1 - 文本 2；文本转语音或“TTS”：文本 2 - 音频，想想 ElevenLabs 或 VALL-E。

然而，我们日常的自然对话基本上是这样的：边听边说，思考接下来要说什么；在适当的时候插入“是，嗯，嗯”；预测对方发言何时结束并立即接替；决定自然打断而不引起冒犯；当你听和说时，考虑接下来要说什么；在适当的时候插入“是的，嗯，嗯”；优雅地处理和中断。

以往的AI语言助手无法很好地处理这些问题，对话的三个阶段均存在较大延迟，导致体验不佳。

同时，在此过程中丢失了大量信息，例如无法直接观察语调、多个说话者或背景噪音，无法输出笑声、歌唱或表达情感。

当音频可以直接生成音频、图像、文本、视频时，整个体验将会突飞猛进。

GPT-4o 是 OpenAI 为此训练的全新模型。

文本、视频和音频之间的直接转换要求所有输入和输出都由同一神经网络处理。

更令人惊讶的是，ChatGPT的免费用户可以使用GPT-4o体验以下功能：体验GPT-4级别的智能、从模型和网络中获取响应分析数据以及创建图表。

讨论您拍摄的照片、上传文件，并获取总结、写作或分析方面的帮助。

使用 GPT 和 GPT 存储构建更有用的内存体验。

当你看下面的GPT-4o的demo时，你的感受可能会更加复杂。

ChatGPT 版本“Jarvis”，每个人都有 ChatGPT。

它不仅能说、能听，还能看。

这不是什么新鲜事，但 ChatGPT 的“发布新版本”仍然让我感到惊讶。

睡前指南以特定的生活场景为例，请ChatGPT讲述一个关于机器人和爱情的睡前故事。

它几乎不需要太多思考，就能用嘴讲述一个充满情感和戏剧性的睡前故事。

它甚至可以用唱歌的形式讲故事，可以作为用户的睡眠伴侣。

题主还可以在发布会上请它演示如何帮助求解线性方程3X=4。

它可以一步步指导您并给您正确的答案。

当然，以上还是有点“儿戏”，现场编码的难度才是真正的考验。

不过，三击、五击、二击就能轻松解决。

凭借ChatGPT的“愿景”，它可以查看计算机屏幕上的一切，例如与代码库交互以及查看代码生成的图表。

呃，有什么问题吗？那以后我们的隐私不就不会被人看清楚了吗？实时翻译现场的观众也向ChatGPT提出了一些棘手的问题。

从英语翻译成意大利语，从意大利语翻译成英语，无论你使用多少次，这个人工智能语音助手都可以轻松完成。

看来没必要花很多钱买翻译机了。

将来，也许ChatGPT可能比你的实时翻译器还相当可靠。

该内容暂时无法在飞书文档之外显示 ▲ 实时翻译（官网案例）感知语言的情感只是第一步。

ChatGPT 还可以解读人类的面部情绪。

OpenAI 在 26 分钟内改变世界！ GPT-4免费版来了，视频语音交互快进科幻电影

发布会上，ChatGPT直接将摄像头捕捉到的人脸误认为是桌子。

正当大家以为要翻车的时候，结果发现是因为最先开启的前置摄像头对准了桌子。

但最终，它准确地描述了自拍照中脸上的情绪，准确地识别出了脸上“灿烂”的笑容。

有趣的是，发布会最后，发言人并没有忘记Cue来自英伟达及其创始人老黄的“大力支持”。

他确实很了解人性。

对话语言界面的想法具有令人难以置信的预见性。

奥特曼在之前的采访中表示，他希望最终能够开发出一款类似于AI电影《Her》中的AI助手，而OpenAI今天发布的语音助手确实正在成为现实。

OpenAI 首席运营官 Brad Lightcap 最近预测，未来我们将像与人类交谈一样与 AI 聊天机器人交谈，就好像它们是团队的一部分一样。

现在看来，这不仅为今天的会议做了铺垫，也为我们未来十年的生活做了生动的注脚。

苹果在AI语音助手上苦苦挣扎了十三年，一直无法走出迷宫，但OpenAI却一夜之间找到了出口。

可以预见，在不久的将来，钢铁侠的“贾维斯”将不再是幻想。

《她》来了。

虽然萨姆·奥尔特曼没有出现在发布会上，但他在发布会后发表了一篇博客，并在X：她上贴了一句话。

这明显是在暗指同名经典科幻电影《她》。

这是我看到这次会议的演讲时第一个想到的画面。

电影中的萨曼莎《她》不仅仅是一个产品，她甚至比人类更了解人类，更像人类本身。

和她交流的时候你真的可以逐渐忘记她是一个AI。

这意味着人机交互方式或将在图形界面之后迎来真正革命性的更新。

正如 Sam Altman 在他的博客中所说：新的语音（和视频）模式是我用过的最好的计算机界面。

感觉就像是电影里的AI；我仍然有点惊讶它是真的。

事实证明，达到人类水平的响应时间和表达能力是一个巨大的变化。

之前的 ChatGPT 让我们第一次看到了自然用户界面：简单高于一切：复杂性是自然用户界面的敌人。

每个交互都应该是不言自明的，不需要说明手册。

但今天发布的 GPT-4o 却完全不同。

它几乎无延迟、智能、有趣且实用。

我们与计算机的交互从未真正经历过如此自然流畅的交互。

这里还隐藏着巨大的可能性。

当支持更多的个性化功能以及与不同终端设备的协作时，意味着我们可以使用手机、电脑、智能眼镜等计算终端来做很多以前不可能的事情。

AI硬件将不再尝试积累。

现在更令人兴奋的是，如果苹果下个月在 WWDC 上正式宣布与 OpenAI 合作，iPhone 的体验可能会比近年来任何一次会议得到更大的改善。

NVIDIA高级代码科学家Jim Fan认为，与OpenAI针对被称为史上最大更新的iOS 18的合作可能有三个层次：放弃Siri，OpenAI将为iOS完善一个纯粹在设备上运行的小型GPT-4o，与付费升级的选项。

云服务。

本机功能将相机或屏幕流馈送到模型中。

对神经音频和视频编解码器的芯片级支持。

集成iOS系统级操作API和智能家居API。

没有人使用 Siri Shortcuts，但现在是复兴的时候了。

这可能会成为一款拥有十亿用户的人工智能代理产品。

这就像智能手机上类似特斯拉的全尺寸数据飞轮。

说到这里，我不得不为谷歌感到遗憾，谷歌明天将召开新闻发布会。

OpenAI 在 26 分钟内改变世界！ GPT-4免费版来了，视频语音交互快进科幻电影

站长声明

标签：

上一篇：继华为、小米之后，realme也入局，为什么所有手机制造商都生产个人电脑？

下一篇：“吃”马斯克，摸耐克，这个牌子酷得离谱

科学家：UltraRAM技术可整合内存与闪存，耐用性极高

科学家：UltraRAM技术可以将内存和闪存整合在一起，具有极高的耐用性。 1月12日，据外媒TECHSPOT报道，本月初，英国兰卡斯特大学物理与工程系的研究人员发表了一篇论文。本文详细介绍了UltraRAM近期的重要进展。 TECHSPOT 报告显示，UltraRAM 是一种将非易失性闪存 NAND 和易

06-08
谷歌新园区正式启用，100%“纯电动”

美国加州硅谷，是著名的科技公司聚集地。许多公司的总部都设在这里，其中包括谷歌。不久前，谷歌筹划多年的“帐篷园区”Bay View终于正式启用。近十年后，Bay View 和 Charleston East 成为 Google 总部的新成员，也是该公司最早设计和建造的园区。 ▲图片来自：Google 设

06-21
兑吧一季度新签SaaS业务合同同比增长190.77%，新签客户中1-3为金融客户

兑吧（3.HK）近日发布公告，显示公司用户运营SaaS业务一季度新签合同数（含续签）数，其中银行客户数占新签客户数的1/3。合同总金额约1万元，同比增长0.77%。新签合同（含续签）最高客单价为1万元。近年来，国内SaaS市场持续加速增长，跑赢全球平均水平。全球每年SaaS市场

06-18
企业周刊- “晓多科技”基于阿里云让智能客服触手可及

阿里云加速器云企业集成周刊-“晓多科技”阿里云加速器会员企业晓多科技是优秀的智能客服细分赛道作为阿里云合作伙伴，我们深度涉足自然语言对话技术，打造基于深度神经网络学习技术的专业智能客服机器人。晓多科技深度融合阿里云丰富的基础产品、安全产品、AI产品，实现业务

06-18
除夕夜和跨年夜，创业者计划祝大家龙年心愿

，帮助初创企业进入数字化新时代，并提供高达1万元的云资源抵扣，以帮助您“零成本”迁移到云端！扣除金可新增采购订单以及阿里云7大产品预付费和后付费产品的升级订单。（七大项主要指：计算、存储、网络、安全、数据库、大数据、云原生）扫描右侧二维码，点击“加入创业者

06-18
周杰伦《最伟大的作品》全面演绎，他依然是音乐之王

19年前的7月16日，可能是华语乐坛最辉煌的时刻之一。一首歌在亚洲50多家广播电台同时首播，超过8亿人同时收听。在 iPhone 还有 4 年才登场的那一年，这个数字可能比今天抖音快手 QQ 音乐网易云同时推出一首歌还要夸张。这首歌的名字是《以父之名》。喜欢戴鸭舌帽、头发微

06-21
苏宁易购引入国有战略投资

投资社区（ID：pedaily）据2月28日消息，苏宁易购发布复牌公告，宣布引入国有战略投资。本次交易完成后，深圳国际控股（深圳）有限公司（以下简称“深圳国际”）将持有苏宁易购8%的股份，深圳市鲲鹏股权投资管理有限公司（以下简称“深圳国际”）将持有苏宁易购8%的股份。鲲

06-17
助力数字产业发展，阿里巴巴封神之战山东站总决赛圆满落幕

3月24日，阿里巴巴封神之战山东站暨智汇谷创新创业大赛决赛在聊城正式落下帷幕。入围决赛的10个优秀项目竞争激烈。经过路演和答辩后，评委们从项目定位、产品技术创新、市场潜力、团队能力等维度进行打分。乐博鑫瑞、国祥健康产业、山东公链最终分别获得冠、亚、季军；中科

06-17
【PW热门话题】爱回收赴美IPO招股书：2020年GMV达196亿

爱回收品牌母公司万物新生集团近日在美国递交IPO申请文件，拟在美国主板上市纽约证券交易所股票代码“RERE”。承销商包括高盛、美国银行、华兴资本、国泰君安（GTJA）、里昂证券（CLSA）和老虎证券。

06-18
向音乐致敬：盘点vivo三年的极致Hi-Fi之路

关于微信商业化的传言从未停止，各种讨论常常引发人们对于互联网广告的思考。毕竟庞然大物的蜕变，有足够的重视。 2019年1月25日晚，不同用户手机上分别出现了vivo、可口可乐、宝马的三则广告，印证了微信朋友圈里的生意话甚至在接下来的几天里发酵的事实。成为引爆国内互联

06-17
张保国：今明两年将是房地产资金风险集中暴露期

新年以来，房地产融资市场利空消息不断。一是有消息称兴业银行已暂停房地产夹层融资和供应链贷款。随后，德信地产降价出售杭州房产，被视为撼动中国房地产市场的最后一根稻草。随后，又曝出浙江兴润，宁波房地产业的前大佬，房地产崩盘，留下超过35亿元的巨额债务……此外

06-17
管家婆易聚客：老牌ERP巨头携手聚客进军智慧零售生态

2020年7月17日，任我行软件与聚客在成都达成战略合作，共同发布“智慧零售平台”管家破衣”为连锁店。久客SCRM』。成都任我行软件有限公司是中国中小企业管理软件和ERP云服务提供商。 “管家婆”进销存、财务一体化软件是其核心产品。目前，任我行软件在各地拥有数百家销售

06-18