SK集团旗下3家公司将筹集1万亿韩元投资半导体、Yuanverse等,
06-08
今天一早,26分钟的发布会将再次极大地改变AI行业和我们未来的生活,并将也让无数AI初创公司担忧。
这确实不是一个头条新闻,因为这是一场 OpenAI 新闻发布会。
刚刚,OpenAI正式发布了GPT-4o,其中“o”代表“o??mni”(意思是全面、无所不能)。
该模型具有文字、图片、视频、语音功能。
这甚至是 GPT-5 的一个未完成版本。
更重要的是,这个 GPT-4 级别的模型将免费提供给所有用户,并将在未来几周内推广到 ChatGPT Plus。
我们先来概括一下本次会议的亮点。
更多功能分析请阅读下文。
发布会亮点: 全新GPT-4o模型:打通文本、音频、图像的任意输入,无需中间转换即可直接相互生成。
GPT-4o语音延迟大大降低,可以在毫秒内响应音频输入,平均毫秒级。
这类似于人类在对话中的反应时间。
GPT-4向所有用户免费开放GPT-4o API,比GPT4-turbo快2倍,便宜50%。
令人惊叹的实时语音助手演示:对话更人性化,可以实时翻译,识别表情,可以通过摄像头识别屏幕书写代码分析图 ChatGPT 新 UI,更简洁适用于 macOS 的全新 ChatGPT 桌面应用程序, Windows版本将于今年晚些时候推出 这些功能早在预热阶段就被奥特曼形容为“感觉像魔法”。
由于世界各地的人工智能模型正在“追赶 GPT-4”,OpenAI 必须从其武器库中拿出一些真正的东西。
免费可用的GPT-4o来了,但这还不是它最大的亮点。
事实上,在发布的前一天,我们就发现OpenAI已经悄然将GPT-4的描述从“最先进的模型”改为“先进的”。
这是为了迎接GPT-4o的到来。
GPT-4o 的强大之处在于它可以接受文本、音频和图像的任意组合作为输入,并直接生成上述媒体输出。
这意味着人机交互将更加接近人与人之间的自然交流。
GPT-4o 平均可以在毫秒内响应音频输入,这接近人类对话的反应时间。
之前使用语音模式与ChatGPT通信,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。
它在英语和代码文本上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上有显着改进,同时 API 速度更快且成本便宜 50%。
与现有模型相比,GPT-4o 在视觉和音频理解方面表现尤其出色。
谈话过程中您可以随时打断。
您可以根据场景生成多种音调,具有类似人类的情感和情绪。
您可以通过AI视频通话直接在线解答各种问题。
从测试参数来看,GPT-4o的主要能力基本与目前最强的OpenAI GPT-4 Turbo处于同一水平。
我们过去使用 Siri 或其他语音助手的体验并不理想,主要是因为语音助手对话经历三个阶段:语音识别或“ASR”:音频文本,类似于 Whisper; LLM 计划接下来要说什么:文本 1 - 文本 2;文本转语音或“TTS”:文本 2 - 音频,想想 ElevenLabs 或 VALL-E。
然而,我们日常的自然对话基本上是这样的:边听边说,思考接下来要说什么;在适当的时候插入“是,嗯,嗯”;预测对方发言何时结束并立即接替;决定自然打断而不引起冒犯;当你听和说时,考虑接下来要说什么;在适当的时候插入“是的,嗯,嗯”;优雅地处理和中断。
以往的AI语言助手无法很好地处理这些问题,对话的三个阶段均存在较大延迟,导致体验不佳。
同时,在此过程中丢失了大量信息,例如无法直接观察语调、多个说话者或背景噪音,无法输出笑声、歌唱或表达情感。
当音频可以直接生成音频、图像、文本、视频时,整个体验将会突飞猛进。
GPT-4o 是 OpenAI 为此训练的全新模型。
文本、视频和音频之间的直接转换要求所有输入和输出都由同一神经网络处理。
更令人惊讶的是,ChatGPT的免费用户可以使用GPT-4o体验以下功能:体验GPT-4级别的智能、从模型和网络中获取响应分析数据以及创建图表。
讨论您拍摄的照片、上传文件,并获取总结、写作或分析方面的帮助。
使用 GPT 和 GPT 存储构建更有用的内存体验。
当你看下面的GPT-4o的demo时,你的感受可能会更加复杂。
ChatGPT 版本“Jarvis”,每个人都有 ChatGPT。
它不仅能说、能听,还能看。
这不是什么新鲜事,但 ChatGPT 的“发布新版本”仍然让我感到惊讶。
睡前指南以特定的生活场景为例,请ChatGPT讲述一个关于机器人和爱情的睡前故事。
它几乎不需要太多思考,就能用嘴讲述一个充满情感和戏剧性的睡前故事。
它甚至可以用唱歌的形式讲故事,可以作为用户的睡眠伴侣。
题主还可以在发布会上请它演示如何帮助求解线性方程3X=4。
它可以一步步指导您并给您正确的答案。
当然,以上还是有点“儿戏”,现场编码的难度才是真正的考验。
不过,三击、五击、二击就能轻松解决。
凭借ChatGPT的“愿景”,它可以查看计算机屏幕上的一切,例如与代码库交互以及查看代码生成的图表。
呃,有什么问题吗?那以后我们的隐私不就不会被人看清楚了吗?实时翻译现场的观众也向ChatGPT提出了一些棘手的问题。
从英语翻译成意大利语,从意大利语翻译成英语,无论你使用多少次,这个人工智能语音助手都可以轻松完成。
看来没必要花很多钱买翻译机了。
将来,也许ChatGPT可能比你的实时翻译器还相当可靠。
该内容暂时无法在飞书文档之外显示 ▲ 实时翻译(官网案例) 感知语言的情感只是第一步。
ChatGPT 还可以解读人类的面部情绪。

发布会上,ChatGPT直接将摄像头捕捉到的人脸误认为是桌子。
正当大家以为要翻车的时候,结果发现是因为最先开启的前置摄像头对准了桌子。
但最终,它准确地描述了自拍照中脸上的情绪,准确地识别出了脸上“灿烂”的笑容。
有趣的是,发布会最后,发言人并没有忘记Cue来自英伟达及其创始人老黄的“大力支持”。
他确实很了解人性。
对话语言界面的想法具有令人难以置信的预见性。
奥特曼在之前的采访中表示,他希望最终能够开发出一款类似于AI电影《Her》中的AI助手,而OpenAI今天发布的语音助手确实正在成为现实。
OpenAI 首席运营官 Brad Lightcap 最近预测,未来我们将像与人类交谈一样与 AI 聊天机器人交谈,就好像它们是团队的一部分一样。
现在看来,这不仅为今天的会议做了铺垫,也为我们未来十年的生活做了生动的注脚。
苹果在AI语音助手上苦苦挣扎了十三年,一直无法走出迷宫,但OpenAI却一夜之间找到了出口。
可以预见,在不久的将来,钢铁侠的“贾维斯”将不再是幻想。
《她》来了。
虽然萨姆·奥尔特曼没有出现在发布会上,但他在发布会后发表了一篇博客,并在X:她上贴了一句话。
这明显是在暗指同名经典科幻电影《她》。
这是我看到这次会议的演讲时第一个想到的画面。
电影中的萨曼莎《她》不仅仅是一个产品,她甚至比人类更了解人类,更像人类本身。
和她交流的时候你真的可以逐渐忘记她是一个AI。
这意味着人机交互方式或将在图形界面之后迎来真正革命性的更新。
正如 Sam Altman 在他的博客中所说:新的语音(和视频)模式是我用过的最好的计算机界面。
感觉就像是电影里的AI;我仍然有点惊讶它是真的。
事实证明,达到人类水平的响应时间和表达能力是一个巨大的变化。
之前的 ChatGPT 让我们第一次看到了自然用户界面:简单高于一切:复杂性是自然用户界面的敌人。
每个交互都应该是不言自明的,不需要说明手册。
但今天发布的 GPT-4o 却完全不同。
它几乎无延迟、智能、有趣且实用。
我们与计算机的交互从未真正经历过如此自然流畅的交互。
这里还隐藏着巨大的可能性。
当支持更多的个性化功能以及与不同终端设备的协作时,意味着我们可以使用手机、电脑、智能眼镜等计算终端来做很多以前不可能的事情。
AI硬件将不再尝试积累。
现在更令人兴奋的是,如果苹果下个月在 WWDC 上正式宣布与 OpenAI 合作,iPhone 的体验可能会比近年来任何一次会议得到更大的改善。
NVIDIA高级代码科学家Jim Fan认为,与OpenAI针对被称为史上最大更新的iOS 18的合作可能有三个层次:放弃Siri,OpenAI将为iOS完善一个纯粹在设备上运行的小型GPT-4o,与付费升级的选项。
云服务。
本机功能将相机或屏幕流馈送到模型中。
对神经音频和视频编解码器的芯片级支持。
集成iOS系统级操作API和智能家居API。
没有人使用 Siri Shortcuts,但现在是复兴的时候了。
这可能会成为一款拥有十亿用户的人工智能代理产品。
这就像智能手机上类似特斯拉的全尺寸数据飞轮。
说到这里,我不得不为谷歌感到遗憾,谷歌明天将召开新闻发布会。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-18
06-06
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态