更近了一步!美的精选小额IPO申请获证监会受理
06-18
昨晚OpenAI发布ChatGPT-4o后,给Google I/O带来了压力,仿佛Google无法摆脱“人工智能世界的汪峰”无论如何。
一个标题。
反观谷歌,一次提及AI,并通过近两个小时的发布会推出了十余款新品和升级。
可以说是“体量大、管理全”,火力全覆盖,但并没有太多惊喜。
我们先来概括一下本次会议的亮点。
更多功能分析请阅读下文。
发布会亮点:Google Search AI: AI Overviews发布,推出增强版AI搜索摘要功能,推出多步推理能力。
Gemini大型号:Gemini 1.5 Flash(万上下文); Gemini Pro(一万个上下文)。
Gemma大模型:发布开源多模态大模型Pali Gemma和Gemma2。
Google Workspace 中的 AI:利用 Gemini 的能力和 Side Panel 的形式,将 Google 的一系列产品串联起来。
Gemini 应用程序:Gemini 应用程序的移动版本已于最近几周发布,即将支持与 AI 的视频对话。
Project Astra:最新的多模态 AI 项目,包括图像、音乐和视频的生成式 AI,例如 Imagen3、Music AI Sandbox 和 Veo。
做搜索起家,用搜索王引爆Google 搜索是Google最大的投资和创新领域之一,也是他们的创始产品。
25 年前,谷歌推出了搜索,今晚谷歌将再次突破搜索的界限。
简而言之,借助 AIGC 的 Google 搜索,您可以做更多事情:无论您在想什么,无论您需要完成什么,只需询问(它),Google 搜索就会找到它。
Google搜索的所有演变都是基于为其定制的Gemini模型。
谷歌在发布会上介绍,“与众不同”的谷歌搜索具有三大独特优势:谷歌的实时信息包括超过一万亿个有关人物、地点和事物的事实、顶级产品、最好的网络、双子座的力量,一服务,将这三件事结合起来,解锁谷歌在搜索领域的新功能。
第一个新功能是AI Review。
用户可以在搜索结果的顶部获取大型AI模型生成的摘要,从而简化整个搜索过程,使复杂问题的检索过程变得简单。
谷歌表示,到今年年底,将有超过 10 亿人使用谷歌搜索中的 AI 审核功能,谷歌声称这将是其搜索引擎 25 年来最大规模的更新之一。
多步推理是Google搜索的另一个重要功能。
通过新的多步骤推理,我们未来制定一些生活、工作和旅行计划将变得非常简单。
例如,您可以使用搜索栏查找“附近最好的瑜伽馆”,然后关于附近瑜伽馆的所有重要信息,如评价分数、课程推荐、距离等都会被分类为块,并非常清晰地显示在其中搜索结果。
依托谷歌自身庞大的数据库,AI在搜索过程中可以调用最新、最全的优质信息,搜索结果的准确性和可信度更有保障。
目前,谷歌收录了全球超过2.5亿个地点并实时更新,包括评分、评论、营业时间和其他重要信息。
搜索中的规划是另一个可以减轻您负担的更新。
假设您正在重新调整膳食并计划,并且不想在早餐、午餐和晚餐时吃通心粉和奶酪。
只需将您的要求输入搜索框,Google 搜索就会为您提供根据您的要求合理排列的新每周食谱。
而且,您可以随时更改条件和详细信息,搜索结果将根据最新提示实时更新。
如果我们在其他公司的产品中见过甚至使用过以上功能,那么视频提问一定会给你一些惊喜。
生活中有很多物品,都有自己专属的名字。
当一些设备出现小问题时,也有相应的修复方法。
但很多时候只有专业人士才能说清楚,也只有他们才能“对症下药”。
现在,每个人都可以通过 Google 搜索的“视频提问”功能成为专家,这相当于手机上的百科全书。
当某个记录部分不起作用而你不知道从哪里开始时,或者当你的相机快门突然失灵时,你可能不得不返回制造商并将其寄回制造商进行售后服务。
但现在您可以使用 Google 设备的镜头拍摄问题的照片,Google 搜索可以根据您要查找的内容帮助您找到问题。
对遇到的问题进行初步诊断,并对一些小故障可以当场提供解决方案。
在发布会的实时演示中,AI也一一列出了整个修复步骤。
按照屏幕上的说明,演示者很快就解决了小麻烦。
该功能利用AI对视频进行逐帧分解,将每一帧的关键信息导入双子座的长联系窗口中进行一一分析,并通过互联网上的相关文章、论坛、视频等进行梳理,寻找见解,从而实现“视频提问”的智能建议。
与传统的文字输入相比,视频最大的优势就是我们和AI的交互过程变得更加直观。
使用诸如“这里”和“这个”之类的模糊词语也可以让大模型知道我们所指的是什么。
谷歌表示,这些最新的AI功能将在未来几周内在实验室功能中推出,这也意味着更强大的谷歌搜索距离落地已经不远了。
在后续版本中,它甚至可以根据页面上视频的自动字幕来查找答案。
不知道会不会抢走那些“一分钟看完XX电影”的博主的饭碗。
图片、歌曲、电影,瞄准OpenAI。
如果说这两天的GPT-4o是AI再次给世界带来了一点震撼,那么今晚谷歌正式宣布的Project Astra则是震撼的延续。
Project Astra 是通用人工智能助手 GoogleMind 的原型。
与GPT-4o类似,用户可以使用它与AI进行实时对话和视频聊天。
发布会上的演示可以很好地展示这一新功能。
在演示视频中,工作人员将手机镜头对准周围的物体,向Project Astra提出一些问题,它能够以几乎零延迟的方式准确回答。
例如,Project Astra 可以看出扬声器的上半部分是高音扬声器,并且可以从计算机屏幕上显示的代码轻松识别其具体功能。
谷歌表示:我们的新项目专注于打造一个未来的人工智能助手,能够真正为日常生活提供帮助。
基于更强大的AI性能,谷歌还在I/O上公布了另外三项实用功能。
它们分别位于“图像”、“音乐”和“视频”领域,体现了先进技术的“未来感”。
Imagen 3是Google发布的最新图像生成模型。
它可以更好地理解我们的提示词并利用它们来创建更真实的图像。
发布会上展示的《狼》的生成图片是Imagen 3准确提取了一个叙述中的8个详细信息,并全部体现在图片中。
不难发现,生成的图片不仅细节准确,而且非常真实。
Imagen 3还可以处理一些比较抽象的图片创作,比如根据“彩虹色”、“羽毛光”、“黑色背景”的提示生成的创意图片。
就像它确切地知道你想要什么一样。
发言人甚至在发布会上开玩笑炫耀“你可以用它来数别人脸上的胡子”。
谷歌在音乐生成方面也取得了新的突破。
音乐AI沙盒是最新推出的音乐生成模型。
谷歌此次还邀请了 Marc Rebillet 在 I/O 现场进行分享。
基于艺术家创作的一个简短的音乐演示,Music AI Sandbox 可以在此基础上进行扩展和扩展。
它还可以根据用户输入的提示,例如音乐风格和类型等进一步创建第二首音乐。
谷歌表示,它与 YouTube 合作构建了 Music AI Sandbox:一套专业的 AI 音乐工具,可以创建从头开始新的乐器部件、在曲目之间转换风格等等,以帮助我们设计和测试它们。
另一种实用模型称为 Veo,专注于生成视频。
用户只需输入相关文本、图像或视频提示,Veo 就会创建长达 60 秒的高质量 p 格式视频。
它以不同的视觉和电影风格捕捉说明中的细节。
例如,我们可以在提示中输入事物、风景或延时航拍照片,并使用其他提示来进一步编辑视频。
长期以来,视频生成AI“仅在理论上成立”。
事实上,也遇到了很多障碍。
其中,“可用性”的最大门槛是:视频生成时间只有几秒,一般只能重复跳跃一两个动作。
。
这也是为什么《Sora》一推出就引起了很多讨论。
从今晚开始,谷歌的Veo也成为了大家关注的焦点。
从照片写实主义到超现实主义和动画,它可以涵盖大多数影视风格。
处理。
除了Project Astra之外,Google还为我们提供了一个可定制的Gemini——Gems。
谷歌表示,它可以在保留特定特征的同时完成任务,成为数千人的私人助理。
用户可以调整其定位,成为瑜伽好友、虚拟人气角色、健身伙伴、创意写作教练甚至微博主。
积分导师等等都是问题。
双子座痴迷长文,双子座家族又添新成员了。
Gemini项目自曝光以来一直备受关注。
起初还存在一些争议,但后来依靠自己的实力恢复了声誉,现在也越来越成熟。
据 Pichai 介绍,目前有超过 10000 名开发者使用 Gemini 模式,用户数量已达到 20 亿。
现在皮查伊再次提及“双子座时代”,目标是将其融入到所有产品中,为用户带来全新体验。

,并为创作者、开发者和初创公司创造新的机会。
最新的Gemini 1.5 Pro目前支持10,000个文本标记,据说今年晚些时候这个数字将达到10,000个。
它可以同时处理2小时的视频、22小时的音频、60多行代码或10000多个单词。
此外,大会还公布了基于 Gemini 1.5 Pro 的 Gemini Advanced,据说能够处理“多个大型文档、合计多达页数、或汇总电子邮件”,并且还支持 35 种语言和多个国家/地区。
不得不说,就文本量而言,Gemini 确实非常大,“朝着将任何输入转换为任何输出的目标迈出了一大步”。
安全始终是重中之重 自人工智能诞生之初,关于如何识别人工智能生成的内容的争论就一直在持续。
谷歌的对策是通过SynthID为AI生成的图像和音频添加隐形水印,使其更容易区分。
未来,谷歌将把这一范围扩展到文本和视频,并在未来几个月内,通过更新生成式 AI 工具包的开源 SynthID 文本水印,帮助更多开发者更轻松地负责任地构建 AI。
Gemini 集成后,当通话过程中检测到可疑活动时,Android 会发出警告,例如被要求提供您的社会安全号码和银行信息。
这就像直接在手机上安装“反欺诈中心”一样。
辅助功能 TalkBack 也将通过 Gemini Nano 得到增强。
图像描述将更加清晰、丰富,通过语音反馈帮助视力不佳的用户更好地操作手机,体现谷歌一贯的人文关怀。
对于谷歌今晚的表现,NVIDIA研究经理Jim Fan的评价非常中肯。
谷歌新发布的模型看似是多模态输入,但不是多模态输出 Imagen3 和 Music AI Sandbox 仍然与 Gemini 分离,作为独立组件。
所有模式 I/O 的本机合并是不可避免的未来。
它可以执行诸如“使用更机器人的声音”“编辑此图像”“生成一致的漫画”等任务。
在不丢失模态边界信息(例如情绪和背景声音)的情况下,新模型开辟了新的上下文功能,用户可以通过一些示例来教授模型,并以新颖的方式组合不同的含义。
GPT-4o 并不完美,但它的外形尺寸是正确的,套用 Andre 的 LLM-as-OS 比喻:我们需要模型本身支持尽可能多的文件扩展名。
谷歌正在做正确的一件事:他们终于做出了认真的努力,将人工智能集成到搜索框中。
Gemini 不一定是最好的,但它可以是使用最广泛的。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态