冬天里的第一把火,哈尔滨能红多久
06-17
9月10日凌晨1点,被誉为“科技春晚”的苹果发布会拉开帷幕。其中,苹果推出了首款AI手机:iPhone 16。
这是第一款搭载大型AI模型的手机,可以根据用户输入执行但不限于AI图像消除、摘要文本、电子邮件回复等。这里的主要功能基本上都是围绕苹果智能展开的。
作为首款搭载AI大模型的手机,其部署的端侧大模型具有以下优势: 隐私保护:设备处理数据不涉及云端,保证用户隐私安全。端云协同:智能分配设备和云计算任务,优化资源,提升速度和效率。
语言图像分析:新的语言处理技术支持写作工具辅助写作和文本处理。与苹果生态系统融合:AI模型深度融入苹果操作系统,实现流畅便捷的体验。
其发布会上最令人惊叹的特点就是“视觉智能”。例如,当你看到一家餐馆时,你可以用相机拍照,然后通过AI搜索它的具体评论、菜单等。
1、国内外纷纷推出自己的大规模设备端模型。我们先来看看苹果推出的组合设备端大模。
网上有消息称其与OpenAI合作,部署了GPT-4o模型。结合OpenAI之前发布的GPT-4o mini来看,很有可能就是部署了这个模型。
GPT-4o mini的特性非常适合部署在手机上。一是因为它足够小,这会加快它的推理速度;二是效果并不比GPT-4o模型差。
该模型更便宜,响应速度更快:上下文长度比 GPT-3.5 更长。原来的GPT3.5仅支持16k输入,但新的GPT-4o mini支持K上下文,并且比GPT-3.5 Turbo便宜60%以上。
,每 10,000 个输入代币的价格仅为 15 美分,每 10,000 个输出代币的价格仅为 60 美分(大致相当于一本标准书的页数)。从对应的速度来看,GPT-4o mini 明显比其他 OpenAI 模型推理速度快很多。
应该是因为参数数量不多,所以速度明显提升。更强的模型效果:GPT-4o mini 在文本智能方面表现优于 GPT-3.5 Turbo,在 MMLU 上得分为 82%,而 GPT-3.5 Turbo 得分为 69.8%,在多模态推理方面也表现更好。
因此,苹果选择与OpenAI合作也是可以理解的。发布会上最让人惊叹的就是它展示的可视化智能搜索。
苹果举了一个例子:当你看到一家餐厅时,只需拍一张照片,你就可以使用Apple Intelligence查看当前餐厅的所有信息,包括菜单或评级等。但问题是,苹果宣布AI访问中国要等到明年,国内用户可能还无法使用。
届时可能连接的是国内百度的文心一言,将无法体验到最强模型GPT-4的效果。反观国内手机厂商,不少手机厂商也开始发布自家搭载大端机型的AI手机。
比如最近,荣耀也推出了自己的大端侧机型手机。作为国内首款Android AI智能手机,荣耀Magic 7与苹果不同。
例如,可以利用AI来帮助你进行“AI人脸反欺诈”检测,可以有效应对AI欺诈。当然,还有最常用的搜索图片等功能(称为“一字查图”)。
用模糊的语言在海量的相册中搜索你想要的图片。比如你可以说“盛开的荷花”、“去年春节穿红衣服的照片”等,你就能立即从大量图片中找到你需要的照片。
除了这两款之外,各大厂商也陆续发布了自己的大型终端侧机型。每个厂家的最大参数量只有7B左右。
然而,小米和苹果发布的大型终端侧型号仅参数量不足3B。这说明7B以下的大模型实际上非常擅长衡量推理速度及其效果。
在保持效果的同时,推理速度也不会太慢。设备端大型号型号参数苹果MM1/OpenELMM/3B华为盘古|三星Gemini(非自研)1.8B/3.25B 荣耀Magic 7BOPPOAndesGPT7BvivoBlueLM7B 小米MiLM1.3B/6.4B 手机设备端型号最有实用价值的应该是10B型号 放到手机里,用手机性能的溢出,这个未来应该不会遥远。
2.端侧AI模型现状端侧AI模型是指在用户的终端设备上运行大型AI模型,例如手机或电脑,而不是依赖于云服务器。该技术有几个关键特点和挑战:参数规模不能太大,效果必须保证。
推理速度要求用户达到难以察觉的效果。如何挖掘端侧大模型的具体应用场景 2.1 参数规模不能太大,且要保证效果。
目前,市场上已有多家厂商发布了自己的设备端模型。但设备端模型的一个突出点是参数数量不能太多,否则本地运行会比较困难。
在目前INT4/INT8的量化中,需要保证模型仍然能够具有一定的推理能力。从最近的一些文章来看,目前的端侧模型效果惊人,已经可以复制ChatGPT的效果。
例如Facewall Intelligence最近发布的客户端模型MiniCPM 3.0。它只是一个带有4B参数的语言模型。
与MiniCPM1.0/2.0相比,功能更加全面,综合能力大幅提升。其在大多数评估集上的表现可与许多7B-9B模型相媲美甚至超越。
它具有三大突出优势: 超强推理能力:在数学能力方面,MathBench 上的表现超越了 GPT-3.5-Turbo 和多个 7B-9B 模型。在极具挑战性的LiveCodeBench上,性能超越了Llama3.1-8B-Instruct。
优秀的中英文指令跟随能力:英文指令遵循IFEval和中文指令遵循FollowBench-zh优于GLM-4-9B-Chat和Qwen2-7B-Instruct。长文本能力:原生支持32k上下文长度,32k长度以内的大海捞针都是绿色的。
提出LLM x MapReduce,理论上可处理的上下文长度达到+∞。因此,可以说目前的大规模端到端模型在本质上得到了很大的改进。
虽然这样的模型已经可以实现比较好的内存占用——MiniCPM 3.0模型量化后仅占用2GB内存,但仍然存在适配挑战:当App用户数量超过10000人时,手机配置将极其多样化。受限于不同手机的内存读写、能耗等方面的限制,现阶段部署设备端模型极具挑战性。
2.2 推理速度要求达到用户难以察觉的效果。为了在手机上达到用户难以察觉的推理速度,大端侧AI模型需要具备以下关键特性: 低延迟:模型的响应时间必须非常短。
确保用户不会注意到延迟。 Face Wall Intelligence发布的MiniCPM 3.0模型在客户端量化部署可以达到18-20个token/s;商汤科技的SenseChat-Lite型号在中端平台上可以达到18.3字/秒,在旗舰平台上可以达到18.3字/秒。
每秒78.3字,响应时间低于0.4秒。这些模型证明了在保持高性能的同时显着减少模型参数数量和计算复杂性的可能性。
一般来说,每秒超过20个令牌应该有良好的用户体验。优化技术:采用量化、模型压缩、硬件加速等先进优化技术,减少模型参数量和计算复杂度。
这里最重要的优化技术是定量技术。上面的论文提出,生成式AI的Transformer大语言模型可以通过将其量化为8位(INT8)或4位(INT4)权重来极大地提高效率。
INT4权重量化也是可行的,并且在训练后量化(PTQ)中表现良好,其效率已经超过了浮点模型。使用量化感知训练 (QAT),许多生成式 AI 模型可以量化为 INT4。
在不损失精度和性能的情况下,INT4模型功耗更低,性能提升90%,能效提升60%。硬件加速方面,可以采用异构计算架构,包括Hexagon NPU、Qualcomm Adreno GPU、Qualcomm Kryo CPU或Qualcomm Oryon CPU。
以第三代骁龙8移动平台为例,Hexagon NPU在性能方面较上一代提升98%,同时功耗降低40%。通过上述优化技术,大端侧AI模型可以在保持高性能的同时,显着减少模型参数量和计算复杂度,从而实现在手机等移动设备上的高效运行。
这不仅有助于改善用户体验,还可以保证设备的电池寿命。 3、大模型的下半场:AI Agent能力自2016年ChatGPT出现以来,大模型给人们带来了太多的震撼和惊喜。
但从目前来看,大部分大模型效果都难以区分,实际使用体验并没有明显差异。显然,如果我们继续增加模型参数和能力,就会出现很大的瓶颈。
那么大型模型的AI Agent能力可能就是下一个战场。这是因为目前大模型可以使用的最佳平台是手机,而手机需要依赖大模型的AI Agent能力来帮助用户与环境交互。
这种能力可以结合函数调用、工具使用和规划能力,更准确地理解需求并解决复杂的任务。大AI模型需要重新定义“智能手机”。
“智能手机”不仅是“我可以用手机做什么”,而且是“我的手机能为我做什么”。目前,大型模型的能力正在逐步提升AI Agent的能力。
例如,阿里巴巴此前发布的Qwen2-VL模型利用多模态能力来理解用户输入的多维度信息。首先我们看一个简单的Demo,其中Qwen2-VL模型调用插件根据输入图像返回对应的问题。
本次挑战主要是测试Qwen2-VL模型对图像中文本的理解能力,以及理解后根据指令查询信息的能力。用户上传航班信息的图片。
当用户询问准确的时间和目的地天气时,需要一个大模型来搜索天气信息。从视频来看,Qwen2-VL在调用简单工具方面还是做得不错的。
接下来是一个更复杂的场景。左侧为AI操作界面,右侧为AI各状态步骤。
这时候需要一个大模型来查询圣地亚哥的一家餐厅。可以看到人工智能运行谷歌搜索,然后寻找当前用户附近的餐馆。
这样您就可以找到您最喜欢的餐厅。上面的例子都是大模型AI Agent能力的体现。
可以想象,在大机型的帮助下,使用手机将不再是一个需要“学习”的过程。用户只需要用自然语言表达自己的需求即可。
此外,大模型AI Agent还可以帮助我们管理日程、提醒重要事项,甚至在忙碌时处理购物、点餐等简单任务。总之,在大模型AI Agent的帮助下,手机将变得更加人性化,成为我们生活中不可或缺的伙伴。
我们可以通过简单的语言与手机进行交互,让它为我们提供全方位的服务,让我们的生活更加便捷、高效。 4.总结从目前端侧AI模型的现状来看,国内外很多厂商都在关注如何将大型模型配置到手机上,让手机变得更加智能。
从苹果发布会来看,这只是AI在手机上的初步体现。当然,如果仅仅依靠客户端模型来了解用户意图,本质上就会存在一定的偏差。
需要与云端大模型结合进行联合处理和编写,以实现更强大的通用代理能力。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-08
06-18
06-17
06-08
06-18
06-18
最新文章
【玩转GPU】ControlNet初学者生存指南
【实战】获取小程序中用户的城市信息(附源码)
包雪雪简单介绍Vue.js:开学
Go进阶:使用Gin框架简单实现服务端渲染
线程池介绍及实际案例分享
JMeter 注释 18 - JMeter 常用配置组件介绍
基于Sentry的大数据权限解决方案
【云+社区年度征文集】GPE监控介绍及使用