SK集团旗下3家公司将筹集1万亿韩元投资半导体、Yuanverse等,
06-08
1。
背景知识 1.1 为什么大模型很重要 作为大语言模型(LLM)的一种,OpenAI 的 GPT(Generative Pre-Trained Transformer)模型展示了当今最接近人类的模型 对于机器智能来说,GPT 最重要的特点是它能够计算机模型通过使用来自整个互联网的数万亿个参数和文本数据来产生智能涌现(Emergence)。
物理学中的涌现一般是指混沌现象中某些稳定模式的反复出现。
涌现是理解复杂自然现象中最具挑战性的类别。
从最近OpenAI的掌门人、萨姆·奥尔特曼和首席科学家Ilya的采访中,我们可以了解如何驯服伴随智能而出现的大语言模型,以及如何使其稳定、安全地为人们服务(Alignment,对齐)。
OpenAI 并没有完全掌握有效的调试方法。
,GPT在某种程度上仍然是一个黑匣子。
我们需要问为什么语言模型会改变世界。
ChatGPT确实更听话、更会说话,但一款智能文本交互工具有什么了不起的呢?原因有二:1.人工智能具有多种模式(Modal)。
不同模式之间的研究相互渗透、相互竞争。
性能最好的模式将最先定义未来AI应用的轨迹。
ChatGPT 表明文本模态智能将主导人工智能的近期发展。
2、文本作为人类社会的入口非常重要。
第1点,多模态。
使用图像作为一种模式的人工智能已经发展了很多年。
计算机视觉在图像识别、自动驾驶等方面屡创佳绩,是人工智能的另一个入口。
近十年来CVPR/ICCV/ECCV三个会议论文呈爆炸式增长。
即使去掉水货,也是图像智能爆发的缩影。
OpenAI的出现扭转了图形智能在AI应用中的显赫地位,甚至是它的发展轨迹——当Meta发布Segment-Anything(一种分割图片中不同物体的图形算法)时,该模型展现出了类似于文本中GPT的威力情态。
凭借零成本迁移能力,也有人惊呼传统CV已死(夸张)。
ChatGPT 对文本模态的影响无需详细阐述。
它超越了简单的科学研究价值,重新定义了文本形态的智能和商业潜力。
OpenAI 的产品 DALL·E 还提供超越文本模态的图像智能。
开源的Stable Diffusion和闭源的Midjourney作为Vincentian图形领域的霸主,也为创意行业带来了无数的“死亡”警告。
总而言之,人工智能在文本和图像两种形态中相互渗透,在相互竞争中突破智能的边界。
OpenAI的文本+图像模式:ChatGPT + DALL·E 稳定扩散 Web UI(图像模式):稳定扩散 中途(图形模式):中途 Point 2、文本模式是人类社会的入口。
可以参考Yuval Harari(《人类简史》的作者)在接受《经济学人》专访时的观点:他认为语言是人类社会的操作系统,而人工智能已经侵入了这个系统。
AI会通过改变语言来改变语言。
操作系统本身彻底改变了人类历史。
大型模型对人类行为和社会反馈的调度将会因语言系统的侵入而产生巨大的影响。
更多信息请参考:yuval-noah-harari-argues-that-ai-has-hacked-the-operating-system-of- human-civilization1.2 LLM的成本 训练一个真正的大型模型需要多少钱?钱?首先,无论图像和视频,大模型至少需要整个互联网的文本数据;需要数以万计的A才能开始;所需电力的计算能耗将成为不可忽视的成本;试错成本不可控:可以用几个月的时间来衡量培训时间和人工成本;模型训练和精确微调的方法未知或不公开,大型模型仍然是一个黑匣子。
这些原因加在一起,就导致了这个星球上能够拥有大型模型的公司屈指可数,因为它需要极其雄厚的财力和极高的风险承受能力。
不仅初级玩家无法参与,缺乏冒险精神的大公司也不值得拥有。
Elon Musk 在最近的一次采访中估计,训练一个 GPT-5 级别的模型可能需要 0-0 H 芯片,使用最新的技术架构,以及顶尖的 AI 研究人员(参考 OpenAI,关于很多人)。
最后,马斯克给出了大型车型的起步成本。
对比最近大型模型初创公司的估值,这个数字很有参考价值:2.5亿美元 1.3机会 在腾讯年度股东大会上,腾讯CEO马化腾在回答有关ChatGPT和AI的问题时表示,“我们最初认为(人工智能)曾经互联网是一个十年未见的机会,但越想越觉得这是一个数百年未见的机会,类似于发明电的工业革命。
马化腾表示,互联网公司在AI领域积累了很多,腾讯也埋头研发,但并不急于提前完成并炫耀半成品。
“对于工业革命来说,提前一个月拿出灯泡从长远来看并不是那么重要。
关键是要把底层算法、算力和数据做好,更重要的是落实到工业革命。
”我觉得现在很多公司都太着急了,感觉他们在试图提高股价,但我们并不总是这样。
”总的来说,我们不能急于推高股价。
大模式不是新的应用,它是革命本身,我也有一些看法。
迟一个月早拿出来是你最终成为爱迪生还是某个不知名的第二个发明灯泡的人。
然而,尽管大型模型有着惊人的能力,驯化和改进的挑战仍然艰巨。
我们刚造飞机的时候,是一个充满挑战的时期,如果我们想要安全稳定地飞行,我们还需要很多来之不易的失败教训来了解红线在哪里,OpenAI推出了Plugin插件,这是一个潜在的插件。
然而,目前Plugin的商业表现并不明朗,而GPT如何将其变成具有商业价值的产品,也始终是个未知数。
工厂一直是引领潮流的后发优势,拥有微创新的王牌。
充分发挥自己的优势,也不见得没有道理。
2、GPT引起人机交互层(HCI/UI)、用户界面(User Interface,简称UI)的变化。
如今,每个人都生活在 UI 的海洋中。
很多互联网人认为UI≈网页+App设计。
这种理解极大地限制了UI的内涵。
UI更专业的定义应该叫HCI,Human-Computer Interface,人机交互界面。
在过去近一个世纪的发展中,人们根据当时机器的计算能力和智能水平,设计了几代各具特色的UI。
我们正处于从 GUI 到 NLI 的过渡阶段。
PCI: Punched Card Interface, 穿孔卡接口 CLI: Comand Line Interface, 命令行界面 GUI: Graphic User Interface, 图形界面 NLI: Natural Language Interface, 自然语言接口 BCI: Brain Computer Interface, 脑机接口 2.1 PCI, Punched Card界面 上图为打孔卡界面:一叠打孔卡,上面存储有程序。
下图:一名美国员工正在制作存储部分美国人口普查数据的打孔卡。
2.2 CLI,命令行界面 命令行界面编程语言进一步封装和显示设备的出现,命令行工具已成为计算机最重要的交互界面。
CLI 操作高效且功能强大。
2.3 GUI,图形用户界面 图形用户界面 史蒂夫·乔布斯从施乐“偷来”的 GUI 引发了个人电脑的革命。
这个界面影响力极大,世界上第一个杀手级应用程序在 GUI 上诞生,即 Macintosh 电子表格 VisiCalc,它也是 Excel 的前身。
时至今日,Mac漂亮流畅的UI界面仍然是最吸引用户的产品功能之一。
2.4 NLI,自然语言接口 自然语言接口 1. 文本到文本 文本到图像 文本到视频跑道:利用人工智能推进创造力。
说一句话:“一个美丽的客厅概念渲染。
” “生成一个美丽的客厅概念渲染。
”4。
Text to Action Adept:Adept的目标是通过软件自动化打造全方位的智能助手。
自然语言将是Adept用户未来需要使用的唯一交互内容。
2.5 BCI,脑机接口Thought to Action,从人类思维到机器行为。
去年广为宣传的NeuroLink可以让猴子用意念玩乒乓球游戏,人们也可以用脑机接口来控制简单的游戏和机械假肢。
现阶段,更有意义的脑机产品主要是帮助残疾人控制假肢,恢复生活能力。

今天的脑机技术让我们讨论革命性的人机交互界面还为时过早。
2.6 总结——UI的内涵需要扩展。
机器和人类之间的通信需要一层交互媒体。
这一层媒体控制着人机交互中输入和输出的边界。
交互介质将过滤和转换人类输入,使这些奇怪的人类输入对机器来说是安全且可识别的;同时,机器返回的结果将通过交互介质进行过滤和转换,使其对人类安全、可用和有价值。
连接人类和机器的这一层交互媒体就是 UI 的定义。
在过去二十年的互联网革命中,GUI以按钮、拖动、滑轮、手指缩放、多指操作、摇动、翻转等有限操作的形式,标准化了人们想要用机器做的所有输入方式、硬件按钮等。
这种标准化输入可以被机器理解并作为标准化输出返回。
PC和移动互联网革命将UI和GUI等同起来,但实际上UI远比GUI现有的交互方式丰富。
GPT的出现直接打破了这种平衡。
机器变得更加智能对产品最重要的影响是计算机对自然语言的容错能力大大提高。
它不再需要一个只能接收非常有限的输入来理解人们的过滤器。
每天所说的自然语言甚至夹杂着各种逻辑、暗示、讽刺、错误。
AI对自然语言容错能力的提高,必将摧毁当前使用GUI作为UI的交互层: 1.用户体验(UX)的重大转变。
用户已经从过去以手指、鼠标“点击、滑动、拖动”为主的交互方式,转变为以自然语言为界面的交互。
2.当前的GUI会消失吗?不,有两个原因。
首先,在模型不够精确或者AI产品化不成熟的情况下,GUI优雅的外观和体验仍然对用户有吸引力,而且手指和鼠标交互的成本远低于自然语言。
第二,参考UI开发的不同阶段,黑色命令行已经过时了吗?不,GUI 不会立即消失。
如果使用上一个时代的交互界面效率更高,那么即使使用门槛再高,这种交互仍然存在。
3、命令行工具(CLI)仍然是在计算机上进行深入操作的最高效的方式。
在智能的未来,如果你需要深入操作一个应用程序,有人可能会说:打开你的GUI,就像今天的程序员说:打开你的终端一样。
4、人机交互界面将朝着浅化计算机操作深度、降低使用门槛的方向发展。
大模型即将引发的变化也是如此。
你可以看到这样的趋势:命令行CLI 图形界面GUI 自然语言NLI 脑机接口BCI。
这种趋势使得计算机深度操作的能力越来越低,也使得用户的门槛越来越低。
5、最好的计算机工程师对机器的深入理解和深入的操作能力是无法被取代的,但只有最好的工程师才能生存。
从下图我们可以更清楚的看到为什么GPT会造成产品UI的巨大变化?因为过去的机器语言非常苛刻,容错性极低。
编程语言中的一个标点错误就可能导致整个程序无法运行。
大模型带来的最重要的魔力是显着提高机器对人类自然语言(Natural Language,NL)的容错能力。
综上所述,未来的自然语言交互界面将以文本输入框为起点,以多模态、高动态交互为目标。
使用门槛:越接近人类,使用门槛越低。
命令行 CLI 图形界面 GUI 自然语言 NLI 脑机接口 BCI 操作效率:距离机器越远,控制效率越低。
命令行 CLI 图形界面 GUI 自然语言 NLI 脑机接口 BCI-NLI 的演变 · 开始:文本输入框 · 发展:多模态输入框、语音、图像、视频 · 目标:输入多模态文本、声音、图像, 视频 = 返回有用的文本、语音、图像、视频 + 有用的软件行为。
Vision pro可以提供哪些模式:三维交互、手势、重力、旋转、语音文本、静态图像、实时视频。
·未来:与人类对话只是通过大型模型了解世界的起点。
以LLM为大脑、摄像头为眼睛、机械臂为肢体,是人工智能与物理世界交互的新界面。
-Timberter - 一款基于视觉算法的“木材计数”应用程序,已存在多年。
如果我们给它加上一个大型模型的推理能力和一个可以执行操作的机械臂,会发生什么? -语音控制的机器人? OpenAI GPT-4 Whisper 语音接口 3. AI 生态系统 3.1 Forbes AI 50Forbes 将评选出近年来最具潜力的 50 家年度人工智能公司。
与往年不同的是,今年的人工智能公司榜单不仅来自北美,还来自全球50家最具前景和价值的公司,包括美国、加拿大、以色列、英国和日本。
下面是我整理的完整列表,包括OpenAI、Jasper、Hugging Face、Adept……这些都是大家在AI初创公司中所熟悉的。
有兴趣的同学可以去福布斯网站自行阅读,我就不展开讨论了。
Forbe AI .2 更多 AI Startups 使用场景主要集中在 C 端:生成文本、音频、图像、视频 + 搜索 Search + Automated Copilt。
B端应用多以集成为主,可以是特定的行业类别:法律、医药健康、学术研究(生物、物理、数学)、智能分析等。
此外还有AI基础设施:矢量数据库、大模型AI Model、AI安全、开发运营DevOps、自动化Copilt。
下图包含了更多人工智能生成的公司列表(来自2019年3月美国VC的角度)。
有兴趣的同学可以自己体验一下。
4. 大模型和产品的集成 4.1 集成成本 这里的集成成本不仅仅是讨论将AI集成到产品中的开发成本。
这种集成成本在于:通过使用AI智能应用,用户需要完成与过去相同质量的工作。
学习和时间成本。
只有当集成成本显着低于原始成本(开发和运营成本+用户成本)时,AI应用才有价值。
集成成本=AI产品开发成本+用户使用AI应用完成过去同等质量工作的成本。
举两个例子来说明整合成本的重要性。
前面:AIGC 生成填充材料/用于游戏设计的材料。
游戏设计开发存在劳动密集型工作,包括准备填充材料、NPC角色对话、风格切换、边缘场景……这类工作对原创性要求不高,但时间成本无法大幅降低。
如果用AI工具生成这种不重要的素材,最后由经验丰富的设计师进行调整,达到和过去一样的质量效果是完全可行的。
AI生成的非关键素材的整合成本和传统素材AIGC的准备成本在游戏素材场景中值得提升。
另一方面:使用一站式人工智能生成高级广告的解决方案。
虽然AI广告解决方案看似降低了过去广告创作过程中生成文字、图像、视频的成本,但一个真正有吸引力且先进的广告往往需要极其大量的定制化创作和二次修改。
因此,当真实用户(使用AI创作的广告服务商,或者想要淘汰广告商的广告需求者)对AI生成的广告内容进行二次调整时,需要花费很大的精力才能达到与过去广告相同的质量水平。
调整成本比传统方法高得多,大多数情况下甚至不可能达到相同的质量。
高端广告的AI整合成本 传统广告的原始成本。
AI一站式服务解决了高级定制广告创作,这在今天并不现实。
当然,随着模型性能的提高,甚至市场手段和市场偏好也会发生变化(精准营销、定制化偏好)。
当前的负面案例将变成正面案例,正面案例也可能变成负面案例。
4.2 集成方式 大模型会促进两类产品的出现。
围绕AI能力构建的全新产品可以称为AI Naive/AI Native。
另一种是在传统软件中加入AI功能,进行智能化改造,可以称为AI升级/AI Upgrade。
这两种方式会形成不同的产品UI。
集成AI产品最重要的因素:1.AI模型的性能2.开发和运营AI产品的成本+用户使用AI应用的成本(集成成本)。
5. AI 工具信息 AI 应用的构成:基础设施 Infra + 中间件 Middleware + 应用(这些定义可以相互重叠) 5.1 AI 应用 |应用-搜索引擎:New Bing、Google Bard-Chat Q&A:ChatGPT、Jasper、各类智能聊天应用 - Vincent 图片:Midjourney、Stable Diffusion - Vincent 视频:Runway - 自动化:Adept... 更多工具参考(国内):人工智能工具箱| AI工具合集| AI网站导航5.2中间件|中间件大模型是基础模型,知识最丰富,泛化能力较强,但在精确场景下精度不足。
这也是如何应用大型模型的主要挑战。
中间件的意义在于整理专业场景的知识,扩展模型的知识库,提高AI的准确率,最终提供方便易用的接口来连接上层应用。
由于自然语言接口的成本很低,所以很多中间件直接提供应用程序接口和聊天窗口,比如第一个AgentGPT。
-AgentGPT 基础设施 | Infra-Model 模型 大型模型:OpenAI GPT、Google Bard、Anthropic、文言易信、百川智能... 开源模型:LLama:Diffusion(图像模式):数据库参考 OpenAI 推荐向量数据库:有开源产品 Milvus:How编译 DevOps 在本地和低端设备上运行大型模型是分发 AI 功能的障碍。
MLC-LLM(机器学习编译-LLM)是ML的编译工具。
它使得大型模型能够在本地运行。
Conda安装mlc-chat-c??li-nightly工具,从Hugging Face下载模型,并在本地Mac上运行大模型进行问答: 在本地移动设备上运行大模型: 6. 结论 大模型:闭源大模型GPT等模型,挑战在于模型场景化、数据安全性、准确性、调试效率、提示工程、工程接口的对接。
自部署开源模型并不是严格意义上的大型模型。
挑战在于速度、性能和基准性能。
中间件:连接模型层和应用层,提供特定领域的知识插件;拓展应用场景,快速提供应用接口;降低开发和运维成本。
应用层:使用场景下模型性能的容忍度,收益=使用价值、集成成本;危险响应:AI幻觉、AI安全。
用户界面是连接人与计算机的强力粘合剂。
产品设计在此界面上进行。
GPT引发的革命将对产品UI产生巨大影响。
本文内容是我这几个月来对AI相关资料的研究和整理。
这种进化路线需要考虑到模型性能的不完善,从文本交互开始,扩展到丰富多样的多模态,用新的交互体验来满足古老的和全新的需求。
人工智能革命的核心业务问题永远是,那个接口是什么?让我用列侬的话来结束吧:一切最终都会好起来的。
如果还不好,说明还没有结束。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-18
06-06
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态