首页 > 科技动态 > 内容

清华大学牵头，99页报告揭示人机交互发展现状及未来发展趋势 -人工智能人机交互报告

发布于：2024-06-17 编辑：匿名来源：网络

第一次使用手机语音助手，它总是兴奋地问我一个问题，然后失望地回答：“我好像听不懂你在说什么。

”后来技术发展了，它终于能够通过我的一些关键词来理解我说的话了。

但每一个字都是精确的，每一个字都充满风格化。

不可否认，人工智能正变得越来越“聪明”，越来越接近人类。

未来会是什么样子？近日，清华大学发布了由清华大学人工智能研究院、北京致远人工智能研究院、清华-中国工程知识智能联合研究中心联合发布的《人工智能之人机交互》报告（以下简称《报告》），《报告》对其概念进行了梳理。

人机交互的定义和发展历史，重点介绍主要技术的发展、领域现状和应用领域，探讨人机交互的未来发展趋势。

如需获取本报告全文pdf，请在雷锋网（公众号：雷锋网）回复关键字“报告”进行提取。

文档来源：清华大学人工智能研究院 1. 人机交互的发展历史 1. 概念人机交互（HCI）作为一个术语，最早由 Stuart K. Card、Allen Newell 和 Thomas P 在书中使用莫兰写的《人机交互心理学》，是研究系统与用户之间的交互关系的。

系统可以是各种机器或计算机化系统和软件。

人机交互界面通常是指用户可见的部分，用户通过它与系统进行通信并进行操作。

人机交互技术是计算机用户界面设计的重要内容之一。

它与认知科学、人体工程学、心理学等学科密切相关。

人机交互技术的发展直接关系到国民经济的发展。

是信息技术融入社会、深入群体、达到广泛应用的技术门槛。

任何一项新的交互技术的诞生都会带来新的应用群体、新的应用领域以及巨大的社会效益和经济效益。

从企业的角度来看，改善人机交互可以提高员工的工作效率，学习人机交互可以减少产品的后续支持成本。

从个人角度来看，可以帮助用户有效降低出错的概率，避免因错误而造成的损失。

在现代和未来社会，只要人们利用通信、计算机等信息处理技术来进行社会活动，人机交互将是一个永恒的主题。

鉴于其对科学技术发展的重要性，人机交互是现代信息技术和人工智能的重要组成部分。

技术研究的热门方向。

2、发展历程在过去的几十年里，人机界面经历了两个主要的发展阶段，从命令行界面到图形用户界面；近年来，人机界面的发展越来越强调交互的自然性，即用户的交互行为与其生理和认知习惯相一致，出现的交互界面的主要形式是触摸交互界面和三维交互界面。

命令行界面基于命令行界面(CLI)。

用户使用键盘按照一定的规则输入字符，形成机器可以识别的命令和参数，触发计算机执行。

其优点在于，由于键盘输入的准确度比较高，几乎不需要多余的操作，熟练的用户可以实现非常高的交互效率。

同时，通过规则的设计，命令行界面还可以支持丰富灵活的指令形式。

命令行界面的缺点是交互非常不直观。

由于机器命令往往与自然语言的构造规则有很大不同，用户需要记住大量的指令，有时甚至需要具备计算机领域的专业知识和技能才能取得更高的结果。

使用效率。

这大大增加了新手用户的学习成本，也显着影响了普通用户使用命令行界面的体验。

图形用户界面图形用户界面一般包括四个主要交互元素：窗口、图标、菜单和指针。

用户控制指针对窗口、图标、菜单等显示元素进行指向操作，完成交互任务。

广义上，图形用户界面一般指任何使用图形来表示程序命令和数据的界面系统，但狭义上，图形用户界面一般指个人计算机（PC）上的二维WIMP界面。

此时用户与界面交互所使用的设备一般是键盘和鼠标。

图形用户界面的一大优势在于，它们摆脱了抽象命令，利用人们与物理世界交互的经验来与计算机交互，从而显着降低用户的学习和认知成本。

然而，由于图形用户界面的基本操作是指向，即用户需要使用指针来选择交互目标，因此往往对用户指向操作的准确性有很高的要求。

另外，由于鼠标设备所在的控制域（Motor Space）和界面显示的显示域（Visual Space）是分离的，用户需要与目标进行间接交互（Indirect Manipulation），这进一步增加了交互的难度。

触摸交互界面触摸交互界面一般包括四个主要交互元素：页面（Page）、控件（Widget）、图标（Icon）和手势（Gesture）。

用户通过触摸、长按、拖动等方式直接控制手指触摸的目标，或者通过画手势触发交互指令。

目前，触摸界面主要出现在智能手机等设备和智能手表等可穿戴设备上。

触摸交互界面的优点是充分利用人们在物理世界中触摸物体的经验，将间接交互操作转化为直接交互操作（Direct Manipulation），从而保留部分触觉反馈的同时进一步减少用户的学习体验。

和认知成本。

然而触摸操作却遭遇了著名的“胖手指问题”，即由于手指本身的柔软度以及手指点击时屏幕显示内容的遮挡，往往难以准确控制落地的位置单击触摸屏时的点。

信号的粒度远低于交互元素的响应的粒度。

同时，由于触摸交互界面的形式仍然是二维界面，这限制了一些三维交互元素的交互操作。

三维交互界面的用户通常会通过身体（如手或身体关节）做出一些动作（如空中的指向行为、肢体的运动轨迹）来与三维空间中的界面元素进行交互。

计算机捕捉用户的动作并进行意图推理，触发相应的交互功能。

目前三维交互界面主要存在于体感交互、虚拟现实、增强现实等交互场景中。

三维交互界面的优点在于进一步突破了二维交互界面的限制，将交互延伸到了三维空间。

因此，用户可以像在物理世界中一样与虚拟三维物体进行交互，从而进一步提高交互的自然度并降低学习成本。

然而，三维交互的挑战在于，由于完全缺乏触觉反馈，用户动作中的噪声比较大，并且很难区分交互动作和身体的自然运动。

因此，输入信号的信噪比较低，难以进行交互意图的准确推理，限制了交互输入的准确性。

另外，与图形用户界面和触摸交互界面相比，运动交互的幅度一般较大，因此交互效率也较低，并且更容易让用户感到疲劳。

2、技术发展方向目前，人机交互技术的主要发展方向包括以下几类：触摸交互、声控交互、动作交互、眼动交互、虚拟现实输入、多模态交互和智能交互， 1.从单纯向用户输出视觉信息到成为交互界面设备的转变主要是由于触摸功能和显示的集成，特别是在移动设备上使用时。

目前可以实现触摸交互的技术方法有四种。

电阻式触摸技术电阻式触摸屏利用压力传感原理来操作和控制屏幕。

当手指触摸屏幕时，薄膜下层的ITO就会与玻璃上层的ITO产生接触点。

在X轴方向上，其中一层导电层传导5V均匀电压场。

此时，采样电压从零变为正值。

电压值，传感器检测到电压导通，发出相应的电信号，进行模/数转换，最后将转换后的电压值与5V进行比较，计算出触摸点的X轴坐标值。

同理，可以计算出Y轴的坐标值，从而完成点击动作并呈现在屏幕上。

电容式触摸技术当手指触摸电容式触摸屏时，高频信号会连接到工作表面。

此时，手指与触摸屏工作面形成耦合电容，相当于导体。

由于工作表面上存在高频信号，当手指触摸时，触摸点处会引出小电流。

这个小电流从触摸屏四个角的电极流出。

流过四个电极的电流与手指到四个角的直线距离成正比。

控制器调节四个电流的比例。

计算，即可得到接触点的坐标值。

清华大学牵头，99页报告揭示人机交互发展现状及未来发展趋势 -人工智能人机交互报告

红外触摸技术当手指触摸屏幕时，红外光会被阻挡，依次选择红外发射管及其对应的红外接收管，在屏幕上方形成红外矩阵平面，引起红外接收电压结束改变。

接收端的电压通过A/D转换发送至控制端，控制端据此计算出触摸位置。

表面声波触摸技术表面声波触摸屏主要依靠安装在钢化玻璃四角的超声波换能器来实现触摸控制。

当手指触摸显示屏时，手指会阻挡部分声波能量的传播。

此时，接收到的波形会发生变化。

从波形图上可以看出，波形在某一时刻发生衰减。

通过这个衰减信号控制器，可以计算出触摸信号。

点位置。

2.声控交互式语音识别语音识别是一种将音频数据转换为文本或其他计算机可以处理的信息的技术。

主要由4部分组成：特征提取、声学模型、语言模型和解码器搜索。

语音合成语音合成是将一系列输入的文本信号序列经过适当的韵律处理后送至合成器，产生表现力尽可能丰富、自然度高的语音输出，以便计算机或相关系统产生语音。

听起来像“人类”一样自然流畅的技术。

语音合成的发展经历了机械语音合成、电子语音合成和计算机语音合成的发展阶段。

语音合成具体分为规则驱动和数据驱动两个方面。

3、动作交互目标获取是人机交互过程中最基本的交互任务。

用户向计算机指示他想要交互的目标，其他交互命令在此基础上完成。

随着交互界面的发展，传统的交互设备（如鼠标、键盘）已经无法继续在许多自然交互界面上完成目标获取任务，如远距离大屏幕、虚拟现实和增强现实设备等。

因此，在这些界面上，研究人员探索了利用运动交互完成目标获取任务的可能方法。

主要输入方式分为直接输入法和间接输入法两种。

直接操作选择需要用户通过触摸来选择目标位置。

例如，在增强现实应用中，用户通过触摸手部来完成对虚拟对象的选择。

间接目标选择方法需要用户通过身体部位的位置和姿势来控制和移动光标，然后用光标指示选择目标的位置。

其中，广泛使用的光标控制方法是射线投射。

手势识别手势可以定义为人的手或手和手臂的组合产生的各种姿势和动作。

它分为静态手势（指姿势，单个手形）和动态手势（指动作，由一系列姿势组成）。

前者对应于模型空间中的A点，后者对应于一条轨迹。

相应地，手势识别可以分为静态手势识别和动态手势识别。

姿势识别常用的算法有3种：（1）基于模板匹配的人体姿势识别方法； (2)基于状态空间的人体姿态识别方法； (3)基于语义描述的人体姿态识别方法。

4、眼动交互利用人工智能技术，提高眼动计算的准确性和效率，深入了解人类感知和认知状态，构建“人在环”智能人机交互框架，并实现用户主导的自动化系统、基于人机共生的AI系统。

常用的眼动交互方式有以下几种：停留时间触发。

停留时间触发是指当注视点的停留时间达到一定程度时，可以用视线代替鼠标点击或键盘按键等传统输入设备。

触发相应的执行操作。

停留时间触发主要用于控制图形界面或定位鼠标光标。

是一种流行的眼动交互方式。

它还可以体现用户有意识的控制意图，以更好地完成交互。

平滑跟随运动平滑跟随运动常常发生在观察场景中有缓慢移动的物体或目标时，视线会产生平滑跟随运动状态。

平滑跟随运动是一种持续反馈的状态。

眼睛捕捉运动目标的信号，将目标运动的速度、方向、角度等信息反馈给大脑，然后控制眼球跟随目标物体相对运动。

这个过程中还会出现一些无意识的眼跳等行为。

在没有移动目标的场景中，一般不会发生这种眼动行为。

因此，平滑跟踪触发一般不是常用的眼动交互方式。

眨眼当使用眨眼行为进行交互时，需要识别有意识的眨眼，例如当眨眼频率超过一定水平，或者眨眼期间闭眼时间超过一定阈值时。

眨眼触发比较简单，但是当人眼长时间闭合时，眼动仪无法捕获瞳孔，可能会导致注视点丢失，从而在一定程度上影响眼控系统的精度。

程度。

眼部姿势眼部姿势是在扫视的基础上提出的，但与扫视的不同之处在于，扫视往往是人们观察场景或物体时无意识的视线转移。

眼跳的起点和终点未知，依赖于人类的视觉注意力。

眼球姿势被定义为一系列有序的眼球运动，每个眼球运动都是两个固定凝视点或凝视区域之间的有意眼球运动。

因此，眼部动作作为一种新的眼动交互方式，能够体现人们有意识的触发意图。

不同的路径可以定义不同的眼部姿势，不同的眼部姿势可以映射到不同的交互指令。

眼动可分为单划眼势和多划眼势。

5、虚拟现实输入文本输入作为应用中重要的交互技术，为应用提供了重要的交互体验。

已经开发出多种适合虚拟现实的文本输入技术。

现有的VR文本输入技术主要有物理键盘技术、虚拟键盘技术、新型输入技术（手写输入技术、圆形键盘输入技术、三维输入技术）。

6.多模态交互不同形式的输入（例如，语音、手势、触摸、凝视等）的组合称为多模态交互模式，其目标是为用户提供与计算机交互的多种选项，以支持自然用户选择。

与传统的单一界面相比，多模态界面可以定义为多种输入模态的组合。

这些组合可分为 6 种基本类型：互补型：当两个或多个输入模态联合发出命令时，它们会相互补充。

重复：当两个或多个输入模式同时向应用程序发送信息时，它们的输入模式是冗余的。

通过让每种模态发出相同的命令，多个消息可以帮助解决识别错误的问题并强化系统需要执行的操作。

等效性：当用户可以选择使用多种输入方式时，两种或多种输入方式是等效的。

例如，用户可以通过发出语音命令或从虚拟调色板中选择对象来创建虚拟对象。

这两种方式呈现出等效的相互作用，最终结果是相同的。

专业型：当某种模态总是用于特定任务时，它就成为专业模态，因为它更适合该任务，或者对于该任务是不可或缺的。

并发类型：当两个或多个输入模态同时发出不同的命令时，它们是并发的。

例如，用户使用手势导航虚拟环境，同时使用语音命令询问有关环境中对象的问题。

并发性允许用户发出命令并执行它们，这表现为现实世界中一边做饭一边打电话的任务。

转换类型：当两种输入模态相互获取信息时，它们会转换信息并使用该信息来完成给定的任务。

多模式交互转换的最佳示例之一是一键通话界面，其中语音模式从手势操作中获取信息，告诉它应该激活呼叫。

7、信息无障碍中的智能交互技术信息无障碍（informationaccessibility）是一个跨学科的技术和应用领域，旨在利用信息技术弥补残疾人身体和认知能力的不足，使他们能够顺利地与他人进行交流。

、物理世界和信息设备进行交互。

从研究和应用层面来看，信息无障碍还处于比较初级的状态。

在应用方面，具有基本功能的技术可用于信息访问和设备使用，但有效性、效率等可用性指标不高；现实生活中，听力障碍者与他人交流、盲人独立出行等。

支持的新技术仍处于原型和概念阶段。

3. 未来趋势分析 1. 技术趋势技术趋势分析描述了技术的产生、变化和消亡的整个过程，可以帮助研究人员了解该领域的研究历史和现状，快速识别研究中的前沿热点问题。

通过技术趋势分析，我们可以发现，当前该领域的TOP10热门研究主题是：虚拟现实、增强现实、社交媒体、社交互动、交互设计、移动设备、社交网络、普适计算、手机、交互技术。

2、National Trends 国家趋势分析显示，当前人机交互领域研究兴趣排名前 10 的国家为：美国、英国、德国、加拿大、中国、日本、韩国、澳大利亚、法国、荷兰。

3.机构趋势机构趋势分析显示，当前计算机交互领域研究最热门的前10名机构是：卡内基梅隆大学、华盛顿学院、加州大学、斯坦福大学、密歇根大学、麻省理工学院、佐治亚理工学院、康奈尔大学、首尔国立大学、延世大学。

计算机交互作为终端产品的领先技术，已经得到业界的广泛认可。

各种自然交互技术和新型交互终端相继推出，但图形用户界面仍然是主导交互方式。

计算无处不在，人机交互的研发空间巨大。

自然、高效的交互是一种发展趋势。

要全面探索自然交互技术的科学原理，建立明确的优化目标，结合智能技术，开发高效、可用的自然交互技术。

。

清华大学牵头，99页报告揭示人机交互发展现状及未来发展趋势 -人工智能人机交互报告

站长声明

标签：

上一篇：阳光媒体集团携手嘉实基金创建私募股权基金

下一篇：纽约初创公司New Stand获得4000万美元B轮融资

校园交通运营商国泰汇众完成千万融资，投资方为佳云科技

投资界（ID：pedaily）7月14日消息，国泰汇众近日完成数千万融资，投资方为广东佳兆业佳云科技有限公司、有限公司（以下简称：佳云科技）独家投资。 “本轮融资将主要用于内容建设和校园红人矩阵创建，继续深化中国大学生33篮球联赛的发展，开发新的赛事类别，建立更多内容体

06-17
phpstudy与各大安全厂商联手，为用户提供免费安全测试服务

对于前段时间PHPstudy软件被黑客植入“后门”的事件，我们对黑客的行为深感痛恨，为了更好的解决防止此类事件再次发生，保障广大用户的网络安全问题，PHPstudy与国内几大安全厂商合作，提供App安全测试、应用源代码审计、渗透测试、安全卫士查杀四项安全测试，免费提供给 php

06-17
坤音娱乐完成Pre-A轮融资，由红杉资本中国基金领投，真格基金跟投

投资界4月26日消息。近日，据媒体报道，坤音娱乐筹集了数千万预投资金。 -A轮融资已完成。本轮融资由红杉资本中国基金领投，真格基金跟投。目前估值超过3亿。　　据悉，Pre-A轮融资约1万元，将用于偶像孵化、团队建设和音乐作品打磨。　　坤音娱乐成立于2001年，团队均

06-18
专注汽车市场服务，蜥蜴智能获数千万元Pre-A轮融资

据投资界7月29日消息，蜥蜴智能宣布完成数千万元Pre-A轮融资融资方面，西安博星洗车场、西安汽车职业大学和大建资本共同参与了本轮投资。本次战略投资的领投方为西安博星洗车场。博星洗车场作为西安深耕汽车后市场服务的龙头企业，在一线市场拥有完善的硬件基础设施和稳定

06-18
关于征集江西省现代产业引导基金第一批人才的公告

为打造一支专业结构合理、能力突出的人才队伍，充分发挥江西省投资运营进程省现代产业引导基金（简称引导基金）引导基金拟招收第一批专家。现将有关事项公告如下：一、引导基金概况引导基金经江西省人民政府批准设立，为江西省国有资本。运营控股集团有限公司设立的省产

06-18
易参完成近千万美元A轮融资

3月25日消息，据36氪了解，一站式股权激励及管理服务平台“易参”已完成近千万美元A轮融资融资。本轮融资由腾讯领投，现有股东顺为资本、源码资本跟投。目前，易参已完成三轮近亿元融资。他的上一轮融资是今年5月披露的Pre-A轮融资数千万元。由顺为资本领投，老股东源码资

06-18
打造网络广告智能平台，易售科技获得数千万人民币A轮融资，

据投资界10月13日消息，易卖科技正式宣布完成数千万元A轮战略融资。战略投资者是深圳报业集团旗下的基金。本轮融资筹集的资金将主要用于公司大数据研发投入、平台级产品的进一步研发和市场拓展。易卖科技成立于2007年，是一家在线广告智能投放平台，通过大数据和物联网技

06-18
晨兴中国TMT行业的三支美元基金募集资金共募集4亿美元

晨兴中国在TMT行业的三只美元基金已募资总额达4亿美元。据2020年2月19日消息，晨兴中国旗下三只TMT行业美元基金合计募资4亿美元。这三只基金分别是：晨兴中国TMT基金三期、晨兴中国TMT跟投基金三期和晨兴中国TMT特殊机会基金，规模分别为3.08亿美元、4万美元和1.03亿美元。

06-18
加密投资平台Aspen Digital周三宣布完成880万美元Pre-A轮融资

投资圈（ID：pedaily）8月5日消息，香港加密投资平台Aspen Digital周三宣布完成8.8美元融资百万Pre-A轮融资，由雅各布罗斯柴尔德创立的投资信托公司RIT Capital Partners领投，区块链早期风险投资公司Liberty City Ventures领投，泰籍华人富商和《财富》杂志社跟投谢展老板也

06-18
Pwn2Own 2016规则调整：总分是唯一官方评价标准

今天凌晨，全球最著名的黑客大赛Pwn2Own正式拉开帷幕。顶级黑客将向苹果 Safari 浏览器、微软 Edge 浏览器、谷歌 Chrome 浏览器以及 Adob??e Flash 插件、VMware 等 6 个项目发起攻击，争夺决定团队最终得分的项目积分。本次比赛的形势是“中韩对抗”。中国队由腾讯安全团

06-17
麦淘育儿已完成近千万美元B+轮融资，预计到2019年将开设约300个线下科普活动点

据投资界8月1日消息，国内知名儿童场景教育平台“麦淘育儿”宣布完成近千万美元B+轮融资，由上市公司精英教育领投，A轮股东开物华登跟投。　　自2017年成立以来，“麦淘育儿”始终专注于3至12岁儿童的课外活动和素质教育市场。通过“自营+平台”模式，构建了完整的产品和服

06-17
当当网在纳斯达克上市一周年，今日股价暴涨19.78%

据12月9日消息，美国周四低开低走，尾盘跳水，道琼斯工业平均指数跌破0点。中概股普遍下跌。当当网（NYSE：DANG）逆势上涨0.92美元，涨幅19.78%，收于5.57美元。　　当当小幅高开，全天震荡走高，最高涨幅达到24.3%。收盘前因大盘跳水小幅下跌，最终报5.57美元。成交量明

06-18