首页 > 科技未来 > 内容

张含旺:大模型的研究离不开因果关系丨GAIR 2023

发布于:2024-06-18 编辑:匿名 来源:网络

编者按:8月14日,第七届GAIR全球人工智能与机器人大会在新加坡乌节大酒店正式开幕。

本次论坛由GAIR研究院、雷锋网、世界科学技术出版社、科特勒咨询集团联合主办。

大会共开设10场主题论坛,聚焦AIGC、基础设施、生命科学、教育、SaaS、web3、跨境电商等领域在大模型时代的变革与创新。

本次大会是大规模模型技术爆发时代首个走出国门的人工智能顶级论坛。

这也是中国人工智能影响力的跨境溢出。

第一天的“青年科学论坛”专场,南洋理工大学副教授张含旺发表了主题为“《视觉识别中的因果关系》”的演讲。

张含旺认为,对于目前的大模型来说,想要真正突破一些最底层的逻辑问题,因果关系是必由之路。

在他看来,偏差是多模态模型或者大语言模型研究中的一个常见问题。

随着模型规模不断扩大,它可能会变得更加智能,但偏差问题仍然存在。

这意味着如果不添加因果关系,大型模型只是强制相关性。

如果幸运的话,模型在回答问题时能够给出正确答案,否则就是“废话”。

这是因为其背后的相关性是错误的,共生被视为因果关系。

“共生并不等于因果关系。

经常发生的事情并不一定是因果关系。

”对此,他给出建议,在制作多模态模型的过程中,一方面要更加注重“等方差”,因为“拆解”可以通过数据量进行堆叠,但“等方差”不能,所以在预训练时要多加注意。

另一方面,当前多模态互操作性的瓶颈是非语言模态(例如图像)的空间标记和语言分布相距太远。

他认为语言的本质是递归的符号系统,这也是大型语言模型能够推理的基础。

因此,如果想要得到真正的多模态大模型,就必须找到一种“递归、拆解”的标记化方法,将非语言模态转换为“递归分布”的标记。

以下为张含旺教授现场演讲内容。

雷锋网(公众号:雷锋网)在不改变原意的情况下进行了编辑整理: 张含旺:前面的嘉宾都在讲大语言模型。

我换个口味,谈谈计算机视觉中的因果关系。

遗憾的是,从去年年底到今年年初,大款大行其道的时候,这种因果关系似乎陷入了近乎“消失”的状态。

大家的注意力和兴奋点几乎都落在了大模型的表现上,而因果关系这个我们已经推到一定热度的领域却迅速暗淡下来。

在我看来,对于目前的大型模型来说,如果想要真正突破一些最底层的逻辑问题,因果关系是唯一的出路。

它可能不是一个完整的解决方案,但至少是一个垫脚石。

01为什么需要因果关系? 三四年前,我们非常担心计算机视觉问题中的偏差,但是当涉及到制作多模态模型或大型语言模型时,这些偏差仍然存在。

换句话说,随着模型规模不断增大,它可能会变得更加明智和智能,但就偏差而言,没有底层算法可以解决这个问题。

这个偏见是什么?如果您要求大型模型进行一些视觉 QA,该模型将正确回答问题,但它会看起来在错误的位置。

用今天通俗的话说,它的中链可能是错误的。

如下图,问题是:女生吃热狗会兴奋吗?它应该看着女孩而不是热狗。

再比如,问题是:这个人的滑雪姿势正确吗?相机聚焦在整个人上,这固然是正确的,但是聚焦在腿部的姿势上会不会更准确呢? 这也意味着,对于今天的大型模型来说,如果不加上因果关系,也只是强制相关。

运气好的话,从这些强制相关性中得出的结论是正确的,否则大模型将是“无稽之谈”,因为其背后的相关性是错误的,将共生视为因果关系。

共生并不等于因果关系,经常发生的事情也不一定是因果关系。

十年前,NLP领域取得的一个非常大的进展就是词嵌入。

它的训练方法和现在的生成方法一样,都是对一些文本的预测。

为什么我们可以利用这种关联来学习NLP领域非常好的语义,即因果关系? 比如下图中,king减去man就可以得到一个新的状态。

将其添加到性别中,它就成为女王。

这是常识,也是合理的因果关系。

为什么是这样? 稍后我会解释其根本原因。

我先告诉你一个简单的问题。

现在整个NLP领域都处于灭绝的边缘,因为基本上所有记录的符号都已经被人类消化并形成了因果关系。

事情是完全相关的。

那么在计算机视觉领域,比如下面的照片,为什么耳朵长在猫的眼睛上方呢?尽管可以观察到这种相关性,但没有记录为什么会出现这种相关性。

再比如,人用腿去跑步或者滑雪,可以观察到人的腿和滑雪板的状态,但是人为什么要用腿去滑雪呢?照片中也没有记录其背后的原因。

因此,如果我们只通过照片来学习视觉特征,那么视觉嵌入与NLP嵌入相差太大,我们只能学习一些非常粗略的关联。

02 常见原因(混杂因素)和因果干预 研究计算机视觉的人都应该听说过MAE,这是一种基于掩模建模学习到的视觉特征。

它本质上是一个非常低级的相关性特征。

至于原因,这就引出了一个简单但有力的因果关系概念——混杂,这也是一种因果干预。

混合模型是这样的:如果你想通过对象a来推断对象b,则意味着将对象a放在这里会增加对象b出现的概率。

如果你想找到这样一个明确的促进关系,即因果关系,你往往会受到共同创始人的干扰,而这个共同创始人就是对象a和b之间的共同原因。

由于这个公因的存在,即使a和b没有直接关系,也会被这个混合公因联系起来。

张含旺:大模型的研究离不开因果关系丨GAIR 2023

举一个非常著名的案例,如果要验证统计数据——巧克力的销量与诺贝尔奖获得者的数量呈强正相关,但事实并非如此。

它们的背后有一个共同的原因,那就是国家的GDP。

因此,如果想用巧克力销量来预测获得诺贝尔奖的概率,是没有问题的。

但如果把它作为一项政策,让全国所有学龄儿童每天吃一磅巧克力,那就不太可行了。

也就是说,用它来做预测是可以的,但是用它来实施关系到国计民生的政策,仅仅用一个预测模型是不够的,而且也是非常危险的。

再比如,用键盘来预测鼠标的存在是不可行的,因为键盘和鼠标背后的一些背景共同决定了它们是否经常在一起。

因此,如果你尝试在看到键盘时预测鼠标的存在,你可能会发现鼠标存在的概率并不完全由键盘决定。

让我们看一些具体的例子。

下图是根据计算机视觉数据集计算得出的。

无需制作任何模型。

你只要把它的注释标签拿出来数一数,你就会发现几个有趣的东西。

首先是脸盆和吹风机的关系——当你看到吹风机的时候,猜猜旁边有没有脸盆。

如果用简单的相关性来猜测,这个概率是非常高的,大约是0。

56。

但是经过因果干预之后,发现的概率其实已经降低了。

为什么?其背后的原因是,该数据集中几乎所有照片都是网上发布的酒店浴室照片。

可能是为了节省空间。

酒店浴室的吹风机和洗脸盆通常都是这样放置的,吹风机挂在墙上,洗脸盆放在旁边。

在下面。

但光有吹风机就可以通向洗脸盆吗?如果我们仅仅根据这个数据集来分析,这是一个大概率的事件,但是如果我们用常识去思考,就会发现这并不可靠。

第二个例子是,在浴室里,经过因果干预后,马桶与人共现的概率增加了。

为什么是这样? 事实上,出于同样的原因,我强调,在这个数据集中,厕所和人基本上很少共存。

也许是出于个人隐私的原因,不可能经常拍摄一个人使用厕所的照片,所以照片中厕所周围基本上没有人,甚至即使有人,也没有在使用厕所。

但常识告诉我们,马桶是给人用的,一个人坐在马桶上也是合理的。

这才是真正的“见厕所猜人”的因果关系,而不是单纯根据概率来判断。

所以对因果关系做了一些调整之后,我们其实是重置了概率,就是借用一些周围的物体,然后看看周围有没有多余的盆子、杯子、袋子,所有这些可能性的权重相加后的事情,你会发现“见厕所猜人”的概率会增加一倍或三倍。

这是比较合理的事情。

换句话说,我们可以对这个数据集实现无偏估计,以逼近真实的自然语言,这是对庞大而丰富的语料库中单词之间的词嵌入的更好预测。

这是一个如此简单的因果干预。

近两三年来,我们在这一领域不断进行研究,并取得了一些成果。

03 大型模型中因果关系的重要性。

当大型模型出来时,我们面临的第一个问题是,事实证明因果关系基本上是用来“去偏”预测任务,做一些训练分布以外的工作。

,因为测试集和训练集的分布不同。

但由于目前的模型太大,基本上所有的测试集都是训练集的排列组合,测试基准已经不存在了。

我们如何利用因果关系?所以,我们需要更深入的思考,这也是我这一两年一直在做的事情。

这种深刻的思考可以用下图来说明。

其实有两点:第一,这张图为什么是三角形的?以前,如果我们要建立因果关系,肯定会画出这样的三角假设。

为什么这个假设是正确的?目前的这个假设基本上是由该领域的一些专家得出的。

可以用数学来证明吗? 第二,这个三角形的顶点,即共同创始人,到底是什么?过去,联合创始人是针对特定任务而定义的,但实际上并没有共性。

如果我们想回答这个最基本的问题,我们需要考虑工具。

然而前年年底,我们发现现在的线性代数已经不够用了,数学工具也出现了问题。

与微积分发明之前类似,基本上很难找到主要行星的运行规律,其轨道只能通过几何计算。

虽然这也可以产生更好的预测结果,但其背后的原理尚不清楚。

换句话说,发现真正的牛顿力学需要使用一些新的数学工具。

我们尝试使用抽象代数中的群论概念来定义深度学习中更深层次的事物。

也就是说,我们首先要定义深度学习是什么学习。

答案是,深度学习实际上就是将其观察到的世界解耦。

有两个数学概念可以用来描述解耦。

第一个是拆卸性,或者说模块化,即一个特性中的不同位置应该负责不同的功能。

第二个是等方差。

我们可以举一个有趣的例子来说明这一点。

十多年前,如果一个女孩想要拍一张漂亮的照片,她应该先化妆,然后拍照。

但现在,计算机视觉技术的特点非常多变,女孩子可以先拍一张照片,然后用Photoshop来化妆。

换句话说,物理世界中的妆容变化实际上在虚拟世界中是相同的。

这两者正是深度学习想要追求的目标。

我们使用群论来定义观察变化的概念。

例如,在下图中,我画了一个行星轨道图来演示最本质的深度学习动态。

其实就是用群论的概念重新定义了什么是分类。

每一个轨迹和画面的转变都是大家共同的力量,对应着大家共同的某种报应;跨轨道的变化就是跨类别的变化。

基于这个重新定义,我们可以用这种数学语言来证明三角形。

它的用处主要体现在两点:第一,它解释了什么是confunder,即每个人都有一些共同的背景;第二,它解释了什么是confunder。

其次,我们可以用它来实际做一些最基本的事情。

第一个是“去偏”。

我们发现最流行的“去偏”方法存在错误。

只有根据这张图的方法才能真正找到联合创始人。

换句话说,目前一些“去偏差”方法发现的偏差也可能是模型中的缺陷,但缺陷并不意味着偏差,偏差是缺陷的一部分。

我们所寻找的是纯粹的偏见。

第二个是你可以做一些有趣的生成。

比如说你要这个人跳舞,跳舞的动作就是类,她的身体就是背景。

当你找到背景和偏见时,你就能形成你想要的东西。

产生效果。

接下来是比较流行的Prompt调音。

如何用因果关系图来理解呢?以下是目前多模态提示调优最重要的流程。

我们可以假设这个视觉特征大约被像 CLIP 这样大的模型分割。

基于这个假设,提示音调优就是找出调好的提示音应该如何变化。

其中,狗的类别是给定的,所以要做分类,需要找到合适的背景。

目前流行方法的一个问题是训练越多效果越差。

研究过机器学习的人都知道这是过拟合,这并不奇怪。

但有些情况下,你给出的数据越多,效果就越差。

这很奇怪。

如果要解释的话,可以用阶级与语境不断对抗的概念来解释,一个在退潮,一个在退潮。

我们来谈谈最后一点。

现在大模型的特性存在问题,尤其是视觉特性。

虽然它们是拆装的、模块化的,但无法实现对等性。

如下图所示,当你用比CLIP更强大的大模型来计算语言和图片的距离时,你会发现,其实这个房子从左到右的渐进过程是很难准确判断的。

语言。

相似性变得等变。

也就是说,语言中“右”改为“左”,并不反映房子从左到右的变化。

不等变化说明丢失了一些信息,所以我们还是用群论的概念来理解。

这就像我们上面说的,不需要真正的物理化妆,只需使用PS化妆即可。

用这样一个简单的方法对loss做一些设计,我们就可以得到非常好的等变多模态相似度。

下面是我们提到的一个基准。

如果您正在训练多模态模型,您可以使用此基准来测试您的大型模型是否变得更好。

最后,我想给研究大型模型,特别是多模态大型模型的研究人员一些学术建议。

首先,我们要更加关注等方差,因为反汇编可以通过数据量的堆叠来实现,但等方差不能,所以我们在预训练的时候要注意这一点。

其次,所有大型多模式模型现在都存在问题。

多模态模型之间互操作性的瓶颈在于非语言模态(例如图像)的空间标记与语言分布相距太远。

语言的本质是递归符号系统,这也是大型语言模型能够进行推理的基础。

因此,如果想要获得真正大型的多模态模型,就必须找到一种“递归、拆解”的标记化方法,将非语言模态转换为“递归分布”的标记。

以上就是我今天分享的内容,谢谢大家! 雷锋网原创文章,未经授权禁止转载。

详情请参见转载说明。

张含旺:大模型的研究离不开因果关系丨GAIR 2023

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 【创业24小时】2022年6月2日

    【创业24小时】2022年6月2日

    投融资昨天国内市场共发生17起投资披露事件,其中医疗健康5起(MIRA、顿慧医疗、耀明生物、清盈华康、舒瑞) 、先进制造案例4个(浩电科技、速御科技、实创科技、河间工业软件)、电商零售案例3个(京都鲜酿、快抢、开始喝茶ONCHA)、企业服务案例3个(欧水通) 、华宇资源、

    06-17

  • 海底捞2020年增收不增利,全年净利润同比下滑近90%

    海底捞2020年增收不增利,全年净利润同比下滑近90%

    香港上市公司海底捞(2.HK)发布年度业绩报告。

    06-17

  • 【融资24小时】2022年5月23日投融资事件汇总及明细

    【融资24小时】2022年5月23日投融资事件汇总及明细

    今日国内市场共发生19起投资披露事件,其中企业服务4起(龙亚维森、心人心事、DataPipeline、BoundaryX) )、先进制造案例3个(多维科技、升腾半导体、北京硅智能)、本地生活案例2个(Pilibear、MoeGo)、电商零售案例2个(冠德科技、拉莫卤素)、医疗健康2个案例(华金)医

    06-18

  • 2020年(第七届)苏州创新创业精英团队大赛互联网+科技产业分赛隆重举行

    2020年(第七届)苏州创新创业精英团队大赛互联网+科技产业分赛隆重举行

    距离不同,创意无极限。 由姑苏区人才工作领导小组办公室、姑苏区人力资源和社会保障局、姑苏区经济和科技局主办的(第七届)苏州创新创业精英团队大赛正在如火如荼地进行。 5月26日,苏州市创新创业精英团队赛互联网+科技产业分赛赛成功举办。 20个入选创业项目展开激烈角逐

    06-18

  • 激光雷达是“噱头”还是真的有必要?

    激光雷达是“噱头”还是真的有必要?

    使用激光雷达的人都是傻瓜。 马斯克曾这样评价激光雷达。 说到自动驾驶,特斯拉一定是一个绕不开的品牌。 马斯克对纯粹视觉解决方案的坚持,让这个以自动驾驶闻名的汽车品牌备受争议。 频发的交通事故也让人们对特斯拉纯粹的视觉计划产生了质疑。 仔细回顾过往案例,特斯拉自

    06-21

  • 历史上雇用间谍最大的活动之一?一家不知名的印度IT“小作坊”7年黑进1万多个邮箱

    历史上雇用间谍最大的活动之一?一家不知名的印度IT“小作坊”7年黑进1万多个邮箱

    这是史??上最大规模的雇佣间谍活动之一。 近日,路透社独家报道称,一家名为“BellTroX InfoTech Services”的印度公司向用户提供黑客服务,七年来监控了超过1万个电子邮件账户。 政客、行业巨头、社会团体和知名机构都成为了攻击目标。 BellTroX 是谁?总部位于新德里的 Bel

    06-18

  • 黑咔相机获数千万美元A+轮融资,All in 小程序游戏

    黑咔相机获数千万美元A+轮融资,All in 小程序游戏

    据投资界5月16日消息,黑咔相机已完成数千万美元A+轮融资,由启明创投领投,纪源资本跟投。 本轮交易完成后,黑咔相机的市场估值约为1万美元。   创始人姜文介绍,本轮资金除了覆盖日常人员成本、带宽成本和营销费用外,将主要用于开发基于小程序的游戏社交产品矩阵。 其首

    06-18

  • 一家超市让一座城市人气

    一家超市让一座城市人气

    还有一个“许昌胖东来”作为年轻人的旅游目的地。 携程数据显示,刚刚过去的国庆节,许昌成为新的旅游黑马。 许昌市位于河南省中部,既不是洛阳、开封那样的古都,也没有著名的石窟、古刹。 之所以吸引全国各地的游客前来打卡,全是因为一家网红超市——胖东来。 尤其是今年5

    06-18

  • 2020成都高新区“创业夜市之投资人荟客厅”首场活动正式开启

    2020成都高新区“创业夜市之投资人荟客厅”首场活动正式开启

    2020年成都高新区首场活动“创业夜市——投资者客厅”于2020年4月21日正式启动。 成都高新区孵化载体产业联席治理委员会。 成都高新区“创业夜市——投资者客厅”首场活动在景融汇8号楼二楼会议中心成功举办。 活动推介主屏“创业夜市-投资者客厅”活动是成都高新区科技和人才

    06-17

  • 三星发布新一代2.5D封装技术I-Cube4:集成四个HBM

    三星发布新一代2.5D封装技术I-Cube4:集成四个HBM

    三星电子宣布新一代2.5D封装技术“I-Cube4”(Interposer Cube 4)已正式投入商用并可使用面向HPC、AI、5G、云、数据中心等领域。 这是一种异构集成技术,可以将一个或多个逻辑芯片(CPU/GPU等)和四个HBM高带宽存储芯片放置在一个硅基中介层上,然后将它们封装在一起作为芯片

    06-06

  • AMD全球最大设计中心在印度开业

    AMD全球最大设计中心在印度开业

    据AMD官网消息,11月28日,AMD宣布在印度班加罗尔开设全球最大设计中心“AMD Technostar”。 工程师,专注于半导体技术的设计和开发,包括3D堆叠、人工智能(AI)、机器学习等。 据悉,AMD Technostar Park是其未来五年在印度投资4亿美元计划的一部分年。 AMD表示,该园区将成

    06-06

  • 美国拟允许美国企业与华为共同参与5G标准制定

    美国拟允许美国企业与华为共同参与5G标准制定

    北京商报 据路透社援引消息人士消息,美国商务部即将出台新规,允许美国企业参与5G标准制定与华为共同参与5G网络标准制定。 公式。 此时,距离美国将华为列入实体名单已经过去了近一年的时间。 对此,北京商报记者向华为求证。 截至发稿,对方尚未回应。 受上述利好消息影响,

    06-06