首页 > 科技未来 > 内容

特斯连的AI研发突破（二）：视觉任务中无监督领域适应的类别比较

发布于：2024-06-18 编辑：匿名来源：网络

深度神经网络（DNN）在新技术中通常由于跨域不匹配（跨domain不匹配）领域表现不佳。

无监督域适应（UDA）技术可以通过利用未标记的目标域样本来缓解跨域不匹配问题。

近日，特斯联科技集团首席科学家、特斯联国际总裁邵岭·博士和合作者提出了一种基于类别比较的新颖方法——类别对比（CaCo），并公布了取得的最新研究成果。

该方法在视觉 UDA 任务的实例区分上引入了语义先验。

该研究成果（标题为：Category Contrast for Unsupervised Domain Adaptation in Visual Tasks）已被收录在今年人工智能顶级会议CVPR（国际计算机视觉与模式识别会议）中。

通过将实例对比学习视为字典查询操作，团队使用来自源域和目标域的样本构建了一个类别感知和域混合的字典，其中每个目标样本为源域样本的先验类别分配了一个（伪）类别标签，并将相应的类别对比损失提供给UDA。

这鼓励学习完全满足 UDA 目标的类别区分性但域不变的表示：同一类别的样本之间的距离（无论来自源域还是目标域）被拉伸，同时样本之间的距离不同类别的内容将被推得更远。

在分割、分类和检测等各种视觉任务中的大量实验表明，与当前最先进的算法相比，CaCo 实现了卓越的性能。

此外，实验还表明，CaCo可以作为现有UDA方法的补充，并且可以扩展到其他学习方法，例如无监督模型自适应、开放/半开放集域自适应等。

无监督域自适应减轻了交叉学习的影响。

域不匹配。

无监督域适应（UDA）旨在通过利用未标记的目标域样本来减少轻微跨域不匹配问题的影响。

为了实现这一目标，科研人员针对目标域样本设计了不同的无监督训练目标函数，以训练出在目标域具有良好性能的模型。

现有的无监督损失大致可以分为三类：1）对抗性损失函数（adversarial loss）：迫使模型学习与源域相似的目标表示； 2）图像翻译损失函数（image Translation loss），将源图像转换成具有相似目标风格和外观的图像； 3）自训练损失（self-training loss），用置信度更高的伪标记样本迭代地重新训练网络。

无监督表示学习解决了无监督网络预训练的相关问题，旨在从未标记的数据中学习有区别的嵌入。

近年来，实例对比学习在无监督表示学习方面取得了重大进展。

虽然动机不同，但实例比较方法可以被视为字典查询式任务，通过将编码查询 q 与由多个编码键 k 组成的字典匹配来训练视觉编码器：编码查询应该类似于编码正例键和编码负键不同。

由于没有可用于未标记数据的标签，因此正键通常是查询样本的随机增强版本，而所有其他样本都被视为负键。

在此背景下，邵岭·博士和他的团队探索了UDA中实例比较的概念。

基于将对比学习视为字典查询任务，团队假设 UDA 字典应该是类别感知的，并且应该与来自源域和目标域的键进行域混合。

直观上，包含类别平衡键的类别感知字典可以促进从源域和目标域学习类别区分性但类别无偏见的表示。

域密钥将允许学习两个域内和跨域的不变表示，这两者都与 UDA 的目标一致。

使用类别对比方法构建具有类别感知和领域混合的字典团队提出使用类别对比方法（CaCo）构建具有类别感知和领域混合的字典，并为UDA提供相应的对比损失函数。

如图 1 所示，该字典包含跨类别和域统一采样的键，其中每个目标键都有一个预测的伪类别。

以说明词典K = {特斯连AI研发突破(2)：视觉任务中无监督域适应的类别比较} 1 ≤ c ≤ C, 1 ≤ m ≤ M为例。

每个类别 c 包含 M 个密钥，每个域包含 (C × M)/2 个密钥。

图1中，团队提出的类别比较方法通过类别对比损失函数特斯联合AI研发突破（2）：视觉任务中无监督域适应的类别比较将查询q（来自未标记的目标样本特斯联合AI研发突破(2)：视觉任务中无监督域适应的类别比较）与由键组成的字典相匹配，以训练无监督域适应编码器。

字典键来自源领域特斯连AI研发突破（2）：用于视觉任务中无监督域适应的类别比较（图中红色文字，带标签）与目标领域特斯连AI研发突破（2）：用于视觉任务中的无监督域适应是类别比较的域混合（图中蓝色文本，带有伪标签），以便可以学习域内和跨域的不变表示。

键也是类别感知和类别平衡的，这样就可以学习类别有区别但无偏见的类别表示。

请注意，类平衡意味着每个查询 q 都会与字典中的所有键进行比较（在损失计算中），并且这些字典键均匀分布在所有数据类中，从而缓解数据不平衡。

因此，网络学习将努力最小化目标查询和字典键之间的类别对比损失。

特斯连AI研发突破（二）：视觉任务中无监督域适应的类别对比：同类别样本靠拢，不同类别样本被推开。

这自然会产生类别区分但领域不变的表示，这与 UDA 的目标完全一致。

通过应用类别感知和领域混合字典以及类别对比损失函数，所提出的类别对比通过三个理想特征解决了 UDA 挑战：1）利用类别感知字典设计，同时最小化类别内变化并最大化类别距离； 2）依靠同时包含源域样本和目标域样本的混合域字典设计，实现域间和域内的对齐； 3）依靠类别平衡的字典设计，有效缓解数据平衡问题，允许在学习过程中均匀计算所有类别的对比损失。

大量实验结果表明类别比较方法表现出优异的性能。

团队分享了其实验结果，分为以下几个维度。

泛化能力：团队通过评估CaCo在多个基本视觉UDA应用（即分割、检测和分类）中的表现来研究CaCo的泛化能力。

实验结果表明，CaCo 始终表现出与当前最先进方法相当的性能。

功能互补：团队探索了 CaCo 与现有 UDA 方法相结合的协同优势。

这表明，当添加 CaCo 时，所有现有方法都可以在不同的视觉任务中得到持续改进。

与现有无监督表示学习方法的比较：团队使用CaCo和无监督表示学习方法对UDA任务进行比较。

大多数现有方法通过一些前置任务来实现无监督表示学习，例如实例比较学习、补丁排序、旋转预测和去噪/上下文/着色自动编码器。

在 UDA 任务 GTA→Cityscapes 上进行的实验表明，现有的无监督表示学习在应用于 UDA 任务时表现并不令人满意。

主要原因是这些方法是为了学习可用于区分实例的实例判别表示而设计的，并且没有考虑语义先验和领域差距（domain差距）。

CaCo 还用于无监督学习，并且在应用于 UDA 时更加有效，很大程度上是因为它学习类别区分和领域不变的表示，这对于各种视觉 UDA 任务至关重要。

的。

参数研究：参数 M（在所提出的 CaCo 中）控制分类字典的长度（或大小）。

团队逐渐将M从50调整到50并进行研究。

在UDA分割任务GTA-to-Cityscapes上的实验表明，当M在50到50之间调整时，对UDA的影响并不明显。

不同学习类型的泛化：团队从学习类型的角度研究了所提出的 CaCo 的可扩展性。

具体来说，该团队将 CaCo 应用于各种涉及无标签数据学习和某些语义先验的任务，例如无监督模型自适应和半开放集/开放集 UDA。

结果表明，CaCo 可以稳健地表现出与当前最先进方法相当的性能。

类别感知字典：该团队研究了所提出的类别感知字典的 3 种变体设计：1）为所有键分配相同的温度参数； 2）使用两个独立的字典（用于源数据和目标数据）而不是一个单独的域混合字典； 3）使用内存库或当前小批量更新字典。

实验证实了该设计的优越性。

总的来说，邵岭·博士和他的团队提出了一种类别对比方法CaCo，它引入了通用类别对比损失函数（genericcategorycontrativeloss），可以有效地用于各种视觉UDA任务。

该团队使用源域和目标域的样本构建了语义感知字典。

根据源域样本的先验类别，为域中的每个目标样本分配一个（伪）类别标签。

这使得类别比较学习（目标查询和类别级字典之间）能够学习类别区分性和域不变表示：同一类别的样本（无论来自源域还是目标域）将更接近且不同。

类别样本同时被推开。

在分割、分类和检测等各种视觉任务中进行的大量实验表明，仅 CaCo 就可以表现出与当前最先进方法相当的性能。

特斯连的AI研发突破（二）：视觉任务中无监督领域适应的类别比较

此外，实验还表明，CaCo可以补充现有的UDA方法，也可以外推到其他学习类型，例如无监督模型适应、开放/半开放集域适应等。

站长声明

标签：

上一篇：北京大兴国际氢能示范区北区竣工投产

下一篇：【爱造机器·妹子测试】猫王3收音机怀旧清爽体验

提高智能生活效率，选择合适的输入法

智能手机现在很流行。无论是微信聊天、浏览微博、搜索信息，甚至是修改简单的文档，都需要使用输入法。可以毫不夸张地说，手机输入方式很大程度上决定了手机的整体体验。今天我们就简单介绍一下时下比较主流的几种输入法，看看哪种输入法最好。百度输入法——输入效率高，

06-18
创新工场董事长与CEO李开复：中国迎来了ToB创业的黄金时代

“与ToB不同，好的ToB服务需要客户通过付账来证明。你必须从第一天就开始赚钱，并且你必须清楚地了解其中的好处。收多少钱以及如何收钱。这是很多to B创业者遇到的最大的陷阱。 ”近日，创新工场CEO李开复博士在HICOOL全球创业者峰会上分享了“中国to B创业的黄金机遇”。

06-18
高通收购的芯片公司正在暗中做工

详细介绍高通的设计优势和营销策略的专栏有很多，但如果笼统地概括一下，通常都会归结为“我们能把先进的无线技术掌握在哪里？ ” 。该公司在智能手机领域取得了巨大成功，垄断了美国的大部分市场以及全球相当大的市场，并在过去几年中转向了汽车和虚拟现实等新市场，但他们

06-08
新一代蛋白质降解剂公司“Artek”完成Pre-A轮融资，由红杉中国

投资界（ID：pedaily）领投，近日，Artek宣布完成Pre-A轮融资。本轮融资由红杉中国领投。该笔资金将用于继续推进基于ATTEC技术的新一代蛋白降解药物的研发，包括升级药物靶点筛选体系、扩充专业研发团队、推进结构设计、改造和验证等。药物小分子。 Artek是一家全球首家专

06-18
MIUI 13 Pad稳定版已上线！与苹果相比，您的体验如何？

如果把“平板电脑”和“生产力”放在一起，肯定会有很多争议，但如果把“平板电脑”和“效率”放在一起，争论就会安静一些。分屏、小窗口、平行水平线等功能在大屏幕上确实更高效。因此，我非常认同MIUI 13 Pad发布时提到的“效率创新”。但作为小米和苹果双生态的用户，在

06-21
名创优品：2021财年第三财季营收22.294亿元，同比增长36.5%

名创优品发布本财年第三财季业绩报告。财报显示，本季度名创优品营收22亿元，同比增长36.5%；调整后净利润1.49亿元，同比增长9.5%。

06-17
英特尔支持中国第三阶段5G技术研发测试，加快5G商用步伐

近日，IMT-(5G)推进小组在北京召开会议，正式发布第三阶段5G技术研发测试规范的出台，标志着我国5G技术研发进入体系验证阶段，5G商用全面加速。英特尔参与中国5G技术研发试验，并于今年9月完成第二阶段试验。随着第三阶段试验的正式启动，英特尔将继续与领先的网络设备制造

06-06
游戏公司的转型阵痛

新的《网络游戏管理办法（意见稿）》对游戏品质提出了更高的要求。事实上，游戏公司在推出之前就已经犹豫了很长时间。过去几年，在《原神》等产品异军突起的刺激下，游戏产业经历了向大规模产业化、押注高质量自主发展的转型。从一年抢百万人的争夺战，到花重金招募工作室

06-18
Meta 计划加入 NFT 市场，更名后的 Facebook 越来越元宇宙

1 月 21 日消息，Facebook 母公司 Meta 计划允许客户创建和推广 NFT（不可替代代币）。据了解，Facebook 和 Instagram 团队正在开发一项功能，允许客户在其账户个人资料上显示他们的 NFT。此外，团队正在开发一个原型，旨在帮助客户创建可收藏的代币。另外，Meta 计划推出

06-18
精密仪器开发商「极光智能」完成Pre-A轮融资

5月7日消息，近日，极光智能科技股份有限公司完成近千万元Pre-A轮融资，由太友基金领投，参股投资、清研基金跟投。极光智能科技创立于美国石油城休斯顿。是一家专注于激光光谱气体分析检测仪器??研发和生产的科技创业企业。它致力于成为痕量和基于芯片的气体检测领域的全球

06-18
闽投集团首支纾困基金已注册，规模10亿元

投资界1月15日消息，来自福建省人民政府国资委官网，近日福建省投资集团首支救助基金——福建省福州创新财富股权投资合伙企业（有限合伙）在福州马尾完成注册并正式启动运营。据悉，该基金规模为10亿元。以市场化方式设立，以商业化模式运营。优先支持省内优质上市公司，缓

06-17
做个记录吧！欧盟2021年新增光伏并网容量为25.9GW

SolarPowerEurope最新报告《年欧盟太阳能市场展望》显示，2021年是欧洲太阳能行业又一个破纪录的一年。 2018年，欧盟预计将新增光伏装机容量25.9GW，比2016年的19.3GW增长34%，打破此前十年来21.4GW的纪录。该报告预测，欧洲太阳能发电将继续强劲增长，到2020年欧洲新增装机

06-08