云技术服务公司“天和国云”获得近亿元A轮融资,由财新产业基金领投
06-18
特斯联取得多项计算机视觉科研突破,成果入选CVPR、TPAMI等国际顶级会议顶级期刊。
作为互联网国家枢纽节点,“东数西数”工程正式启动。
作为数据处理核心的新型基础设施,人工智能、物联网、云计算、区块链等技术将迎来更加精细化的发展前景。
。
近期,作为成渝地区的深度参与者,特斯联宣布在计算机视觉(CV)领域取得多项科研突破,并在CVPR、TPAMI等国际顶级学术会议和期刊上发表论文8篇。
。
包括。
此次,特斯联在CV领域的科研突破涵盖语义分割、图像增强、显着目标识别、迁移学习、行为识别等方面。
其中很多创新技术突破了现有技术的上限,也开发出了多种性能更好、识别速度更快、效率更高的模型。
这些技术研究的应用和推广将成为特斯联赋能城市数字化、智能化的关键。
全球化的有力保障。
在机器视觉产业链中,上游光源、镜头、工业相机、图像处理器、图像采集卡等硬件、图像处理软件和底层算法等软件系统将随着机器视觉的迭代而快速发展,推动整个产业升级的产业链。
全球知名人工智能专家、特斯联集团首席科学家、特斯联国际总裁邵凌博士及其团队在该领域提出了多种图像视频识别和学习算法,大大缩短了训练和推理时间,从图像到识别提升、识别效率提升、解决数据标注瓶颈三个方面提升了整体视觉应用效果: 1)图像识别提升。
在图像识别方面,团队的技术突破主要集中在算法层面,包括背景消除模块、图像特征突出等。
这些可以从图像的本质出发,丰富图像本身的信息,去除冗余噪声,为后续的图像识别提供高清的图像数据,是高效识别的基础。
还有更多采用创新方法的技术突破,例如添加声音信息来辅助识别,提高信息准确性。
在CVPR收录的《Learning Non-target Knowledge for Few-shot Semantic Segmentation》(《学习用于小样本语义分割的非目标知识》)研究中,团队从挖掘和排除非目标区域的新角度重新思考少样本语义分割,进而提出了一种新颖的非目标区域消除(Non-target Region Elimination)框架,该框架包括背景挖掘模块(BackgroundMiningModule)、背景消除模块(BackgroundEliminationModule)和干扰目标消除模块(DistractingObjectsEliminationModule),保证模型不受背景和干扰目标的干扰,从而实现准确的目标分割可以获得结果。
不仅如此,本研究还提出了一种原型对比学习算法,通过细化原型的嵌入特征来更好地区分目标对象和干扰对象。
TPAMI 期刊中包含的《Learning Enriched Features for Fast Image Restoration and Enhancement》 (《学习用于快速图像修复和增强的丰富特征》) 研究显示了使用不同模块的目标分割的性能。
研究团队发现现实中的摄像头存在很多物理限制,尤其是在复杂的光照环境下,采集到的图像往往会显得不同。
退化程度。
例如,智能手机摄像头的光圈较窄、传感器较小且动态范围有限,通常会产生嘈杂且低对比度的图像。
为此,该团队提出了一种新的架构,其总体目标是在整个网络中维持空间精确的高分辨率表示,并从低分辨率表示中接收补充的上下文信息。
该方法的核心包括具有以下关键要素的多尺度残差块:(a)用于提取多尺度特征的并行多分辨率卷积流,(b)跨多分辨率流的信息交换,(c)捕获非-上下文信息的局部注意力机制,(d)基于注意力的多尺度特征聚合。
该方法学习了一组丰富的特征,这些特征结合了多个尺度的上下文信息,同时保留了高分辨率的空间细节。
该技术可以解决现实中物理相机的缺陷,提高画面质量,也为后续识别提供良好的载体。
使用我们提出的方法生成的图像(底行,右数第二个)在亮度和整体对比度方面在视觉上更接近真实情况。
该团队还研究了显着对象检测(SOD)数据集中严重设计偏差的问题,并收集了一个新的高质量、目前最大的实例级 SOD 数据集——杂波中的显着对象(SOC),以缩小与显着对象检测(SOD)数据集之间的差距。
现有数据集和真实场景。
通过对各个代表性模型的评审、在线基准模型的维护以及对各个SOD模型的综合基准和性能评估,实现对SOD发展的动态跟踪和更深入的了解。
此外,团队还设计了三种数据集增强策略,包括标签平滑、随机图像增强和基于自监督学习的正则化技术,以有效提高前沿模型的性能。
该技术可以使目标在复杂环境中脱颖而出,准确捕捉信息混乱的图像或视频中的目标,为识别和分析提供准确信息。
该研究成果被TPAMI期刊收录。
与实例级 ILSO 数据集 (a) 和 MS-COCO 数据集 (c) 相比,我们的 SOC 数据集 (b&d) 可以在由风景或相机视点变化引起的域移动下注释精细、平滑的边界行为。
发现问题也是团队研究的重点。
在鼎辉CVPR中包含的《Audio-Adaptive Activity Recognition Across Video Domains》(《跨视频域的音频自适应行为识别》)的研究中,团队提出了一种新颖的音频自适应编码器,利用丰富的声音信息来调整视觉特征,使模型能够在目标域中学习更多内容。
许多判别特征。
它通过引入音频注入识别器进一步消除了特定于领域的特征,并利用声音中的领域不变信息来实现有效的跨领域和跨模式交互。
此外,还引入了 actorshift 的新任务以及相应的数据集,以在行为外观显着变化的情况下挑战模型。
该技术增加了声音参数来识别物体活动,可以更准确地识别和分析物体的行为,在智慧城市应用中可以提供更准确的分析结果。
当很难在不同领域找到同一活动的视觉相似性时,我们的模型(红色)可以使用来自声音的额外提示来提高识别准确性。
基于自注意力的网络在图像描述方面取得了巨大成功,但仍然受到距离差异的影响。
敏感和低级瓶颈。
为了解决这个问题,团队在IEEE Transactions on Multimedia期刊上发表的《Multi-Branch Distance-Sensitive Self-Attention Network for Image Captioning》(《用于图像描述的多分支距离敏感自注意力网络》)研究中从两个方面优化了self-attention机制:一是距离敏感的self-attention方法(DSA),在SA建模过程中通过考虑图像中物体之间的原始几何距离来提高图像场景的理解;另一种是多分支自注意力方法(MSA),打破SA中存在的低秩瓶颈,并以可忽略的额外计算成本提高MSA的表达能力。
我们的方法(下排)和标准 Transformer 模型(上排)生成的注意力可视化和图像描述示例。
一些准确的单词用绿色标记,错误和不准确的单词用红色标记。
我们的方法允许更精确的描述。
2)提高识别效率为了提高识别效率,团队开发了新的算法框架和新的采样器,可以显着提高识别效率,并大大缩短训练时间。
在图像识别中,快速识别可以提高服务质量,减少延迟,让人们体验更智能的交互。
研究团队发现,大多数基于循环神经网络的视频对象分割(RVOS)方法采用基于单帧的空间粒度建模,视觉表示的局限性很容易导致视觉和语言之间的匹配不佳。
基于此,团队提出了一种新颖的多级表示学习方法,通过探索视频内容的内在结构来提供一组视觉嵌入,从而实现更有效的视觉语言语义对齐。
具体来说,它在视觉粒度上嵌入了不同的视觉线索,包括视频层面的多帧长期信息、帧层面的帧内空间语义以及物体层面的增强的物体感知特征。
其次,它还引入了动态语义对齐(DSA),可以更紧凑、更有效地动态学习和匹配不同粒度视觉表示的语言语义。
从实验结果来看,这项研究《Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation》(《具有语义对齐的多级表征学习用于参考视频对象分割》)推理速度很高,因此被纳入CVPR。
在视觉研究中,团队发现业界最流行的随机采样方法PK采样器对于深度度量学习来说信息量和效率不高。
因此,提出了一种可用于大规模深度度量学习的高效小批量方法。
这种采样方法称为图采样(GraphSampling)。
该模型的思想是在每个 epoch 开始时构建所有类别的最近邻图。
然后,每个小批量由随机选择的类别及其最近邻组成,以便学习信息丰富的示例。
该方法显着提高了重识别率,大大缩短了训练时间。
该技术是通用技术,可用于图像检索、识别等,该技术的主要目的是提高效率,是当前高负荷、信息化的智能领域不可或缺的技术。
快速分析和识别可以快速满足用户在一些图像检索和识别应用中的需求。
研究《Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification》 (《基于图采样的深度度量学习用于可泛化的行人重识别》) 也被收录在今年的 CVPR 中。
3)解决图像标注问题数据标注是一个重要的过程,传统的手工数据标注费时费力。

该团队想出了一项新技术来更有效地解决根本问题。
该研究被纳入今年的 CVPR,标题为《Category Contrast for Unsupervised Domain Adaptation in Visual Tasks》 (《视觉任务中无监督域适应的类别对比》)。
该团队提出了一种新的类别对比技术(CaCo),该技术在无监督域适应(UDA)任务的实例区分之上引入了语义先验,并且可以有效地用于各种视觉 UDA 任务。
该技术构建一个包含来自源域和目标域的样本的语义感知字典,每个目标样本根据源域样本的类先验分配给一个(伪)类标签,以便学习与 UDA 目标类别的精确匹配 -有区别但领域不变的表示。
与当前最先进的方法相比,简单的CaCo技术可以实现优越的性能,并且还可以作为现有UDA方法的补充并扩展到其他机器学习方法,例如无监督模型自适应、开放/部分设置适应等待。
该技术解决了传统监督学习需要大量人工标注的问题,并且比现有技术更加高效。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态