首页 > 科技未来 > 内容

特斯联实现多项计算机视觉科研突破,成果入选CVPR、TPAMI等国际顶会顶刊

发布于:2024-06-18 编辑:匿名 来源:网络

特斯联取得多项计算机视觉科研突破,成果入选CVPR、TPAMI等国际顶级会议顶级期刊。

作为互联网国家枢纽节点,“东数西数”工程正式启动。

作为数据处理核心的新型基础设施,人工智能、物联网、云计算、区块链等技术将迎来更加精细化的发展前景。

近期,作为成渝地区的深度参与者,特斯联宣布在计算机视觉(CV)领域取得多项科研突破,并在CVPR、TPAMI等国际顶级学术会议和期刊上发表论文8篇。

包括。

此次,特斯联在CV领域的科研突破涵盖语义分割、图像增强、显着目标识别、迁移学习、行为识别等方面。

其中很多创新技术突破了现有技术的上限,也开发出了多种性能更好、识别速度更快、效率更高的模型。

这些技术研究的应用和推广将成为特斯联赋能城市数字化、智能化的关键。

全球化的有力保障。

在机器视觉产业链中,上游光源、镜头、工业相机、图像处理器、图像采集卡等硬件、图像处理软件和底层算法等软件系统将随着机器视觉的迭代而快速发展,推动整个产业升级的产业链。

全球知名人工智能专家、特斯联集团首席科学家、特斯联国际总裁邵凌博士及其团队在该领域提出了多种图像视频识别和学习算法,大大缩短了训练和推理时间,从图像到识别提升、识别效率提升、解决数据标注瓶颈三个方面提升了整体视觉应用效果: 1)图像识别提升。

在图像识别方面,团队的技术突破主要集中在算法层面,包括背景消除模块、图像特征突出等。

这些可以从图像的本质出发,丰富图像本身的信息,去除冗余噪声,为后续的图像识别提供高清的图像数据,是高效识别的基础。

还有更多采用创新方法的技术突破,例如添加声音信息来辅助识别,提高信息准确性。

在CVPR收录的《Learning Non-target Knowledge for Few-shot Semantic Segmentation》(《学习用于小样本语义分割的非目标知识》)研究中,团队从挖掘和排除非目标区域的新角度重新思考少样本语义分割,进而提出了一种新颖的非目标区域消除(Non-target Region Elimination)框架,该框架包括背景挖掘模块(BackgroundMiningModule)、背景消除模块(BackgroundEliminationModule)和干扰目标消除模块(DistractingObjectsEliminationModule),保证模型不受背景和干扰目标的干扰,从而实现准确的目标分割可以获得结果。

不仅如此,本研究还提出了一种原型对比学习算法,通过细化原型的嵌入特征来更好地区分目标对象和干扰对象。

TPAMI 期刊中包含的《Learning Enriched Features for Fast Image Restoration and Enhancement》 (《学习用于快速图像修复和增强的丰富特征》) 研究显示了使用不同模块的目标分割的性能。

研究团队发现现实中的摄像头存在很多物理限制,尤其是在复杂的光照环境下,采集到的图像往往会显得不同。

退化程度。

例如,智能手机摄像头的光圈较窄、传感器较小且动态范围有限,通常会产生嘈杂且低对比度的图像。

为此,该团队提出了一种新的架构,其总体目标是在整个网络中维持空间精确的高分辨率表示,并从低分辨率表示中接收补充的上下文信息。

该方法的核心包括具有以下关键要素的多尺度残差块:(a)用于提取多尺度特征的并行多分辨率卷积流,(b)跨多分辨率流的信息交换,(c)捕获非-上下文信息的局部注意力机制,(d)基于注意力的多尺度特征聚合。

该方法学习了一组丰富的特征,这些特征结合了多个尺度的上下文信息,同时保留了高分辨率的空间细节。

该技术可以解决现实中物理相机的缺陷,提高画面质量,也为后续识别提供良好的载体。

使用我们提出的方法生成的图像(底行,右数第二个)在亮度和整体对比度方面在视觉上更接近真实情况。

该团队还研究了显着对象检测(SOD)数据集中严重设计偏差的问题,并收集了一个新的高质量、目前最大的实例级 SOD 数据集——杂波中的显着对象(SOC),以缩小与显着对象检测(SOD)数据集之间的差距。

现有数据集和真实场景。

通过对各个代表性模型的评审、在线基准模型的维护以及对各个SOD模型的综合基准和性能评估,实现对SOD发展的动态跟踪和更深入的了解。

此外,团队还设计了三种数据集增强策略,包括标签平滑、随机图像增强和基于自监督学习的正则化技术,以有效提高前沿模型的性能。

该技术可以使目标在复杂环境中脱颖而出,准确捕捉信息混乱的图像或视频中的目标,为识别和分析提供准确信息。

该研究成果被TPAMI期刊收录。

与实例级 ILSO 数据集 (a) 和 MS-COCO 数据集 (c) 相比,我们的 SOC 数据集 (b&d) 可以在由风景或相机视点变化引起的域移动下注释精细、平滑的边界行为。

发现问题也是团队研究的重点。

在鼎辉CVPR中包含的《Audio-Adaptive Activity Recognition Across Video Domains》(《跨视频域的音频自适应行为识别》)的研究中,团队提出了一种新颖的音频自适应编码器,利用丰富的声音信息来调整视觉特征,使模型能够在目标域中学习更多内容。

许多判别特征。

它通过引入音频注入识别器进一步消除了特定于领域的特征,并利用声音中的领域不变信息来实现有效的跨领域和跨模式交互。

此外,还引入了 actorshift 的新任务以及相应的数据集,以在行为外观显着变化的情况下挑战模型。

该技术增加了声音参数来识别物体活动,可以更准确地识别和分析物体的行为,在智慧城市应用中可以提供更准确的分析结果。

当很难在不同领域找到同一活动的视觉相似性时,我们的模型(红色)可以使用来自声音的额外提示来提高识别准确性。

基于自注意力的网络在图像描述方面取得了巨大成功,但仍然受到距离差异的影响。

敏感和低级瓶颈。

为了解决这个问题,团队在IEEE Transactions on Multimedia期刊上发表的《Multi-Branch Distance-Sensitive Self-Attention Network for Image Captioning》(《用于图像描述的多分支距离敏感自注意力网络》)研究中从两个方面优化了self-attention机制:一是距离敏感的self-attention方法(DSA),在SA建模过程中通过考虑图像中物体之间的原始几何距离来提高图像场景的理解;另一种是多分支自注意力方法(MSA),打破SA中存在的低秩瓶颈,并以可忽略的额外计算成本提高MSA的表达能力。

我们的方法(下排)和标准 Transformer 模型(上排)生成的注意力可视化和图像描述示例。

一些准确的单词用绿色标记,错误和不准确的单词用红色标记。

我们的方法允许更精确的描述。

2)提高识别效率为了提高识别效率,团队开发了新的算法框架和新的采样器,可以显着提高识别效率,并大大缩短训练时间。

在图像识别中,快速识别可以提高服务质量,减少延迟,让人们体验更智能的交互。

研究团队发现,大多数基于循环神经网络的视频对象分割(RVOS)方法采用基于单帧的空间粒度建模,视觉表示的局限性很容易导致视觉和语言之间的匹配不佳。

基于此,团队提出了一种新颖的多级表示学习方法,通过探索视频内容的内在结构来提供一组视觉嵌入,从而实现更有效的视觉语言语义对齐。

具体来说,它在视觉粒度上嵌入了不同的视觉线索,包括视频层面的多帧长期信息、帧层面的帧内空间语义以及物体层面的增强的物体感知特征。

其次,它还引入了动态语义对齐(DSA),可以更紧凑、更有效地动态学习和匹配不同粒度视觉表示的语言语义。

从实验结果来看,这项研究《Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation》(《具有语义对齐的多级表征学习用于参考视频对象分割》)推理速度很高,因此被纳入CVPR。

在视觉研究中,团队发现业界最流行的随机采样方法PK采样器对于深度度量学习来说信息量和效率不高。

因此,提出了一种可用于大规模深度度量学习的高效小批量方法。

这种采样方法称为图采样(GraphSampling)。

该模型的思想是在每个 epoch 开始时构建所有类别的最近邻图。

然后,每个小批量由随机选择的类别及其最近邻组成,以便学习信息丰富的示例。

该方法显着提高了重识别率,大大缩短了训练时间。

该技术是通用技术,可用于图像检索、识别等,该技术的主要目的是提高效率,是当前高负荷、信息化的智能领域不可或缺的技术。

快速分析和识别可以快速满足用户在一些图像检索和识别应用中的需求。

研究《Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification》 (《基于图采样的深度度量学习用于可泛化的行人重识别》) 也被收录在今年的 CVPR 中。

3)解决图像标注问题数据标注是一个重要的过程,传统的手工数据标注费时费力。

特斯联实现多项计算机视觉科研突破,成果入选CVPR、TPAMI等国际顶会顶刊

该团队想出了一项新技术来更有效地解决根本问题。

该研究被纳入今年的 CVPR,标题为《Category Contrast for Unsupervised Domain Adaptation in Visual Tasks》 (《视觉任务中无监督域适应的类别对比》)。

该团队提出了一种新的类别对比技术(CaCo),该技术在无监督域适应(UDA)任务的实例区分之上引入了语义先验,并且可以有效地用于各种视觉 UDA 任务。

该技术构建一个包含来自源域和目标域的样本的语义感知字典,每个目标样本根据源域样本的类先验分配给一个(伪)类标签,以便学习与 UDA 目标类别的精确匹配 -有区别但领域不变的表示。

与当前最先进的方法相比,简单的CaCo技术可以实现优越的性能,并且还可以作为现有UDA方法的补充并扩展到其他机器学习方法,例如无监督模型自适应、开放/部分设置适应等待。

该技术解决了传统监督学习需要大量人工标注的问题,并且比现有技术更加高效。

特斯联实现多项计算机视觉科研突破,成果入选CVPR、TPAMI等国际顶会顶刊

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 云技术服务公司“天和国云”获得近亿元A轮融资,由财新产业基金领投

    云技术服务公司“天和国云”获得近亿元A轮融资,由财新产业基金领投

    天和国云是云行业的领导者,定制云技术服务和应用解决方案。

    06-18

  • 大学生这个贫困县,在宁波做起了拉面生意,他去了80多家机构,都被忽视了,现在年薪900万

    大学生这个贫困县,在宁波做起了拉面生意,他去了80多家机构,都被忽视了,现在年薪900万

    韩军说,如果没有兰州拉面,我可能上不了大学。 韩军是宁波西北梦想电子商务有限公司旗下品牌伊穆之家创始人的品牌。 你可能没有听说过这家初创公司,但全国的兰州拉面店都知道清真餐饮服务品牌伊穆之家。 拉面经济年收入过亿,贫困孩子靠拉面上大学。 韩军出生于2001年,他的

    06-18

  • 鼎晖夹层IDC基金完成20亿元募资

    鼎晖夹层IDC基金完成20亿元募资

    6月29日消息,鼎晖夹层基金(以下简称“鼎晖夹层”)旗下数据中心(IDC)产业投资第一期基金(以下简称: (简称“IDC基金”))完成募资20亿元人民币。 作为鼎晖夹层旗下首支行业子基金,IDC基金也成为国内首支完成募集并专注投资数据中心行业的人民币基金。 自今年4月启动

    06-17

  • 中国电子科研投资基金投资微视觉传感布局MEMS光通信和智能制造领域

    中国电子科研投资基金投资微视觉传感布局MEMS光通信和智能制造领域

    投资圈(ID:pedaily)12月30日消息,近日,中国电子科研投资基金完成对MEMS无源光的投资芯片及股权投资无锡微视传感科技有限公司(Microvision Sensing),一家优秀的3D传感器件供应商。 南京诚亿投资参与了本次投资。 微视传感拥有MEMS微镜芯片、驱动IC、3D成像算法和系统集

    06-18

  • 他的得力助手相继离开,不忘初心的周航会继续守护一刀吗

    他的得力助手相继离开,不忘初心的周航会继续守护一刀吗

    简介:一刀被后来者从私家车市场老大哥的位置挤到了第四位,然后又迅速回到了第二位。 这背后有一个很多人看不到的故事:最大的辞职潮,多名高管跳槽,多个业务部门被迫解散。 虽然一到控股乐视网后势头迅猛,但此时一到已经发生了变化。 周航身边的得力助手助手相继离开,留

    06-18

  • 4.85毫米!最好的超薄拍照手机OPPO R5开售

    4.85毫米!最好的超薄拍照手机OPPO R5开售

    OPPO上个月发布的新品R5备受用户期待。 薄至4.85mm的机身厚度,五星级坚固金属框架,最快最安全的VOOC闪充,索尼IMX传感器结合施耐德认证镜头带来强大的拍照功能,再加上高通骁龙64位8核处理器, OPPO R5是目前最好的超薄拍照手机。 这款深受市场和用户好评的超薄拍照手机将于

    06-18

  • 韩媒:三星击败台积电,采用7纳米工艺生产特斯拉HW4.0处理器

    韩媒:三星击败台积电,采用7纳米工艺生产特斯拉HW4.0处理器

    据韩媒《韩国经济日报》援引多方消息称,报道指出,电动汽车制造商特斯拉的下一代自动驾驶汽车驱动处理器HW4.0将是三星击败台积电获得其生产订单。 报道指出,据一位知情人士透露,特斯拉和三星集团的半导体代工部门自今年年初以来一直在研究芯片设计和样品。 近日,特斯拉决

    06-08

  • 马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化

    马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化

    当你在ChatGPT或新bing中输入问题时,AI会调用它的云大脑,进行思考,并生成更合理的答案。 。 OpenAI在开发GPT的时候,就被反复提到,每一代的参数都变得越来越庞大,模型的规模也越来越复杂。 训练大规模语言模型需要具有巨大算力的GPU集群,而随着用户数量呈指数级增长,运

    06-21

  • 方正证券:判断二季度是滞胀高峰

    方正证券:判断二季度是滞胀高峰

    方正证券研报判断大宗商品价格上涨已经结束,二季度是滞胀高峰。 全球经济和通胀将会回落。 从本次经济周期的节奏来看,预计利润周期的低点可能出现在三季度。 货币政策方面,预计国内宽松货币政策将持续,美联储加息无论是利率还是汇率机制都不会给国内带来太大影响。 目前A

    06-18

  • 打造高考报名大数据平台,优卓获数千万B轮融资

    打造高考报名大数据平台,优卓获数千万B轮融资

    据投资界5月21日消息,优卓宣布完成数千万B轮融资融资。 投资方为浙江创想文化产业基金和苏州汇流山,本轮资金将主要用于产品研发和市场拓展。 据悉,优知智已累计完成4轮融资,领跑中学生教育规划细分市场。 天眼查显示,有智易成立于2007年,隶属于上海易格教育科技有限公

    06-18

  • “佳沃思”获近亿元Pre-A+轮融资,创始合伙人CCV

    “佳沃思”获近亿元Pre-A+轮融资,创始合伙人CCV

    投资社区(ID:pedaily)4月26日消息,医疗牙科数字化管理服务平台Jarvis宣布完成近亿元融资元元Pre-A+轮融资,本轮融资由创始合伙人CCV领投。 本轮融资将主要用于加速产品的市场迭代、完善供应链基础设施、构建更加自动化、智能化的管理工具。 佳沃思牙科成立于2001年,创始

    06-18

  • 2021阿里巴巴封神之战、宝马“互联网+汽车”赛道全球总决赛即将开幕

    2021阿里巴巴封神之战、宝马“互联网+汽车”赛道全球总决赛即将开幕

    根据《上海市智能制造行动(年)》发展规划,上海将全力打造两个世界级汽车智能制造产业集群和电子信息。 2020年7月,在浦东新区科经委、国资委的大力支持,金桥经济技术开发区管委会、上海金桥(集团)的共同推动下宝马集团与阿里云强强联手,启动全球首个“互联网+汽车”垂

    06-18