转型!家电集体出逃巨头
06-17
对于每个看过漫威的人来说,钢铁侠头盔无疑是每个人都想拥有的装备。
通过这款头盔,你可以一目了然地识别和标记你面前的所有人和物体,并看到这些事物的独特数据和特征。
现在,Meta 正在将这一科幻愿景变为现实。
当巨头与巨头目前在 AIGC 领域激战时,Meta 却悄然在人工智能的另一个重要分支——计算机视觉领域有了大动作。
周三,元研究部发布了一篇名为《Segment Anything》的论文,介绍了一种新的 Segment Anything Model (SAM),可用于识别图像和视频中的对象。
即使是人工智能从未接受过训练的物品。
所谓“切分”,用最通俗的话说,就是抠图。
但Meta这次展示的人工智能抠图能力可能远比你想象的要强大。
甚至被认为是人工智能领域计算机视觉的“GPT-3时刻”。
一键识别图片和视频,随心所欲。
虽然智能剪切并不是什么新鲜事,但如果你尝试过使用P图软件剪切图片和更换背景,你会发现想要快速剪切照片并且剪切准确自然其实是一件费时费力的事情。
艰巨的任务。
从技术角度来看,“裁剪”数字图像一直是计算机视觉领域的一项经典且复杂的任务。
关键的难点在于识别的时间和准确性。
Meta此次发布的SAM可以说提供了近乎完美的解决方案。
对于任何照片,Meta 都可以快速识别照片中的所有物体,并智能地将它们分割成不同的形状和板块。
您可以单击图片中的任何项目来单独处理它。
这个SAM的一个重大突破是,即使是训练过程中从未遇到过的物品和形状,也可以被人工智能准确地识别和分割。
除了简单地识别图片中的物体之外,这次SAM还支持用户使用各种交互方式来分离出想要的物体。
例如,您可以通过将鼠标悬停在对象上来自动定位对象的轮廓。
即使在人眼难以快速区分的颜色或反射非常相似的图片中,SAM 也可以非常准确地找到轮廓边缘。
再比如,你也可以直接通过输入文字进行查询,AI可以帮你在图片中找到并标记出你要找的文字对象。
不仅是静态图片,无论是视频中的物体,SAM都可以准确识别并快速标记物体的类型、名称、尺寸,并自动用ID记录和分类这些物体。
Meta表示,这项技术未来将广泛与AR/AR耳机结合。
这听起来是不是有点像钢铁侠头盔?看到这里你是不是已经感觉棒极了?别担心,Meta这次又有大动作了。
除了从图像中准确分离对象之外,SAM 还可以支持对象的编辑。
换句话说,你可以改变这个模特的衣服,也许改变颜色和尺寸,然后把它换到另一个模特身上。
您还可以从静态图片中“剪出”椅子,进行3D渲染和编辑,并使其立即从图片中移动。
然后您可以更改形状或执行更多创意操作。
GPT-3时刻在计算机视觉领域开辟了更广阔的应用空间。
Meta发布SAM后,立即引起了广泛关注。
甚至在很多人工智能行业人士眼中,SAM的出现可以说是计算机视觉领域的GPT-3。
时间。
NVIDIA人工智能科学家Jim Fan表示,SAM这次最大的突破在于,它基本上已经能够理解“物品”的一般概念,甚至对于未知物体和陌生场景(例如水下和显微镜中的细胞)也是如此。
可以更准确的理解。
因此,他表示相信SAM的出现将是计算机视觉领域的GPT-3时刻。

不仅Jim有这样的观点,一些人工智能研究专家甚至说SAM之于计算机视觉就像GPT之于大型语言模型。
昨天SAM刚发布,很多人就立即上手测试。
硅星人浏览一圈,发现不仅满屏基本都是惊叹之人,而且一些网友还根据自己的工作领域,为SAM开辟了更广阔的应用空间。
当有人上传包含许多复杂元素的图片后,SAM 可以毫无压力地识别它。
无论是近景还是远景,大量复杂细微的元素基本都能准确识别。
一些自然科学研究人员将SAM与卫星图像结合起来,称SAM可以很好地识别和找到他标记的特征类型。
神经外科和影像学专家在脊髓血管疾病的病例档案中使用了SAM,认为SAM对于帮助判断和分析病情非常有帮助。
一位生物学家输入了显微镜下组织的图片。
即使图片中的形状特征不规则,借助零样本技术,SAM也可以自动识别多细胞结构中的腺体、导管、动脉等。
生物学家认为,SAM的输出结果非常接近完美,可以节省未来大量的手动注释时间。
也有骑行爱好者将地图与SAM结合起来,认为可以帮助自己以后更快、更高效地标记地图。
基于数万张照片的训练,模型和数据全部开源。
总体而言,与过去的一些计算机视觉模型相比,SAM 在几个方面都有显着的改进和差异。
首先,SAM与Prompt进行了创新性的结合。
它可以接受各种输入提示,例如单击、框选择或指定要分割的对象。
该输入不是一次性命令。
您可以继续对图像发出不同的命令以达到最终的编辑效果。
这也意味着此前用于自然语言处理的Prompt模式也开始应用于计算机视觉领域。
此外,SAM 还接受了包含 10,000 张图像和 11 亿个掩模的海量数据集的训练,这是迄今为止最大的分割数据集。
该数据集涵盖了广泛的物体和类别,例如动物、植物、车辆、家具、食物等。
这些图像的分辨率达到×像素,平均每张图像大约有一个掩模。
这次 SAM 使用轻量级掩码解码器,每次提示只需几毫秒即可在 Web 浏览器中运行。
SAM 在各种分割任务上具有很强的零样本性能。
零样本意味着 SAM 无需针对特定任务或领域进行任何额外的训练或微调即可分割对象。
例如,SAM 可以在没有任何事先知识或监督的情况下对面部、手、头发、衣服和配饰进行分割。
SAM 还可以以不同的方式分割对象,例如红外图像或深度图。
SAM的训练数据集是OpenImage V5的6倍。
Meta表示,公司内部已开始使用SAM相关技术,用于Facebook和Instagram等社交平台上的照片标记、内容审查和内容推荐。
之后,生成式人工智能作为“创意辅助”也将作为今年的重点优先事项纳入更多 Meta 应用中。
这次,可能最让很多业内人士惊讶的是,SAM模型和庞大的训练数据集都开源了!换句话说,目前任何人都可以在非商业许可下下载和使用 SAM 和数据。
Meta表示,此举旨在进一步加速业界对图像分割以及更通用的图像和视频理解的研究。
Meta还预测,随着SAM的演进和发展,这项技术未来可能会成为AR/VR、内容创作、设计等更多领域的强大辅助工具。
作为一种新兴的研究模型,目前使用SAM的门槛其实并不高。
即使你是一个完全不懂AI的普通用户,也可以在segment-anything平台上亲身体验它神奇的抠图功能。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-08
06-17
06-18
06-18
06-18
最新文章
首先告诉我什么是智能汽车!
盲盒明星卡的暴利与泡沫:2元卡卖700万,直播卖卡月入百万
黑色星期五轰轰烈烈地回来了,结果这些中国企业扛起了全场
锂电池隔膜疯狂扩产:兴源材料欲夺回C位?
当我考上缅语专业时:凌晨三点我还在走廊里背单词,毕业后,我不仅仅是一名翻译者
被遗弃,被收获?老年人上网到底有多难?
海外日报 -今年,我国自主研发游戏海外实际销售收入实现两位数增长;三星电子正式成立机器人业务团队36氪海外·15分钟前
腾讯音乐:爱、相信、坚持