PP动态

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式

发布时间：2023-08-27 10:43人气：

　　今天，Meta 发布史上首个图像分割基础模型 SAM，将 NLP 领域的 prompt 范式引进 CV，让模型可以通过 prompt 一键抠图。网友直呼：CV 不存在了!

　　SAM 能从照片或视频中对任意对象实现一键分割，并且能够零样本迁移到其他任务。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图1)

　　1. 一种非常简单但可扩展的架构，可以处理多模态提示：文本、关键点、边界框。

　　而且，毫不夸张地说，SAM 已经学会了「物体」的一般概念，甚至对于未知物体、不熟悉的场景（例如水下和显微镜下）以及模糊的案例也是如此。

　　PP电子 app

　　此外，SAM 还能够泛化到新任务和新领域，从业者并不需要自己微调模型了。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图2)

　　最强大的是，Meta 实现了一个完全不同的 CV 范式，你可以在一个统一框架 prompt encoder 内，指定一个点、一个边界框、一句话，直接一键分割出物体。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图3)

　　对此，腾讯 AI 算法专家金天表示，「NLP 领域的 prompt 范式，已经开始延展到 CV 领域了。而这一次，可能彻底改变 CV 传统的预测思路。这一下你可以真的可以用一个模型，来分割任意物体，并且是动态的！」

　　英伟达 AI 科学家 Jim Fan 对此更是赞叹道：我们已经来到了计算机视觉领域的「GPT-3 时刻」！

　　分割（Segmentation）是指识别哪些图像像素属于一个对象，一直是计算机视觉的核心任务。

　　但是，如果想为特定任务创建准确的分割模型，通常需要专家进行高度专业化的工作，这个过程需要训练 AI 的基础设施，和大量仔细标注的域内数据，因此门槛极高。

　　为了解决这个问题，Meta 提出了一个图像分割的基础模型 ——SAM。这个接受了多样化数据训练的可提示模型，不仅能适应各种任务，而且操作起来也类似于在 NLP 模型中使用提示的方式。

　　SAM 模型掌握了「什么是对象」这个概念，可以为任何图像或视频中的任何对象生成掩码，即使是它在训练中没有见过的对象。

　　SAM 具有如此广泛的通用性，足以涵盖各种用例，不需要额外训练，就可以开箱即用地用于新的图像领域，无论是水下照片，还是细胞显微镜。也即是说，SAM 已经具有了零样本迁移的能力。

　　PP电子的官方网站

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图4)

　　Meta 在博客中兴奋地表示：可以预计，在未来，在任何需要在图像中查找和分割对象的应用中，都有 SAM 的用武之地。

　　SAM 可以成为更大的 AI 系统的一部分，对世界进行更通用的多模态理解，比如，理解网页的视觉和文本内容。

　　在 AR / VR 领域，SAM 可以根据用户的视线选择对象，然后把对象「提升」为 3D。

　　SAM 还可以在视频中定位、跟踪动物或物体，有助于自然科学和天文学研究。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图5)

　　一种是交互式分割，可以分割任何类别的对象，但需要一个人通过迭代微调掩码。

　　第二种是自动分割，可以分割提前定义的特定对象，但训练过程需要大量的手动标注对象（比如要分割出猫，就需要成千上万个例子）。

　　而 SAM 可以看作这两种方法的概括，它可以轻松地执行交互式分割和自动分割。

　　在模型的可提示界面上，只要为模型设计正确的提示（点击、框、文本等），就可以完成广泛的分割任务。

　　另外，SAM 在包含超过 10 亿个掩码的多样化、高质量数据集上进行训练，使得模型能够泛化到新的对象和图像，超出其在训练期间观察到的内容。因此，从业者不再需要收集自己的细分数据，为用例微调模型了。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图6)

　　(1) SAM 允许用户通过单击一下，或交互式单击许多点，来分割对象，还可以使用边界框提示模型。

　　(2) 在面对被分割对象的歧义时，SAM 可以输出多个有效掩码，这是解决现实世界中分割问题的必备能力。

　　(3) SAM 可以自动发现、屏蔽图像中的所有对象。(4) 在预计算图像嵌入后，SAM 可以实时为任何提示生成分割掩码，允许用户与模型进行实时交互。

　　研究人员训练的 SAM 可以针对任何提示返回有效的分割掩码。提示可以是前景 / 背景点、粗略的框或掩码、自由形式的文本，或者总体上任何指示图像中需要分割的信息。

　　有效掩码的要求仅仅意味着即使在提示模糊且可能指代多个对象的情况下（例如，衬衫上的一个点可能表示衬衫或者穿衬衫的人) ，输出应该是其中一个对象的合理掩码。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图7)

　　特别是，该模型需要在网络浏览器中 CPU 上实时运行，以便让标准人员能够高效实时与 SAM 互动进行标注。

　　虽然运行时间的约束，意味着质量与运行时间之间需要权衡，但研究人员发现，在实践中，简单的设计可以取得良好的效果。

　　SAM 的图像编码器为图像产生一次性嵌入，而轻量级解码器将任何提示实时转换为矢量嵌入。然后将这两个信息源在一个预测分割掩码的轻量级解码器中结合起来。

　　在计算出图像嵌入之后，SAM 可以在短短 50 毫秒内生成一段图像，并在网络浏览器中给出任何提示。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图8)

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图9)

　　在图像中指定要分割的内容的提示，可以实现各种分割任务，而无需额外的训练。

　　例如，根据 AR / VR 头显传来的用户视觉焦点信息，来选择对应的物体。Meta 通过发展可以理解现实世界的 AI，恰恰为它未来元宇宙之路铺平道路。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图10)

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图11)

　　例如，物体的 mask 可以在视频中被跟踪，通过成像编辑应用程序，变成 3D，或用于拼贴等创造性任务。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图12)

　　SAM 学会了关于物体是什么的一般概念 —— 这种理解使其能够对不熟悉的物体和图像进行零样本概括，而不需要额外训练。

　　除了发布的新模型，Meta 还发布了迄今为止最大的分割数据集 SA-1B。

　　这个数据集由 1100 万张多样化、高分辨率、保护隐私的图像，以及 11 亿个高质量分割掩码组成。

　　Meta 特别强调，这些数据是通过我们的数据引擎收集的，所有掩码均由 SAM 完全自动生成。

　　有了 SAM 模型，收集新的分割掩码的速度比以往任何时候都快，交互式标注一个掩码只需要大约 14 秒。

　　每个掩码标注过程只比标注边界框慢 2 倍，使用最快的标注界面，标注边界框大约需要 7 秒。

　　与以前的大规模分割数据收集工作相比，SAM 模型 COCO 完全手动的基于多边形的掩码标注快 6.5 倍，比以前最大的数据标注工作（也是模型辅助）快 2 倍。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图13)

　　然而，依赖于交互式标注掩码并不足以创建 10 亿多个掩码数据集。因此，Meta 构建了一个用于创建 SA-1B 数据集的数据引擎。

　　我们的最终数据集包括超过 11 亿个分割掩码，这些掩码收集在大约 1100 万张授权和保护隐私的图像上。

　　SA-1B 比任何现有的分割数据集多出 400 倍的掩码。并且通过人类评估研究证实，掩码具有高质量和多样性，在某些情况下，甚至在质量上可与之前规模更小、完全手动标注数据集的掩码相媲美。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图13)

　　SA-1B 的图片是通过来自多个国家 / 地区的照片提供商获取的，这些国家 / 地区跨越不同的地理区域和收入水平。

　　虽然某些地理区域仍然代表性不足，但 SA-1B 比以前的分割数据集在所有地区都有更多的图像和更好的整体代表性。

　　最后，Meta 称希望这些数据可以成为新数据集的基础，这些数据集包含额外的标注，例如与每个掩模相关联的文本描述。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图15)

　　Ross Girshick（常被称为 RBG 大神）是 Facebook 人工智能研究院（FAIR）的一名研究科学家，他致力于计算机视觉和机器学习的研究。

　　在加入 FAIR 之前，Ross 是微软研究院的研究员，也是加州大学伯克利分校的博士后，在那里他的导师是 Jitendra Malik 和 Trevor Darrell。

　　Meta 打造的这款 CV 领域的分割基础模型，让许多网友高呼「这下，CV 是真不存在了。」

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图16)

　　Meta 科学家 Justin Johnson 表示：「对我来说，Segment Anything 的数据引擎和 ChatGPT 的 RLHF 代表了大规模人工智能的新时代。与其从嘈杂的网络数据中学习一切，不如巧妙地应用人类标注与大数据相结合，以释放新的能力。监督学习强势回归！」

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图17)

　　唯一遗憾的是，SAM 模型发布主要是由 Ross Girshick 带队，何恺明却缺席了。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图18)

　　知友「matrix 明仔」表示，这篇文章进一步证明多模态才是 CV 的未来，纯 CV 是没有明天的。

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式(图19)

　　广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

分享到：

上一篇：浪潮信息发布大模型智算软件栈OGAI为大模型创新打造高效生产力PP电子游戏

下一篇：ChatGPT 访问量首次下滑“降温”背后大模型需要PP电子的官方网站冷思考

PP电子「中国」平台网站

咨询热线：

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式

PP电子「中国」平台网站

咨询热线：

PP电子 appPrompt 一键抠图Meta 发布史上首个图像分割基础模型开创 CV 新范式

微信号：WX39936微信二维码