新模型接连炸场AI视觉迎来GPT-3时刻，微美全息(WIMI.US)先声夺人进入爆发期快消息

来源：中关村在线　2023-04-24 13:57:59

短短一周不到，视觉领域接连迎来新模型“炸场”，图像识别门槛大幅降低——这场AI热潮中鲜见动静的Meta(META.US)终于出手，推出Segment Anything工具，可准确识别图像中的对象，模型和数据全部开源。

据悉，Meta的项目包括模型Segment Anything Model(SAM)、数据集Segment Anything 1-Billion mask dataset(SA-1B)，公司称后者是有史以来最大的分割数据集。

(资料图)

引起业内轰动的便是这一SAM模型，正如名字“Segment Anything”一样，该模型可以用于分割图像中的一切对象，包括训练数据中没有的内容。

在交互方面，SAM可使用点击、框选、文字等各种输入提示(prompt)，指定要在图像中分割的内容，这也意味着，用于自然语言处理的Prompt模式也开始被应用在计算机视觉领域。并且对于视频中物体，SAM也能准确识别并快速标记物品的种类、名字、大小，并自动用ID为这些物品进行记录和分类。

AI视觉迎来GPT-3时刻

对于SAM工具，英伟达(NVDA.US)人工智能科学家Jim Fan将Meta的这项研究称作计算机视觉领域的“GPT-3时刻”之一——其分割方法可以通用，可对不熟悉的物体和图像进行零样本泛化，初步验证了多模态技术路径及其泛化能力。

进一步来说，SAM可以灵活集成于更大的AI系统。例如，理解网页的视觉和文本内容;在AR/VR领域，将头显用户视线作为提示来选择对象，然后将其“提升”到3D中;对于内容创作者，SAM可提取图像区域以进行拼贴或视频编辑;SAM还可通过定位动物或物体在视频中进行研究和跟踪。

AI视觉有望飞跃式提升

公开资料显示，计算机视觉模拟大脑完成对图像的处理和解释，实现对相应场景的多维理解。以图像、视频为代表的视觉数据是互联网时代信息的主要载体之一，赋以人工智能模型感知并理解这些海量的视觉数据的能力，有助于提高人工智能自主适应环境的能力。

作为人工智能(AI)和深度学习的子领域，计算机视觉可训练卷积神经网络(CNN)，以便针对各种应用场合开发仿人类视觉功能，利用图像和视频进行数据分割、分类和检测。

总之，随着视觉技术、深度学习、高精度成像等技术的持续发展，视觉人工智能的应用场景将持续扩展。视觉人工智能无论在速度、精度、还是环境要求方面都存在着显著优势，能够替代人类视觉，更好的助力工业自动化、各行各业智能化的发展。

推荐DIY文章

精彩新闻

新模型接连炸场AI视觉迎来GPT-3时刻，微美全息(WIMI.US)先声夺人进入爆发期 快消息