澎湃Logo
下载客户端

登录

无障碍
  • +1

SAM图像分割大模型在遥感领域介绍(一) SAM模型介绍

2023-05-23 17:20
来源:澎湃新闻·澎湃号·湃客
字号

原创 ThinkGIS 数据可视化 AntV

ChatGPT作为通用人工智能大模型,广为人知。它的出现普及了大模型的概念,并推动了大模型的发展及业务应用落地。然而,尽管ChatGPT是通用模型,但它并非万能的,在专业领域仍需要领域专用的大模型来解决相关问题。举例来说,交通领域需要交通大模型来优化出行体验,而未来各个行业也将会出现各自专用的大模型来应对相应的挑战。

今天分享的是计算机视觉领域的大模型 SAM 。

01

SAM 简介

Segment Anything Model (SAM) 是由 Meta 开源的图像分割大模型,在计算机视觉领域 (CV) 取得了的新突破。SAM 可以在不需要任何标注的情况下,对任何图像中的任何物体进行分割。SAM 的开源引起了业界的广泛反响,仅几天内就获得了上万的关注(Star),被称为计算机视觉领域的 GPT。

SAM 的工作非常出色,其完成度极高,也非常贴心地开源了数据集、模型以及推理/部署代码。此外,他们还开发了一个网站演示,可以直观地展示这项工作给视觉基础模型领域和分割领域带来的巨大影响。

在线体验:https://segment-anything.com/demo

02

SAM 特点

1.SAM 提供多种 prompts 方式

目前官方的 demo 支持交互式标注,可以通过画框、鼠标点击来获取分割的区域,此外还可以一键分割一切,轻轻点一下,将分割结果实时展示出来,对不太确定的类别提供了多个有效的区域。

Hover & Click:在图像上用鼠标选择点,进行分割;

Box:在图像上画一个框,对框中的物体进行分割;

Everything:图像会自动生成一个均匀的 grid,然后对图中的所有物体进行分割。

point 提示分割

全量分割

多结果输出

2.SAM 的 prompts 可实现与其他系统的灵活集成

AR/VR 交互 Promopts

文本 Promopts

3. SAM 支持输出方式扩展

4.零样本泛化

SAM已经学会了物体的一般概念——这种理解使得它能够对不熟悉的物体和图像进行零样本泛化,而无需进行额外的训练。

03

SAM 架构特性

数据引擎

为了训练 SAM,研究人员收集了一个目前最大的分割数据集 SA-1B,这个数据集也开源了。大概有 1000 个子压缩包,每个压缩包 10G,完整的数据集大约 10T 左右。数据集包含 1100万图像和 11亿个 mask。当然,这么大的数据集不可能是手动收集标注的。SA-1B的收集主要分成了三步:

手动阶段:这个阶段主要是人工在公开数据集上进行标注的

半自动阶段:用迭代的 SAM 进行标注,让标注员重点标剩余的(不太突出)的部分

全自动阶段:在收集的数据上,用 SAM 标注

模型架构

图像编码器

Image encoder 就是特征提取器,把人类认识的数据转换成计算机能理解的向量。

用来对输入图像做 embedding,参数量比较大,但是对同一张输入图像只需要计算一次 embedding,对于不同的 prompt 可以重复使用 image embedding,从而降低推理压力。

提示编码器

Prompt类型:point, box, mask, 文本,目前官方并没有开放文本 输入的能力的

掩模解码器

decoder,要利用encoder得到的特征来输出结果,支持实时操作--Lightweight解码器

根据前两步得到的 image embedding 和 prompt embedding 生成有效的多个 mask 和 每个 mask 对应的置信分数。Prompt encoder 和 Mask decoder 都是轻量级的结构,参数量较少,可以在 web 端快速推理。

04

SAM 对领域影响

数据标注领域大大解放生产力

数据标注可实现自动标注和和半自动标注。效率大大提升

算法应用门槛降低、不需要算法团队也可以研发应用

自动抠图软件、自动标注、证件照处理等应用的开发门槛降低,端侧开发工程师有更多的机会开发小的应用。

一些产品技术的核心竞争力,成为业界标配

提升 CV 界整体水位SAM给CV提供了很好的平台,将会让许多原先不太容易做的下游任务成为可能。SAM 做了图像分割的基础工作,推动更多应用层

05

SAM 应用领域

SAM 模型可以用在数据标注及标注相关的衍生应用,也可以其他大模型的结合。

图像分割任务

SAM 与其他大模型的结合,图像处理相关。

视频分割任务

医学图像分割任务

从医学影像中提取临床相关信息。例如,放射学家可以使用机器学习来增强分析,通过将图像分割成不同的器官、组织类型或疾病症状。这可以减少运行诊断测试所需的时间。

图像修复任务

3D任务

图像生成任务

遥感任务

移动物体检测任务

OCR任务

更多应用案例:

https://github.com/facebookresearch/segment-anything

06

SAM 前端使用

ONNX

ONNX代表Open Neural Network Exchange(开放式神经网络交换)。它是一种用于表示机器学习模型(特别是神经网络模型)的开放格式,旨在提供不同深度学习框架之间的互操作性。ONNX使得在流行的深度学习框架之间交换模型成为可能,例如TensorFlow、PyTorch等。

ONNX Runtime

ONNX Runtime是一个开源的运行时引擎,用于加载、优化和执行使用ONNX格式表示的机器学习模型。它旨在提供高性能、跨平台的推理(inference)支持,并支持在多种硬件加速器上进行部署。

ONNX Runtime Web

ONNX Runtime Web是ONNX Runtime的一个特殊版本,专门为在Web浏览器中执行ONNX模型而设计。它使开发人员能够在客户端环境中直接加载和运行使用ONNX格式表示的机器学习模型,而无需依赖于远程服务器或云服务。

import { InferenceSession, Tensor } from 'onnxruntime-web';

SAM 模型提供了 ONNX 格式模型导出能力,因此在前端侧可以模型推理分割,开发体验更好的图像应用。

下篇文章将详细介绍 SAM 大模型在遥感领域的应用

视频效果

原标题:《SAM 图像分割大模型在遥感领域介绍(一) SAM 模型介绍》

阅读原文

    玻璃钢生产厂家不锈钢水景玻璃钢人物雕塑厂家惠州端州玻璃钢人物雕塑福建水果玻璃钢雕塑制作十二生肖玻璃钢雕塑品牌浙江个性化玻璃钢雕塑销售厂家白城市玻璃钢雕塑定制好看的玻璃钢艺术雕塑太和玻璃钢雕塑厂家扬州玻璃钢雕塑订做淮南人物玻璃钢雕塑订做价格色泽素雅的玻璃钢花盆赣州抽象玻璃钢雕塑西宁玻璃钢景观雕塑庆阳户外玻璃钢雕塑公司上海艺术商场美陈生产厂家玻璃钢粉红豹雕塑厂家泉州安康玻璃钢头像雕塑商场美陈绿化动物玻璃钢雕塑厂家直供通州玻璃钢雕塑厂家电话多少玻璃钢雕塑为什么这么火树脂玻璃钢雕塑怎样调配山西人像雕塑玻璃钢玻璃钢雕塑加工哪里有商场美陈布置木门广州玻璃钢雕塑摆件厂家直销绵羊玻璃钢雕塑铜陵景观雕塑玻璃钢甘肃玻璃钢雕塑仿真牛玻璃钢运动雕塑哪里买香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

    玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化