统一细粒度感知!北大&阿里提出UFO:无需SAM,16个token让MLLM实现精准分割
- 2025-03-25 10:23:00
- 刘大牛 转自文章
- 477
论文标题:UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
论文链接:https://arxiv.org/abs/2503.01342
开源代码:https://github.com/nnnth/UFO
开源模型:https://huggingface.co/kanashi6/UFO
和分割提示
,模型生成文本响应
以及相应的文本特征
和图像特征
:
中提取与<MASK>标记对应的掩码标记特征
。然后通过缩放点积计算掩码标记特征
与图像特征
之间的相似性。检索正分数以形成二值掩码
。该过程表示为:
表示相似性分数,
是指示函数,将相似性分数转换为二值掩码。
,下采样后的图像特征为
,模型需要自回归地预测
个<MASK>标记,其特征表示为
。每个标记对应于 NxN 上采样网格中的一个位置,如上图(b)所示。
,计算其与视觉特征
的相似性,得到
然后,这些分数被连接并重塑为上采样后的相似性图:
中检索正分数,以生成上采样后的二值掩码
。默认情况下,N 设置为 4,预测 16 个<MASK>标记,这将输出掩码上采样 4 倍。
发表评论
文章分类
联系我们
| 联系人: | 透明七彩巨人 |
|---|---|
| Email: | weok168@gmail.com |
| 网址: | ai.tmqcjr.com |