九游网页版登录入口官方(中国)NineGameSports·有限公司-九游体育娱乐网而容易与布景混为一体-九游网页版登录入口官方(中国)NineGameSports·有限公司
新闻中心
你的位置:九游网页版登录入口官方(中国)NineGameSports·有限公司 > 新闻中心 > 九游体育娱乐网而容易与布景混为一体-九游网页版登录入口官方(中国)NineGameSports·有限公司
九游体育娱乐网而容易与布景混为一体-九游网页版登录入口官方(中国)NineGameSports·有限公司
发布日期:2026-04-28 14:13    点击次数:168

让机器东谈主精确握起透明物体,这个难题终于被措置了。

而且如故仅靠一张图、单宗旨那种体式。

效果是这么的:

这便是由地瓜机器东谈主和中科院自动化所等单元共同提议的一项新蓄意——

MODEST,一个针对透明物体的单目深度估量和语义分割的多任务框架。

MODEST 算法框架当作通用握取模子的前置模块,即插即用,机动高效,且无需依赖出奇传感器。

况且仅靠单张 RGB 图像,便可收场透明物体的握取,效果上以致要优于其它双目和多视图的体式。

不错平方运用于智能工场、实验室自动化、灵敏家居等场景,镌汰开拓本钱并大幅晋升机器东谈主对透明物体的操作才调。

值得一提的是,这项蓄意也曾入选专家机器东谈主领域顶会ICRA 2025(IEEE 机器东谈主与自动化外洋会议)。

若何作念到的?

现时透明物体的握取中枢在于深度信息的获取,当今不论是深度传感器如故多视角重建的体式皆无法获取透明物体准确竣工的深度信息。

透明物体复杂的折射和反射特质给机器东谈主感知形成了很大阻扰。在大无数 RGB 图像中的透明物体每每阑珊明晰的纹理,而容易与布景混为一体。

此外,商用深度相机也难以准确捕捉这些物体的深度信息,导致深度图缺失或噪声过多,从而限度了机器东谈主在多个领域的平方运用。

为了措置透明物体感知难题,传统体式大多依赖特殊传感开拓或多视角图像,增多了时间和经济本钱,并每每受限于运用场景。

MODEST 单目框架初度打破了传统传感器处理透明物体时的限度,镌汰了开拓本钱和使用复杂度,提供了愈加高效、经济和浅易的透明物体感知决策。

△单目透明物体感知框架与其他体式之间的对比

MODEST主要聚焦于透明物体的深度估量,通过联想的语义和几何纠合的多任务框架,获取物体准确的深度信息,之后纠合基于点云的握取收罗收场透明物体的握取。

相当于在通用握取收罗前边增多一个针对透明物体的增强模块。

MODEST 模子的全体架构如图所示,输入为单目 RGB 图像,输出为透明物体的分割收尾和场景深度瞻望。

收罗主要由编码、重组、语义几何和会和迭代解码四个模块组成。

输入图像最初历程基于 ViT 的编码模块进行处理,随后重组为对应分割和深度两个分支的多表率特征。

在和会模块中对两组特征进行搀和和增强,终末通过屡次迭代迟缓更新特征,并取得最终瞻望收尾。

△基于语义几何和会和迭代计策的透明物体单目多任务框架

关于透明物体来说,语义分割任务不错为深度估量提供语义和高下文信息,而雷同深度估量不错为分割提供范畴、名义等几何信息。

为了充分挖掘两个任务间的互补信息,MODEST 算法框架构建了基于邃密力机制的语义几何和会模块,旨在同期晋升两个任务的性能。

△语义几何和会模块结构

当东谈主类不雅察透明物体等不显贵物体时,咱们东谈主类会倾向于先邃密物体的全体概括,然后是局部细节。受东谈主眼启发,MODEST 框架提议了一种由粗到细的特征更新计策,进一步晋升瞻望精度。

实验收尾

为了测试 MODEST 全新算法框架的检测效果,团队录取了透明物体领域两个影响力平方的公开仿真数据集 Syn-TODD和确切数据集 ClearPose。

在其上与当今开首进的透明物体双目体式 SimNet、多视图体式 MVTran 以及多任务体式 InvPT 和 TaskPrompter 进行对比实验。

两个大领域数据集皆领有越过 100k 的精采标注图像数据,况且包含了严重阻扰等顶点场景。

1、公开数据集上的定性和定量对比实验

△仿真数据集 Syn-TODD 上的定性对比收尾

△确切数据集 ClearPose 上的定性对比收尾

通过在两个数据集上的定性对比收尾不错看出,由于透明物体会很是地折射布景,况且在 RGB 图像中阑珊纹理,因此 SimNet、MVTrans 等体式无法取得令东谈主安闲的瞻望,从而导致深度图和分割掩膜的大面积缺失。

然而,通过有用的和会和迭代,在某些即使东谈主眼皆难以分析和判断的场景,团队的体式依然好像产生竣工和明晰的瞻望收尾。

△仿真数据集 Syn-TODD 上的定量对比收尾

△确切数据集 ClearPose 上的定量对比收尾

从表格中的定量对比不错看出,MODEST 算法框架在各项方针上皆要大幅越过其他通盘体式。

值得邃密的是,尽管只使用单张 RGB 图像当作输入,MODEST 在深度估量和语义分割方面皆要显明优于其他双目以致多视图体式。

况且在 Syn-TODD 数据集上,与排行第二的体式比拟,MODEST 算法框架在 RMSE 和 REL 两项方针有着越过 45% 的晋升,语义分割的精度也均越过了 90%。

2、确切平台握取实验

团队还将算法搬动到确切机器东谈主平台,开展了透明物体握取实验。

平台主要由 UR 机械臂和深度相机组成,在借助 MODEST 体式进行透明物体精确感知的基础之上,选用 GraspNet 进行握取位姿的生成。

在多个透明物体上的实验收尾标明,MODEST 体式在确切平台上具有精采的鲁棒性和泛化性。

One More Thing

值得一提的是,除了 MODEST 以外,地瓜机器东谈主主导研发的DOSOD 灵通词汇标的检测算法,也入选了 ICRA 2025。

MODEST 是通过动态语义领略框架晋升复杂场景识别准确率,而 DOSOD 则是纠合几何建模与语义分析时间优化透明物体操作精度。

两项时间着力均已在领域化生意场景中得到有用考据。

感有趣的小伙伴不错戳下方归拢了解细目哦 ~

MODEST 著述地址:

https://arxiv.org/pdf/2502.14616

MODEST 代码地址:

https://github.com/D-Robotics-AI-Lab/MODEST

DOSOD 著述地址:

https://arxiv.org/abs/2412.14680

DOSOD 代码地址:

https://github.com/D-Robotics-AI-Lab/DOSOD?tab=readme-ov-file

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿实践‍

附上论文 / 方式主页归拢,以及关系方式哦

咱们会(尽量)实时回话你

一键温雅 � � 点亮星标

科技前沿证据逐日见

一键三连「点赞」「转发」「防范心」

宽饶在辩驳区留住你的念念法!九游体育娱乐网