为了辅助人类,AI训练了“十八般武艺”
比如写诗词,画画,修图,剪辑视频等。
但是如果人类只想在凌乱的橱柜里找到一罐豆子呢?AI还能帮忙吗?
或许可以!
最近,加州大学的伯克利研究小组宣布了一项新的成果。他们开发了一个人工智能系统。
“该系统将预测目标对象位置的感知管道与机械搜索策略相结合,可以依次选择被遮挡的对象,并将其推到一边,以尽可能多地显示目标对象。”
简单来说,他们训练了一个AI机器人,在狭小的空间内清除障碍物,找到目标物体。
他们还提供了一个演示示例:
图中,AI机器人手臂成功清除了面前的白色和红色障碍物,发现了藏在背后的罐装豆子。据研究人员称,目前该系统的准确率可达87%以上。
看到这里你可能会想,为什么要开发这种看似简单日常的AI?
厨房里的 AI:LAX-RAY
实际上,复杂环境下的目标物体搜索是AI机器人技术的重点研究方向之一,其相关研究成果也不再少,但一般来说,对货架、厨房、壁橱等环境的研究很少。
然而,它在现实世界中有着广泛的应用。
比如医院药房的服务机器人可能需要从柜子里找耗材;工业机器人可能需要从仓库货架上寻找成套工具;或者零售店的服务机器人可能需要在货架上搜索所需的物品。
这项研究是由伯克利和谷歌研究团队联合进行的。谷歌研究人员说:
我们一直在研究AI在最日常活动场景中的应用,因为改进搜索和选择对象的方法是工业应用、科学实验、医疗保健、零售业务以及无数业务场景和制造流程的核心。
需要注意的是,上述看似简单的操作背后有着复杂的技术要求。
据研究人员介绍,医院、仓库或零售货架等场景由于空间有限和视觉障碍,给AI系统的搜索和检测任务带来了极大的挑战。
因此,他们提出了一种新的目标位置预测系统:LAX-Ray(横向访问最大占用率降低),支持寻找货架上被遮挡的物体,解决物体之间“密集接触”的操纵任务。
具体来说,基于该系统,研究人员提出了三种搜索策略:分布式面积约简、分布式熵约简和均匀搜索。
为了测试这些策略的性能,研究人员使用开放框架——一阶货架模拟器(FOSS)生成800个不同难度的随机货架环境,然后将LAX-RAY系统和嵌入式深度传感摄像头部署到Fetch机器人上进行测试。
结果表明,DAR和DER-mt优于DER。在仿真中,LAX-RAY系统的精度达到87.3%。在实际应用环境中,准确率达到了80%左右。这表明LAX-RAY能够有效地发现真实环境中被遮挡的目标物体。
技术原理及结果
LAX-RAY探测系统分为两个主要部分,一个是预测目标物体空间占有率的感知管道;二是利用这些信息有效解决搜索问题的搜索策略。搜索策略结合感知模块的输出结果和每一步的观察结果做出移除动作,从而有效地找到目标物体。
在进行感知管道预测之前,需要识别被遮挡物体的深度,并对目标物体进行分割。在这里,研究人员从Google scan数据集渲染了5个目标对象的3万多幅图像进行训练,其中约50%的图像包含完全遮挡的目标对象。
此外,研究人员还从一组独立的目标模型中渲染了10,000幅图像,这些模型与测试集具有相似的纵横比。
如图所示,测试数据集中被遮挡的物体类别不同,形状也不同。研究人员使用动量为0.99的随机梯度下降法训练了一个完全连通的网络(FCN)。FCN以目标物体分割掩膜和当前货架的深度图像作为输入,可以输出目标物体的位置分布密度图。
实验结果如下:
研究人员将随机物体放在白色架子上,并使用嵌入机器人的PrimeSense RGBD相机获取颜色和深度图像。在彩色图像中使用颜色检测算法,通过设置RGB值的阈值来检测被涂成绿色的目标对象。
下图是货架上随机排列的目标物体在完全遮挡情况下的预测结果。
在图中,有五个不同的目标对象(纵横比为1:2到433601)。左侧显示货架上随机物体的颜色和PrimeSense相机拍摄的深度图像。第一行显示来自预训练模型的二维占用率分布,第二行显示覆盖深度观测的一维占用率分布。
在实际应用中,各长宽比的预测值差异显著,再次验证了预训练模型的准确性。
基于感知到的位置信息,研究人员提出了三种搜索策略:
分布区域缩减(DAR):使用当前深度图像对可用操作进行排序,计算每个对象的对象遮罩,预测最小位置分布的重叠区域。
分布熵约简(DER-n):通过在当前深度图像上划分掩膜的深度值,可以预测p u t u n,得到新深度图像的占有率分布,从而得到预测状态。
均匀:通过DAR中的预测占用率分布来创建均匀分布,而不是具有遮挡对象的位置。
实验结果如下:
研究人员在800个场景中测试了der-n(n{ 1,2,3}) Dar和Uniform策略。目标对象使用纵横比为1:1的绿色立方体。如果在10次操作中至少显示了90%的目标对象,则该策略被认为是成功的。
从表中可以看出,DAR和DER-n策略的性能优于Uniform策略,尤其是当对象数量增加时。当遮挡物体数量增加时,所有策略的性能都会下降,因为AI机械臂显示目标需要更多的操作步骤。
当遮挡物体少于6个时,DAR的性能最好。而在6个以上物体的场景中,DER-2表现最好,达到最高的87.3%。与DER-2相比,DER-1的性能差是因为没有足够的目标信息可以预测,而DER-3的性能差是因为预测误差的积累。
也就是说,当遮挡物体数量较少时,预测误差占主导地位,这可以解释为什么DAR比DER-2性能更好。
以下是DER-1在9个障碍物中寻找目标物体的序列图。
顶部带绿色箭头的RGB图像,表示推送方向和距离。底部是占有率分布的深度图。
绘制在每个深度图像底部的占有率分布包括三个部分:前一个时间步长的预测分布(蓝色)、当前时间步长的预测分布(黄色)和两个分布的最小值(白色)。
总之,本研究证明了基于LAX-RAY系统的检测策略的可行性和准确性。研究人员表示,在未来的工作中,他们计划研究更复杂的深度模型,并使用平行于相机的推力为横向推力创造空间,或者使用气动吸盘拉动凌乱货架上的阻挡物体。
有关论文的更多细节,请参考:https://arxiv.org/abs/2011.11696
参考链接:
https://tech xplore.com/news/2020-11-ai-items-缢蛏-regions.html
https://venturebate.com/2020/11/26/robotics-research-propose-ai-the-locating-items-on-shelf-and-moves-objects-with-not-tipping-their/
http://ai.stanford.edu/mech-search/shelf/
2. 本站不保证所提供下载的资源的准确性、安全性和完整性,资源仅供下载学习之用!如有链接无法下载、失效或广告,请联系客服处理,有奖励!
3. 您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容资源!如用于商业或者非法用途,与本站无关,一切后果请用户自负!
4. 如果您也有好的资源或教程,您可以投稿发布,成功分享后有★币奖励和额外收入!
IO 源码网 » 服了!能干这件小事的AI,才是真厉害……
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
- 提示下载完但解压或打开不了?
- 找不到素材资源介绍文章里的示例图片?
- IO源码吧