整数有约 | 揭秘首个大规模桌面物体数据集TO_Scene的诞生

整数有约 | 揭秘首个大规模桌面物体数据集TO_Scene的诞生

关于首个大规模桌面物体数据集TO_Scene,从产品设计逻辑到团队背景,你想知道的一切都在这里,或许能帮助你正在进行的算法训练,提高模型3D语义分割和对象检测任务质量。

做人工智能的都知道,算法训练离不开数据集,斯坦福李飞飞老师的ImageNet驱动图像领域快速发展;ScanNet在三维视觉领域也带动了不少经典算法的产生;而在更为垂直的桌面物体数据领域,TO_Scene算是一批黑马,构建了首个大规模三维桌面物体数据集,对ScanNet缺失的桌面物体数据进行了补充。那么它的诞生过程是怎样的?为此整数智能采访了TO_Scene团队,对产品设计逻辑进行了更为深入的了解。


1

TO_Scene数据集概览

首先我们需要了解TO_Scene具体是什么,它是一个大规模的三维桌面物体数据集,共计20,740 多桌面场景,52个小物体类别,平均每个桌面摆放了约10个物体,包含台灯、碗、杯子、鼠标、耳机等真实桌面会放置的物体模型,可支持室内三维场景全尺度全方位物体检测和分割任务。由香港中文大学(深圳)助理教授韩晓光所带领的GAP-Lab团队推出。


整数有约 | 揭秘首个大规模桌面物体数据集TO_Scene的诞生

注:TO_Scene数据集概览


2

TO_Scene的诞生过程

“人工智能这么多年的发展告诉我们一个事实,数据集是非常重要的。”在 3D 室内场景解析应用中,理解桌面场景必不可少,韩晓光团队在研究中发现,目前在业界,3D 数据集中很少有关于小物体的数据集,哪怕最经典的3D据集ScanNet也只是专注在桌子、椅子等大物体,而桌面、床头、茶几或者厨房台面上基本都很空,这和我们真实生活的场景区别较大,这引起了韩晓光的兴趣。他调研过后发现,目前很少有团队去研究桌面三维场景,即便有,数据集规模也非常小,所以韩晓光当时下定决心做一个相对大规模的数据集,但是如何操作?

这就涉及到两个问题:物体怎么来以及怎么摆

· 物体怎么来的问题:可以通过ShapeNet和ModelNet这两个专门的物体模型的数据集获取;

· 怎么摆的问题:一个比较好的方式是设计一个交互的UI界面,以方便合作伙伴整数智能「提供人工智能数据服务的公司」将从ShapeNet和ModelNet数据集里找到的模型放到从在ScanNet数据集里找到的桌面上,但是物品也不能乱放置,标注员(由整数智能提供)需要根据自己的经验和逻辑去判断该放置在什么地方。


整数有约 | 揭秘首个大规模桌面物体数据集TO_Scene的诞生

注:方便标注员放置模型的交互界面


因为生活里会有不同的场景,比如:

· 整洁的家:床头柜上就有只有一盏台灯、一个遥控器,或者一本书;

· 杂乱的家:在这种场景下,都是毫无逻辑的物品混杂,比如床头柜上会将碗筷和其他东西搁在一起。

整洁的和混杂拥挤的数据标注,难度差别很大。一旦拥挤,采集到的数据遮挡会变的严重,而且点云就会缺失很多,对于理解更具有挑战性。所以,韩晓光团队除了设计了一个满足基本场景的TO_Vanilla数据集,还增加了一个更为复杂的、可能不遵循任何逻辑的TO_Crowd数据集。


整数有约 | 揭秘首个大规模桌面物体数据集TO_Scene的诞生

注:两组合成的数据集TO_Vanilla及TO_Crowd


然而,考虑到TO_Vanilla及TO_Crowd这两个都是数据集来自模型的数据,是合成的场景而非我们真实的生活场景,韩晓光教授当时想,如何证明在合成场景训练的模型也可以适用于真实场景呢?解决办法就是用合成数据集去训练模型,用真实数据集去测试数据集。

TO_Real这个真实采集的三维桌面物体数据集的角色,就是测试TO_Scene的真实价值,为此韩晓光教授团队也同时采集了100多个真实的桌面场景。


3

整数智能为韩晓光团队提供定制化服务

因为三维物体标注比较垂直,市面上很难直接找到现有的数据标注平台提供相应的服务,毕竟这类标注平台的需求非常细分,整数智能做了长期的数据标注服务,也只碰上了这一个科研项目需要这样特殊的标注工具,而如果采用动辙几个G的专业桌面软件,会非常不方便且拖慢项目进度。
在了解韩晓光团队的需求以后,整数智能认为,既然TO_Real对TO_Scene如此重要,不妨为韩晓光团队定制化专门的三维实物标注服务。决定开发以后,整数智能研发人员决定全情投入,为这个能推动桌面数据集发展的项目尽可能做力所能及的任何事。
本次合作中,整数智能提供了专业的标注团队以及部分标注工具,帮助韩晓光团队完成了数据集TO_Scene中的数据处理工作。


整数有约 | 揭秘首个大规模桌面物体数据集TO_Scene的诞生

注:整数智能为TO_Real提供专业的数据标注服务

4

计划之外桌面物体从6个增加到10个

在放三维物体的过程中牵出一个问题:桌面上到底要放多少物体才能让训练出来的模型更精准,又更贴合现实场景?这里To_Scene团队和数据服务商的合作有一个很有意思的化学反应,会互相基于对方的专业度会提出更为复杂的研究。
最开始韩晓光团队本来只想放置6个物体,但是在和整数智能合作的过程当中,团队发现原来整数智能的数据标注服务可以做到超出预期的程度,不仅能定制化上面所提及的三维标注工具,且标注员配合程度又非常高,交付效率、数据质量及团队专业度是其他数据服务所不能比的,基于这种信任,韩晓光团队就提出将放置的物体数量再增加到十个左右,给训练更加精确的模型以更多可能性。

测试下来后发现,在 TO-Scene 上训练的算法确实适用于真实的测试数据,而韩晓光团队的提出的桌面感知学习策略大大提高了最新技术 3D 语义分割和对象检测任务的结果。


整数有约 | 揭秘首个大规模桌面物体数据集TO_Scene的诞生

注:TO_Real上的3D语义分割测试结果

原创文章,作者:整数智能,如若转载,请注明出处:https://www.agent-universe.cn/2022/04/8389.html

Like (0)
Previous 2022-04-08
Next 2022-04-24

相关推荐