您当前的位置:首页 >> 装修攻略

斯隆奖新晋奖得主宋舒然:从视觉出发,打造机器人之「眼」

2025-05-08 10:37:11

会提前规画职业其发展,像我这样羡慕继续做分析的讲授喜反而不多,所以我在大讲授本科时的科研机则会也非常多。」

大讲授之前,宋舒然钟爱参与公开大讲授人团体(HKUST Robotics Team),还在2011年象征性团体参与了一年一度的的国际性人预赛——ABU Robocon。那一年,宋舒然与置计团队赢得了澳门地区的中复赛,象征性澳门去曼谷参与资格赛。

「深刻印象以后,曾经人的分析从前面,最难的也是集成电路图象的部分。虽然我的从业者不是集成电路图象,但我在那个工序以后也讲授到了不少科讲授,比如图象监控与扫描。」宋舒然回想道。

除了参与人团体,宋舒然还在大三那年(2012年)参与了公开大讲授与美国麻省理工讲授院(MIT)的暑期进修建置项目。「那一年是第一届,申请的人并不多,所以我就并不幸运地赢取了这个机则会。」

虽然只有短短一个暑假,互换之前参与分析的以下内容也相当基础,但整个工序给宋舒然留下来了深深的深刻印象。

宋舒然昨天,曾经她每天都则会去MIT CSAIL的大厦,每天在路上都能碰不见形形的人。在这栋外观貌似的大厦从前,有很多继续做人分析的人,她每天都可以在大厦从前看见各种各样古怪的人,「分析者不时地检查和着什么」,整个分析气氛并不出名。

曾经她的聘请导师是图形讲授代课题的大神 Frédo Durand。宋舒然昨天,虽然 Frédo 是一名并不驰名、事物多种不同的系主任,但还是则会不厌其烦地腾借助于教研时间聘请进修们研读目标授代课,与他们固定时间开则会、解答确实。在这个工序以后,宋舒然也讲授到了许多图象图象的科讲授。

原先宋舒然只是对分析感兴趣,但这次前往MIT互换的经历使她不甘心了读博的决心:

「刚上大讲授时我并没就让好此后要读博,或者在讲授术代课题有多大的其发展。但到了MIT,认识的讲授喜都是PhD,他们继续做的分析并不引人则有目,继续做分析的工序好像并不震撼,让我开始说借助于我好像也很就让去继续做分析。」

2、请回答2015:突破3D图象

2013年,宋舒然加入耶鲁大讲授的集成电路图象与人科学研究所(集成电路图象代课题的曾为华人语种讲授家邓嘉也在协同主导该科学研究所)修读哈佛大讲授,曾于学成肖健雄(2016年离开爱荷华去创业)与Thomas Funkhouser。据悉,Thomas Funkhouser每年均只招收1-2名西安师范大讲授。

耶鲁大讲授最带动宋舒然的一点是它小得多的科学研究所规模,和与之带来的能与系主任顺利进行非常多交流的机则会。

读博之前,宋舒然的分析以下内容聚焦在集成电路图象。虽然大讲授本科时继续做过重力场监控建置项目,但宋舒然回想,在刚开始读博时,她的图象基础是相比较薄弱的。

在导师的聘请下,她延用大讲授本科中后期的研读,先是分析3D重力场扫描与监控。曾经恰逢苹果公司放借助于一个一新3D问觉胶卷(Kinect 3D Camera Sensor-System),他们再思考究竟能用这些新置备,将2D重力场扫描伸展到3D重力场监控。

2014年前后,集成电路图象代课题的一个举足轻重分析朝著就是2.5D到3D的重力场辨识与扫描监控。宋舒然从2013年开始分析,恰好跟上了这一狂潮,加上个人的后天尽力,她的西安师范大讲授涯也因而比相当多数人的茁壮要迅速得多。

2015年是宋舒然在集成电路图象分析上的「丰收年」。那一年,她在集成电路图象竖则发表演说刊载了4篇较高引讲授术著只用,篇篇经典,而彼时距离她入讲授哈佛大讲授才不过两年时间:

宋舒然对AI新招数术撰文简介,她第一次保持联系广度研读是在“3D ShapeNets: A Deep Representation for Volumetric Shapes”这篇实习以后,经汤晓鸥与吴志荣的追随初阶。曾经,就读于澳门以后文大讲授的吴志荣到爱荷华互换,宋舒然与他由此结识。

「那时候广度研读还没那么火神。2D图象开始火神上去,但把广度研读分析方法于3D图象的分析还依然没。我曾经实质上没继续做过广度研读的分析,只是继续做过一些非常记事统文化的2D辨识与扫描。因为志荣在汤晓鸥的组从前继续做了很多广度研读的分析,所以我们就把他拉过来两兄弟协力。」宋舒然回想道。

开拓性的实习往往艰困重重。宋舒然昨天,曾经他们在协力的工序以后碰不见了很多紧迫,其以后最主要的紧迫是没开花结果的机器研读库或软件系统去背书广度研读管理系统的搭成,「只有贾扬青明确提借助于的Caffe,而且非常中后期的Caffe并不背书集成电路图象的操纵」。

所以他们曾经的分析重点就置放了如何共同开发管理系统、将2D工具转化为可以不能接受3D数据集上。他们曾经的就让法本来并不最简单–从2D pixel 也就是说方式将分解成 3D voxel 的也就是说方式将。虽然直到现在似乎这个工具有很多显着的弱点(必须大值的RAM自由空间), 但好处是可以沿用很多记事统文化的2D 工具,比如微分。

这是第一个急于通过广度研读工具将2.5D伸展到3D上的图象实习。在此以后,广度研读多用在2D图象或自然语种执行上。「3D ShapeNets」首次展示了广度研读管理系统如何研读外观也就是说的工序,且共通性强,可以分析方法在多个各不相同的侦查上,在集成电路图象代课题产喜了深深影响的受到影响。

对于宋舒然来说,这个实习既是她分析喜涯以后的一个转折点,也是启发她在分析以后运用于「最简单而较高效」的工具论的起点:

「它很最简单,但并不较高效,唯一的限制是对算力的无需求加大,因为数据集的维度改善,测算值也则会渐次增长速度。此外,这是我第一次分析3D,我此后的许多实习都延用了这个建置项目的idea(论点),即用3D广度研读管理系统继续做外观也就是说。」

凭借在集成电路图象朝著(更是是数据集驱动的3D桥段表达借助于来)的一系列借助于色实习,宋舒然获2015年Facebook西安师范大讲授特别讲授位。她的实习攀上爱荷华分析校刊,还入中选了「爱荷华25岁以下创新25人」。

3、从图象到人

人对表象在世界上的问觉比率依赖于图象以后的3D自然语种桥段完成招数术。宋舒然在3D图象上的分析突破打下基础了她兼职人图象分析的基础。

从2016年明确提借助于「Deep Sliding Shapes」后,她就开始在分析图象之近百探求如何用3D图象提较高人放理并能的重力场的灵活性。彼时,集成电路图象时是越来越多地从分析单个静止图象转向表达借助于来摄像机和自由空间数据集,对人的智能改善是造就直接影响。

图则有:宋舒然在耶鲁大讲授分析的人(“Robot In a Room: Toward Perfect Object Recognition in Closed Environments”)

就让象一下,如果一个人要打扫浴室,那么它既必须有自由空间导航灵活性、究竟移动到哪从前,也必须辨识借助于浴室以后的各不相同重力场,才可以可执行扫地、收拾、校对等侦查。

这时,人就必须表达借助于来两个一般来说的静电邮件:第一一般来说是借助人与并能交友,可以辨识移动的开放自由空间,并相对于要操纵的重力场对象;第二一般来说及以上的静电邮件则使人了解一个重力场是什么,并适用该重力场来可执行侦查。

在这个情况上,过去的分析趋于将两者分开,划分为「桥段完成」与「对象标有」。但2017年,宋舒然与置计团队明确提借助于了「SSCNet」管理系统,通过从单个2D图象喜成桥段的原始3D透露与桥段对象的标有,将两者相辅相成上去,争得了非常佳的工具精准度。

尽管仍是从3D图象借助于发,但这项实习毫无确实了宋舒然此后在分析人图象上的一个举足轻重价值观:人通过与表象在世界上的交友以后了解在世界上。比如,即使一个浴室从前的椅子远处部分被书桌挡住,但如果人能够将其对椅子外观的原则上辨识与浴室布局相相辅相成,那么它也能判断书桌对面的外观是椅子。这类预期的比率则会大幅度改善。

图则有:在「SSCNet」以后,只必须输入「书桌」的图象,就可以预期书桌周边的重力场摆放

在3D重力场扫描与监控上继续做了许多实习后,2017年,宋舒然与MIT的人置计团队协力,两兄弟参与了南美人巡回赛——Amazon Picking Challenge,开始尝试图象与人的「独创相辅相成」。

「我们最开始协力的就让法并不最简单。他们是继续做人的,我们是继续做图象的,我们把两边的管理系统合上去就可以去参与预赛。我们第一年也无论如何是这么继续做的。」宋舒然对AI新招数术撰文圣诗。

不过,这种「粗鲁搭配」的继续做法并没争得不太好的精准度。

2017年,他们协力的方式将是:由宋舒然的集成电路图象组先假设一个要反向的工具结果(如重力场姿势),然后再由MIT的人组通过图象反向的工具去继续做姿势规画(motion planning),测算人如何可以捉取目标重力场。

但这次的协力并不较高效。爱荷华与MIT位于各不相同的和城市,两个置计团队彼此间的交流主要是通过邮件记事字符串,宋舒然置计团队的图象工具过了一个月后才置放MIT的人上试制。

在试制的工序以后,他们也发掘借助于了许多情况,比如:宋舒然置计团队所明确提借助于的图象工具并不太快,导致整个管理系统也缓太快;可分析方法于军事训练的标则有数据集极其有限,假设跑回不上去;工具精度不够,对于集成电路图象来说,偏差在5度5厘米以内的工具精度已是精准度极好,但当这个偏差被真时是分析方法在人操纵上时,却意味著带来整个人状况的崩溃。

所以,2017年的预赛以后,他们只争得了第三名的战绩。但是,这次的协力也激起了宋舒然对人图象的分析热忱,他们发掘借助于了许多引人则有目的情况,渐次而来了许多改善管理系统的就让法,于是要求继续协力参与2018年的预赛。

这一次,宋舒然和整个置计团队对重力场光环的工具顺利进行了重新相对于,仍然适用以后间的重力场光环只用预期,而是如此一来从图象借助于发去预期人不应无视怎样的姿势。如此一来,整个工具管理系统的运动速度有了大幅改善,而且非常加共通。

南美巡回赛的以下内容是:人要从一个上装了各种重力场的木箱从前挑中选借助于目标重力场。这时,木箱从前的重力场彼此间意味著彼此遮挡,则会挡住人的远处。

针对这个情况,宋舒然置计团队当是了以后「先辨识重力场」的工序,而是置为「先捉取重力场」,把重力场先为借助于来再辨识。这时,人只必举凡道重力场的哪个指甲非常易捉取,而无需判断重力场是什么,管理系统的鲁棒性也大大加强了。

在加以改进工具后,他们的人捉取运动速度较快改善,获了2018年南美捉取人巡回赛的亚军,还获2018年南美最佳操纵管理系统讲授术著只用特别奖。

自此以后,宋舒然也月走回了用集成电路图象借助人问觉化讲授在世界上、与化讲授在世界上交互的分析道路。

4、最简单,但较高效

2018年,宋舒然从耶鲁大讲授获集成电路哈佛大讲授讲授位,后加入哥伦比亚大讲授集成电路系转任现职系主任。问到为何同样哥大,她给借助于的为由是:

「我同样哥大的一个举足轻重情况是位处。我还是羡慕待在和城市从前。我是在西安长大的,然后去了澳门读大讲授。去了爱荷华后,我就发掘借助于我不适合在一个小镇子从前喜活,所以我就就让回到大和城市,就中选了哥大,因为它在旧金山。」

转任教席后,宋舒然在人图象的分析上屡借助于全面性,三年内接连摘下RSS 2019最佳管理系统讲授术著只用特别奖、T-RO 2020最佳讲授术著只用特别奖、CoRL 2021最佳管理系统讲授术著只用特别奖,相关实习还获了IROS 2018、RSS 2019、CVPR 2019、ICRA 2020等竖级则会议的最佳讲授术著只用提名。

2018年,宋舒然置计团队延用南美巡回赛的思路,进一步分析人在「放」与「捉」两个姿势上的相互配合。尽管提升研读在曾经很火神,但宋舒然的这个实习首次在人图象分析以后如此一来引入了提升研读工具,并获了IROS 2018最佳问觉人讲授术著只用特别奥斯卡金像奖。

「曾经我们的更进一步是能把重力场捉上去。『捉』这个姿势不太好风险评估,只要能捉上去就是positive reward(持续性特别激励)。但『放』这个姿势不能风险评估,什么样的『放』才已是好的『放』?所以我们就运用于提升研读工具,包括一个好的风险评估给定去假设『放』,再次只必须编纂一个之后特别激励(即放的姿势能借助捉取重力场)才会。」宋舒然向AI新招数术撰文理解道。

据宋舒然简介,在她与置计团队「凭断言」继续做这个建置项目以后,相当多数人都确信提升研读工具必须大值的数据集,所以不能在真实的人上如此一来军事训练。即使到直到现在,提升研读被应分析方法于人的工具也不是当今,宋舒然与置计团队也没就让到「是不是能跑回上去」,可以说超越了不必为的梦魇、给予了该朝著的分析者以莫大的信心。

宋舒然在人图象管理系统上的第一个转折点实习当属获RSS 2019最佳管理系统讲授术著只用特别奖的「TossingBot」。在这个实习以后,他们与谷歌的分析置计团队协力,之后全面性攀上了《观察家》零售业地壳的封面。

这个施放人的「绝杀招数」是可以研读较快准确地捡起取值重力场,并将其扔到到附近的目标框以后。分析者确信,施放是一种为了让动力讲授来提较高操纵者灵活性的都能工具。例如,「在放于与放置的案例以后,施放可以使链条手臂较快地将重力场放入其最主要运动范围内之外的中选定木箱以后,从而提较高其可保持联系的化讲授范围内和放于运动速度。」

这个实习只不过的关键因素论点是「残差化讲授讲授」(Residual Physics),可以将最简单的化讲授讲授与广度研读相相辅相成,使管理系统能够从试错以后较快军事训练、并泛化到一新桥段以后。

化讲授讲授包括了在世界上如何运只用的先验假设,宋舒然与置计团队可以为了让这些假设共同开发初始模组。比如,在施放以后,他们可以适用弹道讲授来估计使重力场坠毁在目标右边所无需的施放运动速度,同时适用神经网内络在化讲授估计之上预期调整,以补偿难以确定动态以及表象在世界上的信道和可变性。

只用为一名集成电路图象从业者的「科班喜」,宋舒然每分析一个建置项目,再越来越为图象与人的交叠相辅相成所能产喜的神奇精准度惊讶。TossingBot的实习刊载后,她在不能接受《观察家》的记者时惊叹道:「It is learning more complicated things than I could ever think about.(人时是在研读非常繁复的不就让,这是我以前没就让过的。)」

不过,这仅仅不是站起。「TossingBot」刊载两年后,宋舒然又挑战了人在较高速动态姿势上的新较移动性。她追随她在哥大的第一位西安师范大讲授Huy Ha,又凭借另一个人「FlingBot」摘下了第二个最佳管理系统讲授术著只用特别奖——CoRL 2021最佳管理系统讲授术著只用特别奖。

曾经CoRL 2021的评中选委员则会对「FlingBot」这项实习给借助于了极较高的口碑:「这篇讲授术著只用是我不问过的当今在世界上对仿真和表象在世界上棉布操纵方面的最无疑的实习。」

「FlingBot」挑战的侦查是棉布执行,移至到人际关系以后,就是常不见的安置夹克、安置被子等等。年末,针对这项侦查的相当多数实习是适用单手臂准可可执行姿势来操纵棉布,但这必须大值的交互来挑战初始棉布内置,并严格限制了人可及范围内的最主要棉布尺寸。

于是,宋舒然与讲授喜适用了自全权负责研读软件系统FlingBot,从图象观察借助于发置置双手臂操纵,对织成适用放于、拉伸并抛掷的初始内置。科学实验表明,FlingBot的3个姿势配对可以覆盖80%以上的棉布覆盖面积,将近可可执行两条线的覆盖面积4倍以上。

问上去有没有很最简单?

「工具无论如何无论如何,所以这篇实习还被RSS弃过,为由是工具极其『trivial』。」宋舒然戏弄道。

他们一开始的就让法很最简单:曾经他们看了许多古书,所有实习都是运用于放于、放置,这与人们在人际关系以后的惯用相当各不相同。「举一个并不最简单的案例,就是傍晚安置床。我们不意味著小心地去继续做『pick up-place』(放于-放置),我们安置夹克一般就是一扔到,无止尽后再把夹克安置开,但没人管理系统是这样继续做的。」

所以他们就思考,究竟可以让人运用于一些扔到较高、揭开序幕的姿势,如无止尽。再次继续做借助于管理系统时,他们也发掘借助于,整个管理系统无论如何并不最简单,只无需分解成三步:第一步是捉棉布,第二步是把棉布揭开序幕,第三步是「扔到」开棉布。而「揭开序幕」与「扔到」这两个姿势原则上不必须研读,因为讲授与不讲授的区别相当大,真时是要讲授的只有「捉」这一步,因为如何捉则会直不能接受到影响后面的「揭开序幕」与「扔到」。

虽然他们在「捉」这一步上也突破了记事统文化工具,但相比较,「FlingBot」的整个管理系统是非常最简单的。所以在第一次送交讲授术著只用时,遴选们就将讲授术著只用弃了,为由均是:结果很无疑,管理系统也很无疑,但工具并不最简单。

这时候宋舒然的反向思路又来了:在第二次送交时,他们就在讲授术著只用以后忽略了「最简单但较高效」的举世闻名——

「用一个最简单的工具就可以解决一个这么繁复的侦查,真有没有好过你去置计一个并不繁复的管理系统吗?而且它的精准度并不好,却是说明了它在较高速动态姿势上的经济性。」

这与她在哈佛大讲授之前与汤晓鸥等人协力3D ShapeNets的分析论点是一脉相承的:最简单,但较高效。日后,FlingBot 果然被 CoRL 接收,还获了最佳管理系统讲授术著只用特别奖。

5、一些思考

这时就让必大家都已发掘借助于,与在结构上状况以后的人(如南美工厂的产线人)相比,宋舒然的人实习,无论是「TossingBot」还是「FlingBot」,都必须先对化讲授状况顺利进行问觉,把握状况静电邮件,然后可执行适应性状况的姿势。

「在工厂或堆放以后,人每天碰不见的重力场、重力场右边与重力场类别较移动性完全相同,在这类桥段下,人的问觉与规画直到现在翻倍并不开花结果的状态。很多工厂的流水线上都安置了控制系统人。但如果你通过观察,这些人相当多是没『图象』的,它们只是在梦境特定的姿势,然后重复同样的姿势,所以它们不必照搬到一个一新状况。」

因此,宋舒然确信,如何让人去适应性非形式化的状况,是人图象接下来的关键因素分析朝著。在她的分析以后,无论是从对人的观察以后研读人的演化经验,还是忽略人与表象在世界上的交互,都是在为这个朝著尽力。

比如,在FlingBot以后,为什么则会用「扔到」的姿势去揭开序幕重力场呢?宋舒然理解:「如果重力场被揭开序幕,是非常容易被辨识的。如果衣服揉成一团,不揭开序幕的话你毕竟不究竟是T恤还是上衣。」从这个角度来看,人与化讲授在世界上的交互也适度改善问觉的准确性。

换言之,在图象与人的姻亲以后,不仅是图象借助人问觉,反过来,人的姿势也则会增加图象的问觉。

6、探讨「共通集成电路系统」

AI新招数术撰文:Yann LeCun 以后长期忽略自全权负责研读是新一代集成电路系统的举足轻重朝著,导师您怎么看?

宋舒然:我并各不相同意。我说借助于的确是的。直到现在我们直到现在在全权负责研读上争得了很多的进展,除此以外ImageNet和现有的许多Benchmark(完全符合),下一步如果我们就让用上非常大的数据集集,本来不能再标则有非常多的数据集了。我们必须的是在工具上的提较高,就是如何去为了让这些没标则有的数据集。

在这个朝著上,各不相同的代课题有各不相同的假设工具。如何去假设自全权负责研读?我说借助于这是最两大的情况。在集成电路图象代课题,你可以继续做摄像机预期;在自然语种执行朝著,你可以继续做语种测算。我长期在就让的是,在人代课题,如何假设自全权负责研读?如何去假设一个统一软件系统可以去继续做自主自全权负责研读?

AI新招数术撰文:而且以后很多人在忽略这个朝著的时候,好像都没提过跟表象的交互。

宋舒然:对的,因为它的效率的确非常较高。如果你没人,你必须买一个人。而且就已是有人,通过交互去利用数据集,好像上是要比标则有数据集太快很多的。但这并不象征性它没前途;无论如何,我说借助于这是一个非常有发展前途的朝著。雷峰网内

更是是,如果你考量愿景的集成电路系统其发展,当人仍然是一个昂贵的置备,当人的标价减缓、密布各地,并且可以可执行很多侦查时,我说借助于通过交互的自全权负责研读则会变成非常当今的工具。

AI新招数术撰文:说借助于。导师您理应再总结一下,这种交互加自全权负责研读的研读方式将,过去的其发展、理论上存在的瓶颈和愿景21世纪是什么?

宋舒然:迄今「自全权负责+交互」的方式将从前仍然掺杂了许多人为经验。我们直到现在的许多实习,比如我们可以用自全权负责的方式将继续做「捉取」,情况是我们可以不太好地测算这个重力场有没有被捉上去了。对于「揭开序幕」这个姿势也是一样的。我们可以通过重力场的表层、覆盖面积有没揭开序幕只用为一个全权负责的静电邮件。但是这些特别激励虽然是自全权负责,可以如此一来从图象从前测算,但它也是由人来假设的,是经验并不知道我们可以赢取这样的静电邮件。

而且我说借助于在任何一个工具从前,如果必须由一个有机体技工去假设不就让的话,往往则会成为一个瓶颈。所以展望愿景,我们如何去减少这种人为的经验?有没有可以通过讲授一个愿景预期假设,或者讲授一个非常共通的在世界上假设,然后用一种非常统一的方式将去看,或者非常断言的方式将去置计?而不是我们必须去对每一个侦查特定置计在世界上假设。我说借助于这个意味著是本来非常引人则有目的其发展朝著。

AI新招数术撰文:迄今对于共通集成电路系统的借助于,您有没一些表达借助于来和置就让?

宋舒然:我说借助于我没很清晰的表达借助于来和置就让(戏弄)。共通集成电路系统是更进一步,但我们的确还有不小的距离。很多就让法是引人则有目的,但以我直到现在有限的表达借助于来,还是必须一段时间时间的其发展,不能说哪个朝著是非常有前途的,或非常有意义的。

但我说借助于研读嵌入式智能是并不关键因素的一步,因为我说借助于共通集成电路系统不只是表达借助于来网内络静电邮件,不只是表达借助于来图象或具象数据集,还必须表达借助于来化讲授、表达借助于来3D状况。

AI新招数术撰文:就是先不说共通集成电路系统是什么样子,但是要借此我们对共通集成电路系统的表达借助于来的话,我们不必局限于理论上已有的这些侦查,而是要去渐次探求一新侦查是吗?

宋舒然:对的,而且不必只考量对机器研读假设顺利进行具象,还要考量如果你要构建一个「化讲授分身」(physical embodiment),比如人,它是可以在表象的化讲授在世界上以后去与各不相同的重力场交友的。

不说集成电路系统,只是说我们(有机体)的智能。本来我们讲授到了很多智能,但不只是通过网内络,不只是通过念书、看页面或看摄像机,不小一部分的智能是在交互以后研读的,比如怎么手脚,怎么拿起重力场。

所以我的一个表达借助于来是,借助于共通集成电路系统,人或嵌入式智能是并不举足轻重的一步。

则有:毓毓、青暮对本文亦有贡献。雷峰网内

雷峰网内原创撰文,不经许可权禁止刊载撰文。详情不见刊载撰文举凡。

【以上以下内容转自“雷峰网内”,不象征性本网内站论点。不经许可权不得刊载撰文】

0。

长沙专业医院
上饶治疗不孕不育知名的医院
西宁治疗皮肤病哪家医院正规
肩颈痛有什么药可以治疗
气色差脸色暗黄怎么调理
体内湿气重拉肚子吃什么药
佐米曲普坦片怎么吃
眼睛酸涩滴什么眼药水
友情链接