中国航空报讯(xùn):在(zài)从工厂到手术室的多种工(gōng)作(zuò)场所里,不同大小和形状的机器人变得越来越多。许(xǔ)多机器人都是通过(guò)机器学(xué)习的方法,在反复试验(yàn)和(hé)不(bú)断犯错中习得新技能(néng)的。最近(jìn),有一种新(xīn)方法可以(yǐ)帮(bāng)助这些技能在不同(tóng)形状的机器人之间(jiān)进行迁移,以免每次都要从(cóng)头开始(shǐ)学(xué)习任务(wù)。在(zài)去年夏天举办的国际机(jī)器学习大会(ICML)上,美(měi)国卡内基梅隆大学的计算机科(kē)学(xué)家刘星昱展示了这(zhè)种(zhǒng)新(xīn)方法,他是这项研(yán)究的第一作者。“从实(shí)际应(yīng)用的角度来(lái)说,这项研究非常(cháng)重(chóng)要(yào),”他说,“对于基础研究而言,我认为这也是(shì)一个值得研究的前沿问题。”
假设你有一个末端类似于人手的(de)机械(xiè)臂。你(nǐ)已经(jīng)训练它的5个指头(tóu)学会拿(ná)起一把锤子(zǐ),以及将(jiāng)钉子钉入木板(bǎn)。但现在,你希望一种“二(èr)指(zhǐ)夹爪(zhǎo)”也能(néng)完成同(tóng)样的任务。为此,科学家(jiā)创造出了(le)一连串的虚拟机(jī)器人来模(mó)拟两种机(jī)械臂之(zhī)间的形态:它会(huì)从最初类(lèi)似于人手的结(jié)构(gòu)缓(huǎn)慢地转变成一种新的形(xíng)状。每(měi)一个中间机器(qì)人(rén)都会通过练习指定的任务,以此调整对应的人工(gōng)神经网络(一种计(jì)算模型),直到达到阈值成功率(lǜ)。紧接着,这个系统的(de)控制器(qì)代码就会(huì)被传递给这条“链”上(shàng)的下一个中间机器人。
为了完成从虚拟机器人(rén)到目标机器人的转(zhuǎn)变,研究团(tuán)队创建出了一种(zhǒng)共享式(shì)树状运动链(liàn)(kinematic tree)。其中,一(yī)组(zǔ)代表肢体部(bù)分的节点被一(yī)些代表关节的链接器(link)连接了起来。为(wéi)了将锤击(jī)技能(néng)迁移到二指夹(jiá)爪,这支团队将原本结(jié)构中(zhōng)代表三(sān)个指头的节点的大小和(hé)权重都调整(zhěng)为零。对于每一个中间(jiān)机器人来说,相应指头的大小和权(quán)重(chóng)就会逐渐变小(xiǎo)。
与此同时(shí),控(kòng)制(zhì)它们的神经网络也必须学会作出调整。此外(wài),研(yán)究人员还调整(zhěng)了(le)训练方法(fǎ),以(yǐ)便使中(zhōng)间机器(qì)人之间(jiān)的变化(huà)不会太大也不会太小。
这(zhè)个由卡(kǎ)内基梅隆大学设计的(de)系统叫作REvolveR(RobotEvolve Robot)。它的表现优(yōu)于机器(qì)学习的基本方法,比如从头开始(shǐ)训(xùn)练目(mù)标机器人的方(fāng)法。在锤击(jī)任务和其他(tā)训练任务(包括(kuò)移动一个球和打开一扇(shàn)门)中,为了使(shǐ)机器(qì)人夹爪达(dá)到90%的成功(gōng)率,此前最好的替代性训(xùn)练(liàn)方法需要(yào)比(bǐ)REvolveR多执(zhí)行29%~108%的试验次数,尽管这(zhè)些替代(dài)性方法在训练过程中提供了更多的信息反馈。接下(xià)来,研究人(rén)员还使用其他类型的(de)虚(xū)拟机器人测试他们的训练(liàn)方法(fǎ)。例(lì)如,利用这种方法为一个蜘蛛状机器人添加(jiā)新的腿(tuǐ)部结构(gòu),并让它重新学会爬行。
维(wéi)塔利·库林(未参与这项研究)是英国(guó)牛津大(dà)学的计算机科学家(jiā),主要研究(jiū)机器人和机器学习,他表示:“我认为(wéi)这(zhè)是一种非常巧(qiǎo)妙的方法。”尽管通过将艰巨的挑战分解成一系列(liè)小(xiǎo)的部(bù)分,从而使AI能够在不同的任务之间实现技能迁移的方(fāng)法并不新鲜,“但在一个机器人与另一个机器人之间进行(háng)内插,以此实现(xiàn)技能(néng)迁移,这是(shì)我以(yǐ)前(qián)从未想(xiǎng)到的。”