“AlphaGo不会炒回锅肉!”上海交大教授正在研发“全才”机器人
如果有一台机器人,几乎可以通过 “自学” 的方式,完成人类 80%-90% 的日常工作和任务,你信吗?
或许你会说,人类可以做到的事,机器人为什么不可以?
但很显然,我们如今看到的机器人,功能单一,远远达不到我们对智能的期望,也满足不了现实中对任务和场景自适应的需求。
如今,我们会根据不同的任务和场景设计各种机器人和相应的算法,但由于外部变量空间太大,同一机器人在不同任务或操作之间的可迁移性较弱,不能替人类完成各种各样的任务。
一直以来,“通用智能” 被认为是一个很好的技术解决方案,具备与人类同等智慧或超越人类的人工智能,能表现出正常人类所具有的所有智能行为,可以为机器人提供一个统一的模型,一直都是人工智能行业内的学者、科研机构和企业的追求。
但是,要实现机器人在多领域内的通用,这项技术还需要一个载体 — — “通用智能本体”,其可以在很大程度上提高机器人对不同任务的可迁移性。
事实上,人本身就是一个通用智能本体。要像人一样,通用智能本体需要对其所在环境(特别是操作对象)有深度的理解。
近期,上海交通大学与非夕机器人科技联合在《中国工程院院刊》上发表了 “通用智能本体” 的论文,提出基础理论概念。论文作者卢策吾教授告诉 DeepTech,“通用智能本体是机器人(至少是通用机器人)的终极目标。通用智能本体不仅能看懂(人类的行为),也能很好地去理解,还能对外界作出反馈。”
卢策吾认为,通用智能本体有点像我们日常使用的通用计算机,几乎可以完成日常生活中的所有任务,但一些特殊的任务,依然需要一些专用机器人来完成。
图|人类生产所需完成的任务个数接近无穷且大多各不相同,两条线之间的区间就是通用智能带来的红利。(来源:卢策吾)
“AlphaGo 只是围棋高手”
任务迁移能力是衡量一个通用智能本体智能程度的最重要标准。如果要让擅长下围棋的 AlphaGo 去玩其他棋类或者星际争霸之类的游戏,其迁移成本会很高。
有了通用智能本体,未来工厂内的产品组装、医院内的病人看护、家庭内的按摩和家务劳动等操作,都可以由一个通用智能本体来完成。“这就是通用智能本体的初衷。” 卢策吾说。
当前的智能机器人通过深度学习来认知世界,但深度学习对外部世界的感知能力比较弱,它只是去看,并没有真正理解物体的本质。比如,深度学习只是通过模式识别去辨认一把剪刀,如果 “眼前” 的物体像一把剪刀,就判断其为剪刀,而并没有真正理解剪刀的概念。
(来源:Pixabay)
而通用智能本体不是做简单的模式识别,它关心的是这个物体的功能,可以直达物体的本质。“就像人类,一个杯子能不能被用来喝水,与杯身的花纹无关。” 卢策吾告诉 DeepTech。
因为有了交互,通用智能本体就可以接受不同的概念,概念之间的搜索空间就会大大减少。比如,通用智能本体在看到一个矿泉水瓶时,会先通过视觉进行猜测,再去用力拧开,确定其为矿泉水瓶后,再将结果上传到云端,完成这一过程后,通用智能本体又增加了一次学习经验。这不只是视觉上的经验,也与力觉有关,在一定程度上具备了自学习的可能性。
“回锅肉”问题
人类的大部分操作都可以被肢解为一些不可再分的元操作(可不再向下分解的通用操作,比如抓取、插、拔、揉压等),而这些元操作之间有特别强的通用性。
人类的元操作集合是有限的,在定义好元操作集合后,人类的任何操作任务都可以解析为一个元操作流,也就是一串元操作序列。一旦机器人学会所有人类的元操作,再加上大量的(物体)知识引擎,就使得通用智能本体具有可行性。
由于多个信息维度交互的存在,通用智能本体很有可能在迁移能力上实现突破。比如,拧瓶盖和拧螺帽是差不多的,力学模式和操作范式就也是差不多的。瓶盖和螺帽都有一个凸起,都可以被旋转,这些特点都可以被泛化和定义,不管它是绿色的,还是蓝色的,都需要用手握住并转动,而且力的模式,大概需要多大的力,也是很清楚的。
但要实现通用智能本体的愿景,依然存在不小的挑战 — — 通用智能本体既要符合人类的智能设计,又要符合与计算机相似的体系架构。
(来源:卢策吾)
我们可以通过简单的编程为通用计算机赋予很多功能,但在通用智能本体上编程却不会那么简单,因为教会通用智能本体去做一件事(比如照顾一位老人)的成本很高。如果把各种可能的情况都写入通用智能本体,难度就太大了。
“如何把一个抽象的任务编译给机器人是一个很难的 AI 问题,但我们对此还是很有信心的,” 卢策吾说,“目前 ‘积木’ 已经有了,机器人如何通过看人类怎么做去模仿人类把 ‘积木’ 搭起来,这是一个开放的学术问题,需要持续的讨论。”
通用智能本体可完成的操作,由简单到复杂,由已知到未知,可以分为四个等级。对于拿杯子接可乐等低等级操作,其操作步骤很固定,机器人知道第一步做什么,第二步又做什么。
(来源:卢策吾)
当操作步骤未知,一旦涉及到对周围环境的理解和判断时,情况就比较复杂了。比如,如何炒一盘回锅肉?
通用智能本体会通过观看大量人类炒回锅肉的视频,提取相关特性去学习如何炒回锅肉,之后会是一个不断尝试的过程。在这一过程中,通用智能本体需要来自人类的纠正,比如回锅肉好不好吃,这也会涉及到一些学术问题,但成本会很低。尽管最终结果可能会存在一定误差,但通用智能本体需要做的调节幅度会比较小。如果按照从 0 到 1 的自主学习模式去炒一盘回锅肉,现有机器人是做不到的。
但是,如果通用智能本体之前看过人类炒小炒肉的视频,并且已经将这一经验信息上传到云端,通用智能本体就会利用炒小炒肉的经验去炒回锅肉,或者用刚刚学到的炒回锅肉的经验去炒一盘鱼香肉丝,然后再上传到云端,形成机器人自己的知识库。结果就是,机器人学到的技能越来越多,知识库内的经验信息也会彼此关联。
由定制化走向自主性
未来,在执行大多数任务时,用户不需更换本体,只需要提供简单的任务描述,也不需要重新设计底层通用硬件、协议和操作系统;就像通用计算机的模块(CPU,RAM)一样,各个基本模块相对独立,且可升级;随着通用智能本体群完成任务的增加,知识体系得到扩展,学习新任务所需的时间减少。
多功能家用机器人是未来机器人的攻关方向之一,但我们不可能对每个家庭特殊环境的每个任务重新设计硬件、软件或学习模型,这是阻碍家用机器人发展的重要原因。通用智能本体有望解决这一问题。
“与在各个领域实现广泛应用所需的难度相比,通用智能本体工业自动化应用中是在一个更结构化的环境中运行,实现起来没有那么困难。” 卢策吾说。由于通用智能本体的视觉和力觉传感比人类更精准,它完成任务的专业性会超越人类。
但通用智能本体一开始不会像一个保姆那样会察言观色,会主动做些什么。它就像一个 iPhone,比如你装一个叠衣服的 app,它就学会了叠衣服,过几天你再装一个清理桌面的 app,它也就学会了如何清理桌面。一开始,通用智能本体只是一个功能化的机器人。
卢策吾表示,“你可以认为它是一个多功能家电,但随着知识库的不断增加,它会慢慢向智能化发展,一旦学会了所有家用功能,它就会像一个保姆一样,会帮老人喂饭、洗脸和按摩肌肉等,它的功能会越来越强大。”
但通用智能本体并非适用于人类的所有活动,它可以适用于人类的大部分日常活动。比如,工业上的生产线,医疗上的护理、打针和智能 ICU,以及娱乐交互、家用按摩和更简单的接可乐等,都可以被编程进通用智能本体中,进而提高效率。
“我们会先做一个不需要教的机器人,把操作步骤固定写出来,比如叫机器人去麦当劳买一个汉堡,它第一步做什么,第二步又做什么,你只需要一个 iPad,就能完成这件事。最终,有了大量经验信息后,更高级别的操作就能很顺其自然地完成了,这就会涉及到 AI 的相关研究了。” 卢策吾说。