具有认知能力的智能机器人行为学习方法研究

被引:0
作者
王作为
机构
[1] 哈尔滨工程大学
关键词
认知模型; ODMDP; 时空联想记忆网络; SLAM; (k-M)(k-P) Sarsa算法;
D O I
暂无
年度学位
2010
学位类型
博士
导师
摘要
行为学习是智能机器人设计中的关键技术之一。目前,机器人行为学习方法只限于学习反射式行为。人为给出任务的知识表示结构,根据训练样本来不断调整参数,一旦任务改变则需要重新编程。具有该行为学习能力的系统不具备认知能力,无法产生复杂的智能行为。研究具有认知能力的机器人系统已经成为机器人学研究的重要方向,研究涉及认知心理学、认知科学以及动物行为学等领域。 本文着重研究了机器人的认知机制,深入分析了认知模型对于机器人智能发展的重要性。提出了具有认知能力的智能机器人体系结构,并对认知模型中的知识表示以及学习方法进行深入研究,最后利用该研究成果实现了环境的空间认知,自底向上突现出了多任务规划行为。论文的主要工作如下: 首先,本文从智能产生的角度重新对机器人的范式进行分类。新的范式分类不仅涵盖了传统的系统范式,而且完善了智能机器人的认知层次,区分了不同的智能等级,明确了认知能力在机器人系统范式中的地位。在此基础上,本文提出了具有认知能力的智能机器人体系结构。该体系结构具有自主学习的能力,只需要给出基本的反射式行为,所有的高级认知能力都可以通过自主学习得到,不需重新编程。各模块之间互相依赖并且可以同时学习,具有实时的学习能力。 其次,研究了环境特征的自组织提取,利用“主动感知行为”和“感知-运动协调”来获得环境特征。给出基于变化检测和激活强度的活性神经元设计方法,并利用动态增长自组织特征图(GDSOM)实现了路标的自组织提取和路标识别。实验表明该路标提取和识别方法无需精确定位控制和传感器度量模型,具有较好的鲁棒性和计算速度,并且有效解决了“感知变化性”问题,为认知能力打下基础。 再次,研究了时空经验的知识表示和学习方法。讨论了认知数学模型——观测驱动马尔科夫决策过程(ODMDP)并提出了相应的求解策略。借鉴生物神经元的特性,提出一种新的生物神经网络模型—时空联想记忆网络(STAMN)。该网络实现了状态和行动的增量学习并且解决了ODMDP的状态定位问题。利用STAMN实现了环境的空间认知,实验表明该网络可以用于解决循环环境的同时全局定位和标图(SLAM)问题。 最后,研究了具有认知能力的强化学习方法。针对机器人所面临的多任务学习问题,提出了具有认知能力的强化学习模型,并提出了适合多任务学习的k步记忆和k步预测的Sarsa((k-M)(k-P) Sarsa)算法。该强化学习模型解决了ODMDP的策略学习问题,并且具有较好的收敛速度。迷宫环境实验验证了智能机器人的多任务学习的有效性。
引用
收藏
页数:129
共 43 条
[1]
基于时空信息与认知模型的移动机器人导航机制研究 [D]. 
刘娟 .
中南大学,
2003
[2]
发育机器人研究综述 [J].
于化龙 ;
朱长明 ;
刘海波 ;
顾国昌 ;
沈晶 .
智能系统学报, 2007, (04) :34-39
[3]
表征与认知发展 [J].
李恒威 ;
黄华新 .
中国社会科学, 2006, (02) :34-44+205
[4]
一种带有实时视觉特征学习的自主发育机器人探索 [J].
高颖 ;
陈东岳 ;
张立明 .
复旦学报(自然科学版), 2005, (06) :964-970
[5]
基于连通结构与动力学过程的知觉记忆层次模型 [J].
危辉 ;
栾尚敏 .
软件学报, 2004, (11) :1616-1628
[6]
情节记忆的神经科学研究综述 [J].
聂爱情 ;
郭春彦 .
首都师范大学学报(社会科学版), 2004, (05) :113-118
[7]
一种基于连接机制和时空经验的认知地图学习与导航方法(英文) [J].
刘娟 ;
蔡自兴 ;
涂春鸣 .
控制理论与应用, 2003, (02) :161-167
[8]
未知环境中移动机器人导航控制研究的若干问题 [J].
蔡自兴 ;
贺汉根 ;
陈虹 .
控制与决策, 2002, (04) :385-390+464
[9]
表象式直接知识表示 [J].
危辉 ;
何新贵 .
计算机学报, 2001, (08) :891-896
[10]
内隐认知与意会知识的深层机制 [J].
刘景钊 .
自然辩证法研究, 1999, (06)