缩写
- MR: 移动机器人(Mobile Robot)
- MP: 运动规划(Motion Planning)
- RL: 强化学习(Reinforcement Learning)
- DL: 深度学习(Deep Learning)
- WMR: 轮式移动机器人(Wheeled Mobile Robot)
- UGV: 地面无人车(Unmanned Ground Vehicle)
- UAV: 无人机(Unmanned Aerial Vehicle)
- AUV: 自主水下机器人(Autonomous Underwater Vehicle)
架构图
经典MRs运动规划方法
环境表示方法:
- 占据网格图 (Occupancy Grid Map)
- 点云地图 (Point Cloud Map)
- Voronoi图 (Voronoi Diagram Map)
- 欧几里得有符号距离场 (Euclidean Signed Distance Field)
A. 离散路径搜索 (Discrete Path Search, DPS)
DPS方法的目的是从起始点到终点寻找一条包含离散路径点的路径。DPS方法在配置空间中搜索(C-space)。机器人的每个配置都对应于C-space中的一个点。值得注意的是,在配置空间(C-space)中,需要对不同大小和形状的机器人进行特定的扩展操作。
传统全局DPS算法可以分为两种类型:
- 基于图搜索的算法(graph-searching-based algorithm, GSBA)
- 基于采样的算法(sampling-based algorithm, SBA)
1. 基于图搜索的算法
- 深度优先搜索 (Depth-First Search, DFS)
- 广度优先搜索 (Breadth-First Search, BFS)
- Dijkstra算法:缺乏方向性
- A*算法
- D*算法(动态A*算法)
- 长效搜索A*算法(Lifelong planning, LPA*)
- D* Lite算法
- JPS算法(Jump Point Search)
2. 基于采样的算法
- PRM算法(Probabilistic Roadmap Method)
- RRT算法(Rapidly-exploring Random Tree)
- RRT*算法
- RRT*-smart和
- RRT#
- kino-dynamic RRT*算法
- informed RRT*算法
- FMT*算法(Fast Marching Tree)
- BIT*算法(Batch Informed Trees)
- RRT-Connect算法
- RT-RRT*算法(Real-Time RRT*)
- information-driven RRT*算法
B. 轨迹生成和优化 (Trajectory Generation and Optimization, TGO)
通过与轨迹生成和优化(TGO)级联,规划器最终可以生成满足多个优化目标(如时间最优、能量最优等)的运动学可行、无碰撞、可执行、可追踪的轨迹。
基于插值曲线的方法是轨迹生成中最常用的方法之一。
- RS曲线(Reeds and Shepp)
- clothoid曲线
- polynomial曲线
- Bezier曲线
- EDF曲线(Euclidean Distance Field)
- spline曲线
C. 轨迹跟踪 (Trajectory Tracking, TT)
早期轨迹跟踪
- 输入输出线性化(Input-Output Linearization)
- 后步控制(Backstepping Control)
- 滑模控制(Sliding Mode Control)
- 鲁棒控制(Robust Control)
轨迹跟踪
- 适应性滑模控制(Adaptive Sliding Mode Control,ASMC)
- 模型预测控制(Model Predictive Control,MPC)
- 非线性模型预测控制(Nonlinear Model Predictive Control,NMPC)
- 新型非线性模型预测控制(Novel Nonlinear Model Predictive Control,novel NMPC)
- 鲁棒滑模动态控制(Robust Sliding Mode Dynamic Control,RSMDC)
D. 局部路径规划 (Local Planning)
根据环境的变化,局部路径规划器可以在机器人的运动过程中动态地调整机器人的路径。
- PFM算法(Potential Field Method)
- 人工势场法(Artificial Potential Field, APF)
- 通用人工势场法(Generalized Artificial Potential Field, GAPF)
- 虚拟力场法(Virtual Force Field, VFF)
- 向量场图法(Vector Field Histogram, VFH)
- 谐波势场(Harmonic Potential Field,HPF)
- 速度障碍方法(Velocity Obstacle Method,VOM)
- 互惠速度障碍(Reciprocal Velocity Obstacle,RVO)
- 反应式重规划方法 (Reactive Replanning Method)
- 模糊算法(Fuzzy Algorithm)
- 左转势场和虚拟目标点(left tuning potential field and the virtual target point)
- 动态窗口法(Dynamic Window Approach,DWA)
- TEB算法(Timed Elastic Band,TEB)
- Falcon算法(Fast likelihood‐based collision avoidance)
基于地图的经典运动规划算法和RL优化
传统算法局限,全局规划和局部规划各自独立,问题的优化存在诸多限制。
A. 全局规划和RL优化结合
- 基于近似值迭代的RL算法(RL algorithm based on approximate value iteration)
- PRM-RL算法
- RL-RRT算法
- AutoRL+PRM-RL算法
B. 局部规划和RL优化结合
- 混合DWA-RL算法
- 人工谐波势场法和RL算法(AHPF with RL)
- Q学习RL + DWA算法(Q-learning RL + DWA)
- SAC算法(Soft Actor-Critic)
Agent级别和Sensor级别的RL算法区别。Agent级别基于预设状态估计过程可以直接获取上层环境状态信息。Sensor级别方法为端对端,从直接发布从原始传感器数据到规划决策的非线性地图。
Sensor级别的RL算法分为两类:基于激光测距仪(Laser range finder,LRF)的方法和基于视觉的方法。
1. 基于激光测距仪的方法
- A3C(Asynchronous Advantage Actor-Critic)(Google 2016)
- 弹性权重整合DDPG(elastic weight consolidation Deep Deterministic Policy Gradient,EWC-DDPG)
- 异步DDPG(Asynchronous Deep Deterministic Policy Gradient,ADDPG)
- AsDDPG(assisted Deep Deterministic Policy Gradient)
备注
机器人仿真环境:
- VREP
- Gazebo