大多数AGV调度系统采用模块化架构:任务分配模块决定哪台车接任务,路径规划模块为每台车计算路线,交通管制模块处理冲突。这种“先分配再规划”的方式在AGV数量较少时工作良好,但当集群规模超过30台,模块间的割裂会导致效率急剧下降。原因是任务分配时没有考虑路径拥堵,导致多台车被分配到同一条“热路”上。一体化调度将三个问题联合求解,是解决大规模集群效率瓶颈的关键。
传统模块化调度的局限性
举个典型场景:仓库有A、B两个出库口,C、D两片存储区。任务分配模块收到两个任务:从C区取货到A口,从D区取货到B口。分配模块可能将两个任务分别派给车1和车2。但车1从C到A的路径与车2从D到B的路径在仓库中央十字路口交叉,两车必须一停一等。更糟的是,如果后续还有更多任务,拥堵会迅速蔓延。模块化调度中,分配模块不知道路径规划会走哪条路,路径规划不知道分配模块给了哪些任务,交通管制只是被动处理冲突。结果就是系统整体效率随车辆数增长而迅速下降。
一体化调度:多智能体强化学习框架
一体化调度将整个AGV集群视为一个多智能体系统,使用强化学习训练联合策略。核心思路:定义一个全局奖励函数(如最小化所有任务的平均完成时间),让每个AGV(智能体)在与环境交互中学习如何协作。状态空间包括:所有AGV的位置、速度、电量、当前任务、目的地;所有待分配任务的起点终点;全局交通热力图。动作空间:每个AGV可以选择加速、减速、改变路径、接受新任务、拒绝任务(由其他车执行)。训练时,算法(如MAPPO或QMIX)在仿真环境中进行数百万次迭代,直到学会一组策略,使得集群整体吞吐量最大化。
成都蓉希智能自研的调度系统“Rongxi-Fleet”采用一体化调度框架。在仿真测试中,针对50台AGV的场景,一体化调度相比模块化调度的平均任务完成时间缩短了28%,吞吐量提升41%。更重要的是,一体化调度在面对突发拥堵(如一台AGV故障)时,能自动重新分配任务和路径,而模块化调度往往需要人工介入。
路径规划与任务分配的联合优化
一体化调度中的关键创新是“任务-路径联合嵌入”。传统方法先分配任务再规划路径,而一体化方法同时考虑:对于每个待分配任务,系统为每台空闲AGV预估完成该任务所需的“总时间”(包括行驶时间、路口等待时间、充电预留时间),然后选择总时间最小的组合。但这个预估不是静态的,而是通过神经网络实时预测——输入当前全局状态,输出每个AGV-任务对的预期完成时间。这个神经网络与路径规划网络共享参数,从而实现了联合优化。
成都蓉希智能的实测数据:在48台AGV的电商仓库中,一体化调度上线后,高峰期平均任务响应时间从原来的1.8分钟降到1.1分钟,系统吞吐量从每小时320单提升到450单,提升40%。同时,死锁事件从每周平均3次降到零。
从仿真到实地的迁移学习
强化学习策略通常在仿真环境中训练,但仿真与现实的差异(如地面摩擦系数变化、传感器噪声)可能导致策略失效。成都蓉希智能采用“域随机化”技术:在仿真中随机改变AGV的加速度、最大速度、传感器误差等参数,让策略学会适应各种不确定环境。然后,使用少量实地数据对策略进行微调(通常只需要2-3小时的运行数据)。这种迁移学习方法使得训练好的策略可以直接部署到实地,无需重新训练。
实施一体化调度的硬件要求
一体化调度对计算资源要求较高。实时推理每个决策(每100毫秒一次)需要GPU加速。成都蓉希智能的调度服务器标配NVIDIA Orin或同等算力的边缘计算设备。对于超过100台AGV的大型项目,建议采用分布式推理:将AGV分成多个区域,每个区域由独立的推理节点负责,节点之间通过5G交换边界信息。这种架构可以支持到500台AGV的集群规模。
对于中小型项目(少于30台AGV),模块化调度已经足够。一体化调度的价值在30-50台以上才开始显现。成都蓉希智能会根据客户的规模推荐合适的调度方案,并提供从仿真训练到实地部署的全套服务。
模块化调度:适合<30台,简单易实现,但效率随车辆数下降
一体化调度(多智能体强化学习):适合>30台,吞吐量可提升40%
联合优化:任务分配与路径规划同时决策,避免拥堵
仿真到实地:域随机化+微调,策略可直接部署
成都蓉希智能Rongxi-Fleet调度系统支持500台集群


