大模型驱动下的具身智能落地:JetRover SLAM+大模型融合方案

博主:旭日财富者旭日财富者 2026-06-02 4337

自从2023年9月幻尔科技正式发布JetRover以来,凭借高性能硬件配置与创意应用玩法,一直深受广大用户好评。在最近两年里,我们一直不断更新,不断超越。从ros1到ros2,从逆运动学到AI大模型,我们不断的给用户带来更多更好的体验。值得一提的是,在今年5月,我们在JetRover上部署了多模态AI大模型,通过联网调用通义千问等大模型API接口,从而实现语音控制、视觉追踪、场景理解等创意应用。

wKgZO2odZAKANK5mAAHOu9tHdzw840.png

同时,在传统的SLAM建图导航的基础上,我们创新性融入AI大模型,打造多个行业内首创的大模型交互创意玩法。这种全新玩法究竟能给我们带来哪些有趣的具身智能新体验?让我们一起来详细了解一下吧!

首先我们来打造一个趣味迷宫场景,让JetRover先在迷宫中进行地图构建,将迷宫地图刻画在自己的大脑中。再将不同颜色的盒子、色块分别放置在迷宫的各个随机位置,并将盒子和色块的位置区域在地图中标注出来。

此时你只需要直接对JetRover下达指令——“把红、绿、蓝三种颜色的色块放到对应颜色的盒子里,然后回到原点”。

接到指令后,JetRover 会立刻行动:

第一步它会听懂你的指令,并快速做出回应;

第二步依托SLAM技术在地图中导航到色块摆放区域;

第三步通过深度相机精准识别出红、绿、蓝三色块的具体位置,并校准好机身姿态;

第四步通过逆运动学算法控制机械臂精准抓取物品;

第五步继续通过SLAM导航在地图中找到对应的盒子,并依次将色块放入对应盒子中;

第六步JetRover完成全部任务后,便自动返回初始位置。

看到这里,你或许会好奇:这样一款能听懂复杂长指令、还能按步骤完成任务的智能机器人,究竟是如何理解指令并执行的呢?

部署多模态AI大模型相当于为JetRover装上超级大脑,为它赋予了文本、语音、视觉的综合分析能力。无需自行训练模型,就能直接实现语音对话、图像识别、场景理解,让 JetRover 真正升级为具身智能机器人。

其中,大语言模型能够精准识别并分析用户的语音指令,换句话说,哪怕你没有明确告诉JetRover把红色色块放到红色盒子里,或先做什么后做什么,它也能通过大语言模型的推理,深层次读懂你的隐藏需求,并自动梳理任务优先级,动态规划行进路径,准确执行每个任务。

wKgZPGodY9uALMOcAAmXddomeiM032.png

想要准确高效执行任务,更离不开高性能硬件的底层支撑与清晰的功能实现逻辑:SLAM建图导航就像JetRover的环境感知眼和位置记忆库,其核心依靠激光雷达、高精度编码器电机与IMU陀螺仪的数据融合,能实时扫描并绘制清晰地图环境,精准记忆自身位置以防迷路,同时还支持多点导航、动态避障等功能。

wKgZPGodY-aAP7VZAFtWKXI3fRA492.png wKgZO2odY-WAZqB1ADPb88uY2fA081.png

除雷达粗略定位外,JetRover 还搭配 3D 深度相机,大幅提升了三维空间感知能力。通过AI视觉识别目标物品,获取其位置坐标,实现机器人精准定位,并结合机身内置的逆运动学算法,最终精准抓取三维空间内的物品。

wKgZPGodY-qAcHxEACpiq7Jzh4o832.png

具身智能不是复杂技术的堆砌,而是让机器人真正帮人解决问题、带来乐趣,JetRover 的 SLAM+AI大模型组合,正好做到了“好玩有用”,值得每一个想探索AI的人尝试!