大模型驱动下的具身智能落地：JetRover SLAM+大模型融合方案

旭日财富者 2026-06-02 4337

自从2023年9月幻尔科技正式发布JetRover以来，凭借高性能硬件配置与创意应用玩法，一直深受广大用户好评。在最近两年里，我们一直不断更新，不断超越。从ros1到ros2，从逆运动学到AI大模型，我们不断的给用户带来更多更好的体验。值得一提的是，在今年5月，我们在JetRover上部署了多模态AI大模型，通过联网调用通义千问等大模型API接口，从而实现语音控制、视觉追踪、场景理解等创意应用。

同时，在传统的SLAM建图导航的基础上，我们创新性融入AI大模型，打造多个行业内首创的大模型交互创意玩法。这种全新玩法究竟能给我们带来哪些有趣的具身智能新体验？让我们一起来详细了解一下吧！

首先我们来打造一个趣味迷宫场景，让JetRover先在迷宫中进行地图构建，将迷宫地图刻画在自己的大脑中。再将不同颜色的盒子、色块分别放置在迷宫的各个随机位置，并将盒子和色块的位置区域在地图中标注出来。

此时你只需要直接对JetRover下达指令——“把红、绿、蓝三种颜色的色块放到对应颜色的盒子里，然后回到原点”。

接到指令后，JetRover 会立刻行动：

第一步它会听懂你的指令，并快速做出回应；

第二步依托SLAM技术在地图中导航到色块摆放区域；

第三步通过深度相机精准识别出红、绿、蓝三色块的具体位置，并校准好机身姿态；

第四步通过逆运动学算法控制机械臂精准抓取物品；

第五步继续通过SLAM导航在地图中找到对应的盒子，并依次将色块放入对应盒子中；

第六步JetRover完成全部任务后，便自动返回初始位置。

看到这里，你或许会好奇：这样一款能听懂复杂长指令、还能按步骤完成任务的智能机器人，究竟是如何理解指令并执行的呢？

部署多模态AI大模型相当于为JetRover装上超级大脑，为它赋予了文本、语音、视觉的综合分析能力。无需自行训练模型，就能直接实现语音对话、图像识别、场景理解，让 JetRover 真正升级为具身智能机器人。

其中，大语言模型能够精准识别并分析用户的语音指令，换句话说，哪怕你没有明确告诉JetRover把红色色块放到红色盒子里，或先做什么后做什么，它也能通过大语言模型的推理，深层次读懂你的隐藏需求，并自动梳理任务优先级，动态规划行进路径，准确执行每个任务。

想要准确高效执行任务，更离不开高性能硬件的底层支撑与清晰的功能实现逻辑：SLAM建图导航就像JetRover的环境感知眼和位置记忆库，其核心依靠激光雷达、高精度编码器电机与IMU陀螺仪的数据融合，能实时扫描并绘制清晰地图环境，精准记忆自身位置以防迷路，同时还支持多点导航、动态避障等功能。

除雷达粗略定位外，JetRover 还搭配 3D 深度相机，大幅提升了三维空间感知能力。通过AI视觉识别目标物品，获取其位置坐标，实现机器人精准定位，并结合机身内置的逆运动学算法，最终精准抓取三维空间内的物品。

具身智能不是复杂技术的堆砌，而是让机器人真正帮人解决问题、带来乐趣，JetRover 的 SLAM+AI大模型组合，正好做到了“好玩有用”，值得每一个想探索AI的人尝试！

相关文章