Vision-Language-Action · Robotics Capstone Project

원격지에서의 자율적인 사족보행 로봇 구현

본 프로젝트는 Unitree Go2 사족 보행 로봇에 최신 Vision-Language-Action(VLA) 기반 내비게이션 모델인 InternVLA-N1-DualVLN을 이식하여, 자연어 명령만으로 실제 환경을 인식하고 자율 주행하는 로봇 시스템을 구현합니다.

또한 사족 보행 로봇의 낮은 카메라 시점과 실제 환경 차이로 인한 성능 저하를 줄이기 위해, LOVON의 객체 탐지 기반 보정 구조ROSA 에이전트 기반 명령 분해를 결합하여 보다 안정적인 자연어 기반 자율 주행 파이프라인을 구축했습니다.

Unitree Go2 InternVLA-N1-DualVLN ROSA Agent LiDAR SLAM

Project Significance

1. 소형 사족 로봇 환경에 대한 VLA 모델 적응

사람에 가까운 카메라 시점과 고품질 센서 환경을 전제로 한 기존 VLA 모델은 소형 사족 로봇에 그대로 적용할 경우 성능 저하가 발생할 수 있습니다. 본 프로젝트는 InternVLA-N1-DualVLNLOVON 기반 객체 탐지 및 목표 보정 구조를 결합하여, 모델 전체를 재학습하지 않고도 Unitree Go2 환경에 적응할 수 있도록 구성했습니다.

2. 멀티태스크 VLA 파이프라인 구축

Navigation, Pointing, Following, Backtracking 기능을 ROSA 기반 LLM 에이전트 위에 통합하여, 자연어 명령에 따라 필요한 기능을 선택적으로 실행하는 구조를 구현했습니다. 특히 LiDAR SLAM 기반 자율 백트래킹을 추가해 기존 내비게이션 중심 기능을 확장했습니다.

3. 자연어 기반 원격 로봇 운용

Go2 Monitor 웹 인터페이스Zenoh-bridge 기반 무선 ROS2 통신을 통해, 원격에서도 실시간 카메라 피드를 확인하고 자연어 명령을 전송할 수 있도록 구성했습니다. 이를 통해 비전문가도 로봇을 쉽게 운용할 수 있는 기반을 마련했습니다.

Unitree Go2

Overview

Unitree Go2 standing view

자연어 명령 기반 VLA 사족 로봇

Unitree Go2가 사용자의 자연어 명령을 이해하고, 시각 정보를 바탕으로 목표 대상을 찾아 실제 환경에서 자율 주행하도록 구현한 프로젝트입니다.

사족 보행 로봇의 카메라 시점 차이와 실제 환경에서의 인식 오차를 보완하기 위해 LOVON 기반 객체 탐지 보정ROSA 에이전트 기반 명령 분해를 결합하여 안정적인 VLA 파이프라인을 구성했습니다.

Navigation

자연어 명령을 받아 환경 내 목표 지점까지 자율 주행한다. InternVLA-N1-DualVLN이 카메라 이미지와 명령을 동시에 해석해 pixel goal을 출력하면, 로봇이 그에 맞춰 이동한다.

Pointing

이미지 위 특정 객체를 지시하면 로봇이 해당 객체로 향한다. 객체 지시 정보를 pixel goal로 변환해 InternVLA에 전달하는 방식이다.

Following

사람이나 물체를 지속적으로 추종한다. YOLO 객체 검출 결과를 pixel goal 입력으로 사용하며, LOVON의 일부 구조를 차용해 모션 블러·저속 추종 환경에서도 안정적으로 동작하도록 개선했다.

Backtracking

LiDAR SLAM 기반 closed-loop 제어로 과거에 지나온 경로를 자동으로 되짚어 돌아온다.

Demo

Note: All demo videos are muted and shown at 2× playback speed.

Follow the person

Go to the backpack and return to the starting position

Go to the person and go to the chair

Go to the sports ball

Turn right and go to the sports ball

Architecture

Architecture diagram
  • Base Model-InternVLA-N1-DualVLN: System1의 저수준 제어와 System2의 고수준 의사결정을 결합한 dual-system 기반 VLA foundation model을 사용했습니다.
  • LOVON 기반 구조 결합: LOVON의 객체 탐지 및 목표 보정 구조를 InternVLA 파이프라인에 결합하여 저속 주행·모션 블러 환경에서의 추종 안정성을 개선했습니다.
  • LiDAR SLAM Runner: 실시간 SLAM 기반 closed-loop 제어를 통해 이동 경로를 추적하고, 필요 시 안전한 자율 백트래킹을 수행하도록 구성했습니다.
  • ROSA Agent + Qwen3.5-4B: 자연어 명령을 세부 작업 단위로 분해하고, 상황에 맞는 기능을 선택적으로 호출하는 LLM 기반 에이전트입니다.
  • YOLO 입력단: VLA 모델을 전체 재학습하지 않고도 객체 기반 task를 확장할 수 있도록, YOLO 검출 결과를 pixel goal 형태로 변환해 입력에 주입했습니다.

Tech Stack

Hardware

Unitree Go2

Unitree Go2

4족 보행 로봇, 내장 Jetson Orin / 내장 LiDAR

Intel RealSense D435i

Intel RealSense D435i

RGB-D 카메라

LiDAR on Unitree Go2

LiDAR

자율 백트래킹과 환경 인지를 위한 거리 센서

RTX 3090

RTX 3090

모델 추론 및 실험 환경

Models & AI

  • InternVLA-N1-DualVLN (메인 VLA)
  • LOVON (일부 구조 차용)
  • Qwen3.5-4B (vLLM 서빙, ROSA agent의 LLM)
  • YOLO (객체 검출)

Software

  • Python + PyTorch: 메인 개발 언어 및 InternVLA·LOVON 추론 프레임워크
  • vLLM: Qwen3.5-4B LLM 서빙
  • OpenCV / NumPy: 이미지 처리·디블러링·SLAM 후처리·좌표 연산
  • ROS 2: 로봇 미들웨어 (노드 간 토픽·서비스 통신)
  • TensorRT: System1 추론 속도(주기) 향상

Middleware & Robot Control

  • Zenoh-bridge ROS2 DDS (무선 통신 브릿지)
  • Unitree API
  • LiDAR SLAM Runner (자체 closed-loop 백트래킹)

Simulation & Tools

  • NVIDIA Isaac Sim (Embodiment gap 검증)
  • 3D 프린팅 (RealSense 마운트)

Timeline

March

  • 주제 : 원격지에서의 자율적인 사족보행 로봇 구현
  • ROS2 / Zenoh
  • InternVLA / LOVON 재현
  • 1차 시연

April

  • Following 결합
  • LOVON 일부 구조 차용
  • 디블러링
  • LiDAR SLAM
  • Backtracking

May

  • Pointing 추가
  • ROSA + Qwen3.5-4B 연결
  • ROS2 도구 개선
  • Task Planner 통합
  • 정량 평가
  • 논문 초안

Team

임민석 profile photo

임민석

MI LAB의 아이돌☆

Local LLM Serving, LOVON 재현, YOLO-26 통합, Task Planner

GitHub
조원영 profile photo

조원영

FOSCAR의 지도자

Zenoh Bridge, DualVLN 개선, HTTP 비동기, Tool List, Local LLM 인터페이스

GitHub
정유진 profile photo

정유진

이상한 사람

LOVON 재현, LOVON-NaVILA 논문 분석, Go2 Monitor UI/UX, 정량 평가, Git 관리, GitHub 페이지, 서기

GitHub
성재승 profile photo

성재승

예비 세계 정복자

무선 포팅, DualVLN 재현, Go2 Monitor 백엔드, ROSA 적용, 복합 Tool, 정량 평가, Code Generation

GitHub
조유빈 profile photo

조유빈

야돈

Zenoh Bridge, DualVLN 개선, ROS2 비동기, 정량 평가

GitHub
유리안 profile photo

유리안

세계관 최강자

디버깅 모듈, DualVLN 재현, LiDAR SLAM Runner, 포스터, DualVLN 논문 분석, Isaac Sim 검증

GitHub

References

Core References

[1] M. Wei, C. Wan, J. Peng, *et al.*, "Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation," *arXiv preprint* arXiv:2512.08186, 2025. arXiv HuggingFace

[2] D. Peng, J. Cao, Q. Zhang, and J. Ma, "LOVON: Legged Open-Vocabulary Object Navigator," *arXiv preprint* arXiv:2507.06747, July 2025. arXiv

[3] R. Royce, M. Kaufmann, J. Becktor, *et al.*, "Enabling Novel Mission Operations and Interactions with ROSA: The Robot Operating System Agent," *arXiv preprint* arXiv:2410.06472, October 2024. arXiv GitHub

[4] Qwen Team, "Qwen3.5: Towards Native Multimodal Agents," *Qwen Blog*, February 2026. Blog HuggingFace