본문 바로가기
개념공부/AI, 머신러닝 등

[논문 리뷰] Are VLMs Ready for Autonomous Driving?

by Zach Choi 2025. 1. 12.
728x90
반응형

* ChatGPT로 논문요약 요청하여 가볍게 살펴봄

 

 VLM (Vision Language Models)이 자율주행 영역에 적용되기 위한 준비가 되었는지 신뢰성, 안전성 측면에서 분석한 논문으로 DriveBench라는 데이터 벤치마크를 개발하여 여러 오픈소스 VLM 모델을 평가

 

논문 : Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives Shaoyuan Xie† Lingdong Kong‡,♢,∗ Yuhao Dong‡,§ Chonghao Sima‡,▽ Wenwei Zhang‡ Qi Alfred Chen† Ziwei Liu§ Liang Pan‡,B

 

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

Recent advancements in Vision-Language Models (VLMs) have sparked interest in their use for autonomous driving, particularly in generating interpretable driving decisions through natural language. However, the assumption that VLMs inherently provide visual

arxiv.org

 


 

주요 내용

1. DriveBench

  • Perception, Prediction, Planning, Behavior 영역에서 VLM을 평가하였고, 다양한 환경의 데이터(ex/ 어두운 시간 대, 비가올 때, 카메라 렌즈가 장애가 있을 때, 데이터 전송 오류가 있을 때 등)로 평가함

2. 핵심 내용

  • VLM은 종종 텍스트 단서나 일반 지식 수준에 의존해 '그럴듯한' 응답을 생성하고, 이미지 입력이 없더라도 유사한 성능을 보임. 즉, 이미지를 입력 받아 그 상황을 이해하는 케이스가 아닌 경우가 생길 수 있으며 이는 그럴듯한 응답을 내기 때문에 자율주행 시나리오에서 심각한 안전 문제를 야기할 수 있음
  • 일부 VLM은 입력 이미지에서 손상이 있을 때 어느 정도 인식하지만, 명시적으로 지시하지 않으면 잘 감지하지 못함
  • 데이터 셋의 불균형이 모델 평가 결과에 부정적인 영향을 미침
  • LLM을 평가하는 기존 지표 (ROUGE, BLEU)는 VLM의 신뢰성을 충분히 평가하지 못함. 새로운 지표 개발이 필요함

3. 논문 결론 및 제안

  • VLM의 현재 성능은 자율주행에서 요구되는 신뢰성, 해석 가능성, 안전 등을 충족하지 못함
  • VLM의 신뢰성을 확보하기 위해선 새로운 벤치마크 데이터, 평가 지표 개발이 필요함
  • VLM의 이미지 손상 인식 능력을 활용해 더 신뢰할 수 있는 자율주행 시스템으로 발전시킬 가능성이 있음

 

반응형

 

728x90
반응형