Immagini di riferimento
Oggetto della tesi
I Vision-Language Models (VLM) permettono di associare descrizioni testuali a rappresentazioni visive. Questa capacità è cruciale per consentire ai robot di riconoscere e interagire con oggetti descritti in linguaggio naturale. L'obiettivo della tesi è sviluppare un sistema che permetta al robot di localizzare e manipolare oggetti a partire da comandi testuali, utilizzando un VLM per il riconoscimento visivo e l’associazione linguistica.
Strumenti
Python, ROS2, CLIP/BLIP, Gemma3, camera RGB-D, RViz, MoveIt2
Docente di riferimento
Alberto Finzi - Questo indirizzo email è protetto dagli spambots. E' necessario abilitare JavaScript per vederlo.