PRISMA Lab - Interazione con oggetti via VLM e linguaggio naturale

Immagini di riferimento

Oggetto della tesi

I Vision-Language Models (VLM) permettono di associare descrizioni testuali a rappresentazioni visive. Questa capacità è cruciale per consentire ai robot di riconoscere e interagire con oggetti descritti in linguaggio naturale. L'obiettivo della tesi è sviluppare un sistema che permetta al robot di localizzare e manipolare oggetti a partire da comandi testuali, utilizzando un VLM per il riconoscimento visivo e l’associazione linguistica.

Strumenti

Python, ROS2, CLIP/BLIP, Gemma3, camera RGB-D, RViz, MoveIt2

Docente di riferimento

Alberto Finzi - Questo indirizzo email è protetto dagli spambots. E' necessario abilitare JavaScript per vederlo.