BLIP: descrivi un’immagine

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (Salesforce Research). Per usarlo, basta caricare la tua immagine, o cliccare su uno degli esempi per caricarli.

Il preaddestramento del linguaggio della visione (VLP) ha migliorato le prestazioni di molti compiti di visione e linguaggio. Tuttavia, la maggior parte dei modelli pre-addestrati esistenti eccellono solo in compiti basati sulla comprensione o sulla generazione. Inoltre, il miglioramento delle prestazioni è stato ottenuto in gran parte scalando il dataset con coppie di immagini e testi rumorosi raccolti dal web, che è una fonte di supervisione non ottimale. In questo articolo, proponiamo BLIP, una nuova struttura VLP che si trasferisce in modo flessibile sia alla comprensione del linguaggio visivo che ai compiti di generazione. BLIP utilizza efficacemente i dati web rumorosi attraverso il bootstrapping delle didascalie, dove un didascalista genera didascalie sintetiche e un filtro rimuove quelle rumorose.

Link: https://huggingface.co/spaces/Salesforce/BLIP
Fonte: https://arxiv.org/abs/2201.12086
Se ti è piaciuto il contenuto: condividilo!

You may also like...

Translate »