BLIP: descrivi un’immagine

by randomdigitalmind · 20 Aprile 2022

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (Salesforce Research). Per usarlo, basta caricare la tua immagine, o cliccare su uno degli esempi per caricarli.

Il preaddestramento del linguaggio della visione (VLP) ha migliorato le prestazioni di molti compiti di visione e linguaggio. Tuttavia, la maggior parte dei modelli pre-addestrati esistenti eccellono solo in compiti basati sulla comprensione o sulla generazione. Inoltre, il miglioramento delle prestazioni è stato ottenuto in gran parte scalando il dataset con coppie di immagini e testi rumorosi raccolti dal web, che è una fonte di supervisione non ottimale. In questo articolo, proponiamo BLIP, una nuova struttura VLP che si trasferisce in modo flessibile sia alla comprensione del linguaggio visivo che ai compiti di generazione. BLIP utilizza efficacemente i dati web rumorosi attraverso il bootstrapping delle didascalie, dove un didascalista genera didascalie sintetiche e un filtro rimuove quelle rumorose.

Link: https://huggingface.co/spaces/Salesforce/BLIP
Fonte: https://arxiv.org/abs/2201.12086

Se ti è piaciuto il contenuto: condividilo!

RANDOM Digital Mind

BLIP: descrivi un’immagine

You may also like...

Articoli recenti

Mondi virtuali e intelligenza artificiale: quando gli agenti generativi imitano il comportamento umano

Auto-GPT: Un esperimento automatico con GPT-4

D-ID dona un volto e una voce a ChatGPT di OpenAI

Synthesizer V [Dreamtronics]

chatGPT

Link

Utilità

sponsor