Può questo minuscolo modello di linguaggio sconfiggere il gigantesco GPT3?

Mentre GPT-3 si è vantato di ottenere prestazioni all’avanguardia su compiti complessi di PNL con centinaia di miliardi di parametri, i ricercatori della LMU di Monaco, in Germania, hanno proposto un modello linguistico in grado di mostrare risultati simili con molti meno parametri.

GPT-3 è stato addestrato su 175 miliardi di parametri e quindi ha mostrato notevoli capacità di pochi colpi, e riformulando alcune attività e suggerendo input, ha anche mostrato capacità immense sul benchmark SuperGLUE. Tuttavia presenta due svantaggi più significativi: i modelli di grandi dimensioni non sono sempre fattibili per scenari del mondo reale e con la finestra di contesto di questi modelli mostruosi è limitata a poche centinaia di gettoni, non scala più di pochi esempi.

E così, i ricercatori hanno proposto un’alternativa al priming, cioè Pattern Exploiting Training (PET), che fonde il mare di riformulare i compiti con le domande di Cloze insieme alla regolare regolazione fine basata sul gradiente. Il PET richiedeva dati senza etichetta, che è più facile da raccogliere rispetto ai dati etichettati, rendendolo così utilizzabile per applicazioni del mondo reale. Il vantaggio più significativo che fornisce è quando il risultato previsto da questi grandi modelli linguistici come GPT-3 corrisponde a un singolo token nel suo vocabolario, che diventa difficile per molte attività di PNL.

(segue sul link originale)

FONTE: https://analyticsindiamag.com/can-this-tiny-language-model-defeat-gigantic-gpt3/
Se ti è piaciuto il contenuto: condividilo!

You may also like...

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Translate »