Può questo minuscolo modello di linguaggio sconfiggere il gigantesco GPT3?
Mentre GPT-3 si è vantato di ottenere prestazioni all’avanguardia su compiti complessi di PNL con centinaia di miliardi di parametri, i ricercatori della LMU di Monaco, in Germania, hanno proposto un modello linguistico in grado di mostrare risultati simili con molti meno parametri.
GPT-3 è stato addestrato su 175 miliardi di parametri e quindi ha mostrato notevoli capacità di pochi colpi, e riformulando alcune attività e suggerendo input, ha anche mostrato capacità immense sul benchmark SuperGLUE. Tuttavia presenta due svantaggi più significativi: i modelli di grandi dimensioni non sono sempre fattibili per scenari del mondo reale e con la finestra di contesto di questi modelli mostruosi è limitata a poche centinaia di gettoni, non scala più di pochi esempi.
E così, i ricercatori hanno proposto un’alternativa al priming, cioè Pattern Exploiting Training (PET), che fonde il mare di riformulare i compiti con le domande di Cloze insieme alla regolare regolazione fine basata sul gradiente. Il PET richiedeva dati senza etichetta, che è più facile da raccogliere rispetto ai dati etichettati, rendendolo così utilizzabile per applicazioni del mondo reale. Il vantaggio più significativo che fornisce è quando il risultato previsto da questi grandi modelli linguistici come GPT-3 corrisponde a un singolo token nel suo vocabolario, che diventa difficile per molte attività di PNL.
(segue sul link originale)
FONTE: https://analyticsindiamag.com/can-this-tiny-language-model-defeat-gigantic-gpt3/