Google BERT
Prima di proseguire, una breve panoramica sul modello di Machine Learning presentato da Google: BERT.
Con BERT (Bidirectional Encoder Representations from Transformers) si fa riferimento ad un articolo pubblicato nella primavera 2019 da un gruppo di ricercatori di Google AI Language. I risultati presentati hanno fatto scalpore nella comunità del Machine Learning, in particolar modo possiamo citare come di particolare impatto il task relativo alla risposta automatizzata alle domande (SQuAD v1.1).
La particolarità del modello consiste nell’applicazione della tecnica bidirezionale dei Transformer, il cui modello è abbastanza noto nell’ambito applicativo della compressione.
Alla base dei Transformer, schematizzati nell'immagine seguente, vi è il meccanismo di apprendimento delle relazioni contestuali tra parole (anche tra parole definite secondarie, ovvero non propriamente rilevanti nel contesto di una frase).
Nella pratica, un Transformer effettua una codifica del testo ricevuto in input e genera una decodifica della previsione fatta in base all’attività per cui è trainato il modello nel quale è stato applicato. La differenza, rispetto agli approcci bidirezionali, i quali leggono il testo in sequenza, consiste nel leggere tale sequenza di parole in contemporanea.
Tale approccio, illustrato nell'immagine seguente, risulta in contro tendenza rispetto a quelli presenti in letteratura fino a quel momento, i quali si basavano sull’analisi delle sequenze di testo da sinistra a destra e viceversa.
Se fino a quel momento, un Transformer veniva considerato bidirezionale, nella realtà dei fatti, con l’introduzione del modello Google BERT, si è passati ad un approccio non direzionale. Questa sua caratteristica permette al modello di apprendere il contesto di una parola in base a tutto ciò che la circonda, non solo basandosi sulla parola precedente e su quella successiva.
Durante le fasi di training, il modello BERT riceve in input una coppia di frasi, sotto forma di sequenze di token, ed impara a prevedere se la seconda sequenza di token risulta essere la frase successiva della prima sequenza nel documento originale (corpora).
Per maggiori approfondimenti si consiglia la lettura del paper.