Una serie di articoli che guidano il lettore verso la comprensione dei grandi modelli di Natural Language Processing a cui Google, Microsoft e Nvidia stanno dando la caccia e ai campi di applicazione nei quali Machine Learning Reply li ha adottati.
A partire dal 2018 tutti i più grandi laboratori di Intelligenza Artificiale hanno iniziato una vera e propria corsa all’oro per lo sviluppo di modelli di Natural Language Processing sempre più complessi aventi una crescita esponenziale nel numero di pesi utilizzati.
Questi Language Models sono sempre più abili nell'individuare pattern nel linguaggio umano e quindi nell’acquisire una sorta di conoscenza di quelle regole che noi definiamo come sintassi, grammatica, entità, stile, ecc. aprendo scenari fino a pochi anni fa impensabili.
Sebbene allo stato attuale alcuni di questi modelli non siano ancora pronti per l’utilizzo in produzione, buona parte di queste tecnologie è già in grado di trovare applicazione in ambiti come la creazione di chatbot con maggiore consapevolezza del contesto, il miglioramento di motori di ricerca semantici, la creazione di strumenti di document retrival per semplificare l’utilizzo di piattaforme, l'automatizzazione del processo di ticket management e molti altri in cui Machine Learning Reply è impegnata attivamente supportando i propri clienti.
Con questa serie di articoli Machine Learning Reply intende offrire una comprensione dettagliata di come questi modelli in continua evoluzione siano in grado di ottenere ottimi risultati e dove si stia spingendo la ricerca e lo stato dell’arte in questo ambito.
In questo articolo esploriamo una particolare forma di architettura encoder-decoder chiamata sequence-to-sequence che punta a migliorare le prestazioni della traduzione automatica e che ha gettato le basi per molti progressi nella modellizzazione neurale del linguaggio naturale.
L'applicazione di un layer di attention ai modelli sequence-to-sequence consente di ottenere traduzioni migliori selezionando per ogni parola della traduzione in output le parti dell'input maggiormente influenti su quella specifica parola.
I ricercatori di Google hanno affermato che le Recurrent Neural Network sono solo un peso per i modelli sequence-to-sequence. Ora che disponiamo del meccanismo di attention al nostro fianco, possiamo esaminare l'intera frase in una sola volta e quindi usare l'attenzione per selezionare le parti importanti.
Basato sul modello Transformer, all'inizio del 2019 Open AI ha annunciato un modello in grado di generare testi lunghi con un incredibile grado di coerenza e una sintassi quasi perfetta. I ricercatori si sono preoccupati del problema delle applicazioni malevoli e il modello completo non è stato rilasciato fino a novembre 2019. In che modo questo modello può essere una minaccia e come funziona?