Nell'Elaborazione del Linguaggio Naturale (NLP) le performance di un modello basato su Machine Learning è fortemente influenzato dalla qualità del dataset disponibile e dalla
varietà dei dati al suo interno. L'ampiezza e la diversità del set di dati sono anche le difficoltà più ricorrenti in contesti reali. Gli utenti spesso hanno bisogno di molto tempo per recuperare un ampio numero di documenti per arricchire il dataset per l'allenamento del modello NLP, e talvolta non riescono proprio perché non ci sono sufficienti esempi da utilizzare.
Il candidato acquisirà una solida comprensione e gestione nell’utilizzo dei più avanzati modelli LLM, per creare una pipeline di arricchimento di dataset, fruttando dati reali forniti dal business. L’applicazione di tali modelli verrà effettuata su diversi casi reali.
L'integrazione di questi modelli, implica la necessità di interfacciarsi con diverse tecnologie come: Python, Transformers, LLM, Generative AI, Deep Learning, Machine Learning, TensorFlow, PyTorch, Hardware GPU. Infine, il lavoro si completerà con una fase di test e validazione, dove i risultati ottenuti saranno confrontati con standard di riferimento, valutandone le performance e identificando eventuali aree di miglioramento.