Google Gemini: la nuova frontiera dell’intelligenza artificiale

Annunciato alla conferenza degli sviluppatori I/O a maggio Google ha finalmente presentato Gemini, il primo modello di intelligenza artificiale multimodale. cioè in grado di comprendere e operare su diversi tipi di informazioni, tra cui testo, codice, audio, immagini e video. Si aspettava da tempo una risposta vera a ChatGpt e all’Ai Gen da parte dell’azienda che ha inventato i transformer ed è arrivata.

In una nota nel blogpost gli scienziati di Mountain View scrivono che è anche il modello più flessibile di Google AI, in grado di funzionare su qualsiasi dispositivo, dai data center ai dispositivi mobili. Si presenta in tre versioni: Gemini Ultra, il modello più grande e in grado di eseguire compiti altamente complessi. Gemini Pro che entrerà dentro in Bard e nel motore di ricerca e Gemini Nano che è il modello più efficiente in grado di lavorare anche negli smartphone a partire dalla famiglia Pixel . Quello Ultra, il più potente, secondo quanto emerge da una tabella ha prestazioni superiori a quelle di Gpt-4.

La differenza tra Gemini Ultra e ChatGpt (e noi umani)

Gemini Ultra è il primo modello a superare gli esperti umani in MMLU (massive multitask language understanding), che utilizza una combinazione di 57 soggetti come matematica, fisica, storia, diritto, medicina ed etica per testare sia la conoscenza del mondo che le capacità di risoluzione dei problemi. Vuole dire che risponde a domande, sintetizza il testo e traduce meglio degli umani. Ricordiamo però che questi sistemi inducono, deducono ma non sono ancora in grado di formulare ragionevoli ipotesi su una situazione osservata, di operare cioè un ragionamento sulla migliore spiegazione dei fatti. Gpt-4 non è multimodale nel senso tradizionale del termine. È un modello di linguaggio avanzato che può comprendere e generare testo, ma non elabora direttamente input di altri tipi, come immagini o suoni. Tuttavia, GPT-4 può interagire con altri strumenti e modelli che gestiscono input multimodali. Ad esempio, può utilizzare DALL-E per creare immagini da descrizioni testuali o collaborare con sistemi di elaborazione del suono per applicazioni specifiche. Quindi, mentre GPT-4 stesso non è multimodale, può essere parte di un sistema multimodale più ampio. Gemini Ultra eccelle in diversi benchmark di codifica, tra cui HumanEval, un importante standard industriale per valutare le prestazioni nelle attività di codifica, e Natural2Code, il dataset interno che utilizza fonti generate dall’autore anziché informazioni basate sul web .Gemini può anche essere utilizzato come motore per sistemi di codifica più avanzati.

Cosa sa fare di nuovo Gemini?

Gemini si affida all’apprendimento automatico “per rinforzo”. Cioè a un sistema di premio e punizioni per insegnare come comportarsi a seconda delle situazioni in ambito AI generativa. Questo modello è stato addestrato a riconoscere e comprendere testo, immagini, audio e altro ancora simultaneamente, in modo da comprendere meglio le informazioni sfumate e rispondere alle domande relative a argomenti complessi. Questo, scrive Google, lo rende particolarmente bravo a spiegare il ragionamento in soggetti complessi come la matematica e la fisica. Le demo mostrate svelano una capacità di ragionamento multimodale: vuole dire che riesce a dare senso a informazioni scritte e visive complesse. Per esempio è in grado di contestualizzare quello che vede e rispondere alle domande relative ad argomenti complicati. Ciò lo rende particolarmente bravo a spiegare il ragionamento in soggetti complessi come la matematica e la fisica.

Come è stato realizzato

Gemini è stato addestrato su una generazione di accelleratori proprietari Tensor Processing Units (TPUs) V4 e v5 che Google ha definito più potenti, scalabili ed efficienti. Insieme a Cloud TPU v5p, progettato per l’addestramento di modelli di intelligenza artificiale all’avanguardia questa nuova generazione di TPU annunciata oggi «accelererà lo sviluppo di Gemini e aiuterà gli sviluppatori e i clienti aziendali ad addestrare modelli di intelligenza artificiale generativa su larga scala più velocemente». il sistema risponde ai principi di Ai responsabile di Google e ha valutazioni di sicurezza più complete di qualsiasi modello di intelligenza artificiale realizzati a Mountain View fino ad oggi, comprese quelle per i pregiudizi e la tossicità. Google utilizza benchmark come Real Toxicity Prompts, un set di 100.000 prompt con vari gradi di tossicità estratti dal web, sviluppato da esperti dell’Allen Institute of AI. Ulteriori dettagli su questo lavoro saranno disponibili a breve.

Fonte: Il Sole 24 Ore