Com’è questo Gpt 5: ecco i primi giudizi degli esperti internazionali

Com’è questo Gpt 5: ecco i primi giudizi degli esperti internazionali

A proposito di progressi pratici, l’azienda dice anche che le allucinazioni sono diminuite del 26 per cento e ora c’è il 44 per cento di possibilità in meno che una risposta contenga un errore fattuale importante. Su questo c’è per ora solo la voce dell’azienda, ma gli esperti già dicono che anche se fosse così non sarebbe comunque ottimale: significa che una risposta su dieci può ancora contenere allucinazioni, nota Mashable, ed è gravissimo con un uso che diventa sempre più comune: chiedere responsi medici a Chatgpt.

OpenAI ha testato Gpt 5 sul proprio benchmark interno, Simple QA. Questo test è una raccolta di “domande di ricerca di fatti con risposte brevi che misura l’accuratezza del modello per le risposte tentate”, secondo la descrizione della scheda del sistema. Per questa valutazione, GPT-5 non aveva accesso al web e le allucinazioni sono quindi altissimi: 47 per cento (40 per cento con il ragionamento), contro il 52 per cento del 4o.

Beth Barnes, fondatrice dell’organizzazione no profit di ricerca sull’intelligenza artificiale Metr, ha subito individuato un’inesattezza in una risposta di GPT-5 che spiega il funzionamento degli aerei.

Programmazione

Molti poi citano il progresso nel coding come uno dei traguardi più importanti in Gpt 5, colmando così le distanze con Claude Sonnet di Anthropic (ora lo strumento AI più diffuso per programmare). I dati condivisi da OpenAI e rilanciati dalle testate tecniche mostrano che il modello ottiene punteggi più alti in benchmark software-oriented (SWE-Bench e analoghi); impiega meno token e meno chiamate a strumenti esterni per risolvere lo stesso problema. Lo scarto qui è duplice: non solo il modello è più accurato nel produrre codice utile, ma lo è in modo più efficiente, elemento che riduce costi d’uso su scala e aumenta l’appetibilità per prodotti commerciali che puntano all’automazione di parte del ciclo di sviluppo. Serviranno certo test approfonditi per capire la qualità reale rispetto ai concorrenti, a livello pratico e di integrazione con i sistemi terzi.

Finestra contestuale e multimodale

Meno centrali nel dibattito, ma non poco importanti, altre due questioni: la finestra contestuale e la multimodalità. Le analisi tecniche riportano che Gpt 5 è stato progettato per gestire contesti molto più ampi — i numeri variano a seconda delle fonti e della configurazione, ma la direzione è chiara: lavorare con documenti lunghi, progetti multiparte, o conversazioni con memoria estesa diventa praticabile senza dover continuamente ricapitolare informazioni. Questa capacità è stata letta da molti esperti (Tom’s Hardware, PanelsAI) come un fattore abilitante per applicazioni professionali: revisioni contrattuali, reportistica continua, analisi finanziarie che richiedono coerenza su centinaia di pagine possono ora essere pilotate con meno intervento umano. Allo stesso tempo, le fonti tecniche rimarcano che la parola “multimodale” va intesa in modo pragmatico: miglior integrazione di testo, immagini e dati strutturati è già presente; audio e video sono prospettive di lavoro, ma la robustezza pratica dipende da casi d’uso e pipeline di integrazione.

Fonte: Il Sole 24 Ore