Speech-to-Retrieval, Google svela un nuovo approccio alla ricerca vocale
Tra modelli di intelligenza artificiale e assistenti vocali evoluti, anche la ricerca si evolve con un nuovo approccio coniato da Google come Speech-to-Retrieval: l’annuncio giunge da un articolo di blog pubblicato Ehsan Variani e Michael Riley, ricercatori scientifici di Google Research.
Disponibile ormai da anni, la ricerca di informazioni sul web attraverso la voce continua a essere utilizzata ancora oggi da molte persone. Ciò nonostante, se inizialmente la tecnologia di ricerca vocale utilizzata da Google ricorreva al riconoscimento vocale automatico (ASR) in grado di trasformare un input audio in una query testuale per poi eseguire la ricerca di documenti corrispondenti, è stato verificato che bastano minimi errori nel riconoscimento vocale per alterare il significato della query e restituire all’utente risultati errati. I ricercatori spiegano nell’articolo come una ricerca vocale possa dare risultati scorretti, fornendo un esempio concreto: un utente pronuncia la richiesta “the Scream painting” con l’intento di ottenere informazioni sulla celebre opera di Edvard Munch, tuttavia se il sistema ASR scambia la “m” in “n” la query viene trascritta in “screen painting” fornendo quindi risultati afferenti alle tecniche pittoriche anziché al capolavoro dell’artista. A tal proposito risulta efficace il nuovo motore Speech-to-Retrieval (S2R) capace di interpretare e recuperare le informazioni da una query vocale senza effettuare il passaggio intermedio ovvero la trascrizione testuale, poiché suscettibile di artefatti: infatti, se le tecnologie di ricerca vocale più comuni si basano sulla domanda “Quali parole sono state pronunciate”, il modello S2R risponde alla domanda “Quali informazioni si stanno cercando?”.
Il modello annunciato si basa su un’architettura a doppio codificatore che prevede due reti neurali che apprendono da enormi quantità dai dati al fine di comprende le relazioni tra quanto pronunciato dall’utente e le informazioni a disposizione: un codificatore elabora l’audio convertendolo in una rappresentazione vettoriale da cui coglie il significato semantico, dall’altra parte un secondo codificatore elabora una rappresentazione vettoriale per i documenti. In altri termini, nel momento in cui un utente pronuncia una query di ricerca vocale, l’audio viene trasmesso in streaming a un codificatore ovvero un modello pre-addestrato capace di trasformare i suoni in dati: da questo processo nasce una sorta di impronta digitale che cattura il significato profondo della richiesta e viene poi utilizzato per identificare un set di risultati pertinenti attraverso un processo di classificazione delle ricerche. Ovviamente questo è solo il primo passaggio poiché il risultato finale è sempre gestito dal sistema di ranking che intreccia centinaia di segnali utili per comprendere la pertinenza, la qualità e altre informazioni per stilare l’elenco finale dei risultati affinché siano più utili e vicini alle intenzioni di ricerca dell’utente.
Per concludere, la ricerca vocale basata su S2R non è solo un esperimento accademico ma un’evoluzione ormai operativa. Infatti, grazie alla stretta collaborazione tra i team di Google Research e Search, questi modelli di nuova generazione sono oggi implementati in più lingue offrendo un netto miglioramento in termini di accuratezza e latenza rispetto ai tradizionali sistemi. Inoltre, al fine di supportare l’avanzamento della ricerca in questo ambito, Google ha deciso di rendere open source il dataset SVQ (Spoken Query Dataset) come parte del Massive Sound Embedding Benchmark (MSEB): condividendo queste risorse, infatti, la società di Mountain View intende stimolare la comunità scientifica globale a sperimentare, confrontare modelli e contribuire alla creazione della prossima generazione di interfacce vocali intelligenti, capaci di comprendere e rispondere con naturalezza alle sfumature del linguaggio umano.
Fonte: Il Sole 24 Ore