Daniel Rausch di Amazon presenta un’anteprima del futuro di Alexa
Con l’intelligenza artificiale generativa che porta la nostra stella polare per Alexa a portata di mano, stiamo presentando in anteprima un nuovo modello linguistico di grandi dimensioni e una suite di funzionalità di intelligenza artificiale conversazionale che contribuiranno a fornire un Alexa ancora più intuitivo, intelligente e utile.
Negli ultimi anni abbiamo spesso parlato di come stiamo vivendo nell’era d’oro dell’intelligenza artificiale (AI). Idee che fino a non molto tempo fa sembravano fantascienza sono ora una realtà e non c’è esempio migliore di Alexa.
Ciò che era iniziato come uno schizzo su una lavagna si è evoluto in un paradigma informatico completamente nuovo, che ha cambiato radicalmente il modo in cui le persone in tutto il mondo interagiscono con la tecnologia nelle loro case.
Avendo superato il mezzo miliardo di dispositivi venduti e con decine di milioni di interazioni ogni ora, Alexa è diventata parte della famiglia in milioni di famiglie. Abbiamo sempre pensato ad Alexa come a un servizio in evoluzione e lo abbiamo migliorato continuamente dal giorno in cui lo abbiamo introdotto nel 2014.
Una missione di lunga data è stata quella di rendere una conversazione con Alexa naturale come parlare con un altro essere umano, e con il rapido sviluppo dell’intelligenza artificiale generativa, ciò che immaginavamo è ora a portata di mano. Oggi siamo entusiasti di condividere un’anteprima di come sarà il futuro.
Questo è un primo sguardo ad un Alexa più intelligente e conversazionale, alimentato dall’intelligenza artificiale generativa. Si basa su un nuovo modello linguistico di grandi dimensioni (LLM) che è stato creato su misura e ottimizzato specificamente per le interazioni vocali e per le cose che sappiamo che i nostri clienti amano: ottenere informazioni in tempo reale, controllo efficiente della casa intelligente e massimizzare l’intrattenimento domestico.
Riteniamo che questo guiderà il futuro di Alexa, consentendoci di migliorare cinque funzionalità fondamentali:
Conversazione
Abbiamo studiato molto sulla conversazione negli ultimi anni e sappiamo che la conversazione va oltre le parole. In ogni conversazione, elaboriamo tantissime informazioni aggiuntive, come il linguaggio del corpo, la conoscenza della persona con cui stai parlando e il contatto visivo.
Per consentire ciò con Alexa, abbiamo fuso l’input dei sensori in un Echo (la fotocamera, l’input vocale, la sua capacità di rilevare la presenza) con modelli di intelligenza artificiale in grado di comprendere quei segnali non verbali.
Ci siamo anche concentrati sulla riduzione della latenza in modo che le conversazioni scorrano in modo naturale, senza pause, e le risposte abbiano la lunghezza giusta per la voce, non l’equivalente di ascoltare paragrafo dopo paragrafo letto ad alta voce. Quando chiedi le ultime novità su una notizia di tendenza, ottieni una risposta concisa con solo le informazioni più rilevanti. Se vuoi saperne di più, puoi seguire.
Utilità nel mondo reale
Per essere veramente utile, Alexa deve essere in grado di agire nel mondo reale, che è stata una delle sfide irrisolte con gli LLM: come integrare le API su larga scala e invocarle in modo affidabile per intraprendere le azioni giuste.
Questo nuovo Alexa LLM sarà connesso a centinaia di migliaia di dispositivi e servizi reali tramite API. Migliora anche la capacità di Alexa di elaborare sfumature e ambiguità, proprio come farebbe una persona, e di agire in modo intelligente.
Ad esempio, LLM ti dà la possibilità di programmare routine complesse interamente con la voce: i clienti possono semplicemente dire: “Alexa, ogni sera alle 21:00, annuncia che è ora di andare a letto per i bambini, abbassa le luci al piano di sopra, accendi la luce del portico e accendi il ventilatore in camera da letto.“
Alexa programmerà quindi automaticamente quella serie di azioni da eseguire ogni notte alle 21:00.
Personalità
I clienti ci hanno ripetuto più volte di amare la personalità di Alexa. Non vuoi un compagno robotico meccanico nella tua casa, e direi che la personalità di Alexa è uno dei motivi principali per l’ampia adozione di Alexa. Come abbiamo sempre detto, la cena più noiosa è quella in cui nessuno ha un’opinione e, con questo nuovo LLM, Alexa avrà un punto di vista, rendendo le conversazioni più coinvolgenti. Alexa può dirti quali film avrebbero dovuto vincere un Oscar, festeggiare con te quando rispondi correttamente a una domanda del quiz o scrivere una nota entusiasta da inviare per congratularsi con un amico per la sua recente laurea.
Fiducia
Non dovrebbe esserci alcun compromesso tra affidabilità e prestazioni. I clienti di tutto il mondo hanno accolto Alexa nella loro casa e, per essere veramente utili nella loro vita quotidiana, dobbiamo continuare a creare esperienze che amano e di cui si fidano. Anche se l’integrazione dell’intelligenza artificiale generativa offre infinite nuove possibilità, il nostro impegno nel guadagnare la fiducia dei nostri clienti non cambierà. Come con tutti i nostri prodotti, progetteremo esperienze per proteggere la privacy e la sicurezza dei nostri clienti e per dare loro controllo e trasparenza.
Per quanto ne sappiamo, questa è la più grande integrazione tra un LLM, servizi in tempo reale e una suite di dispositivi e non si limita a una scheda in un browser. E siamo appena all’inizio: con l’intelligenza artificiale generativa siamo anche in grado di migliorare una serie di componenti fondamentali dell’esperienza Alexa.
Uno di questi componenti è il modo in cui i clienti iniziano un’interazione con Alexa. Ciò si baserà sull’esperienza esistente oggi consentendo ai clienti che scelgono di iscriversi a Visual ID di avviare una conversazione con Alexa semplicemente rivolgendosi allo schermo in un Echo Show, senza che sia necessaria una parola di attivazione. Il risultato è l’esperienza di conversazione più naturale che abbiamo mai creato. In secondo luogo, abbiamo creato un motore completamente nuovo di riconoscimento vocale conversazionale (CSR) utilizzando modelli di grandi dimensioni. Come esseri umani, spesso facciamo una pausa durante la conversazione per raccogliere i nostri pensieri o enfatizzare un punto, e identificare questi segnali è incredibilmente difficile per un’intelligenza artificiale.
Questo nuovo motore CSR è in grado di adattarsi alle comuni pause ed esitazioni naturali, consentendo una conversazione più fluida e naturale. Infine, l’intelligenza artificiale generativa ci ha permesso di migliorare la nostra tecnologia di sintesi vocale, utilizzando un modello di trasformatore di grandi dimensioni per rendere Alexa molto più espressiva e in sintonia con i segnali di conversazione.
Ciò significa che Alexa si adatterà ai tuoi segnali e modulerà la sua risposta e il suo tono in modo simile alle conversazioni umane. Chiedi ad Alexa se la tua squadra ha vinto e, in tal caso, risponderà con voce gioiosa; se hanno perso, la risposta è più empatica. Chiedi un parere ad Alexa e la risposta sarà più entusiasta, come se un amico condividesse un punto di vista.
Conclusione
Questi miglioramenti prenderanno quella che è già la migliore intelligenza artificiale personale al mondo e la renderanno ancora migliore. Ho utilizzato queste nuove funzionalità negli ultimi mesi e mi sembra altrettanto trasformativo come la prima volta che ho provato a parlare con Alexa circa dieci anni fa. Questo non vuol dire che sarà perfetto (Alexa commetterà degli errori) ma, come sempre, l’esperienza continuerà a migliorare nel tempo.
Siamo all’inizio di un viaggio, una fondazione che crediamo porterà a una nuova versione di Alexa basata sull’intelligenza artificiale generativa. Continueremo a sviluppare e aggiungere ulteriori funzionalità come parte di un’anteprima gratuita, che sarà presto disponibile per i clienti Alexa negli Stati Uniti. Sappiamo che i clienti avranno molti feedback e non vediamo l’ora di ascoltarli.
Resta sintonizzato per saperne di più.
Scritto da Daniel Rausch, Vicepresidente, Alexa e Fire TV