L’evoluzione della tecnologia degli agenti AI vocali secondo indigo.ai

Secondo il report Customer Experience Unlocked 2025 di indigo.ai, piattaforma specializzata nella creazione di assistenti virtuali basati sull’AI conversazionale, gli italiani parlano sempre più spesso con gli assistenti virtuali vocali con 7 utenti su 10 che li utilizzano abitualmente.

Tuttavia, quando si interfacciano con voicebot di prima generazione, i livelli di soddisfazione sono limitati: solo il 35% apprezza questo tipo di interazioni, che vengono però compromesse da risposte non accurate (64%) e dalla complessità dei passaggi necessari per arrivare a una soluzione (46%). Un dato che racconta una grande opportunità, ma anche un gap tecnologico e di design dell’esperienza ancora da colmare.

Nel contesto delle interazioni vocali, la qualità dell’esperienza dipende in modo determinante dalla rapidità con cui un sistema è in grado di rispondere. Si stima che risposte fornite entro i 2 secondi facciano sì che l’interazione sia considerata perfetta, tra 2 e 4 secondi migliorabile ma accettabile, mentre tra i 4 e gli 8 secondi il dialogo inizia a diventare difficoltoso e oltre i 10–12 secondi può essere percepito come fallimentare.

Oggi, i sistemi vocali presenti sul mercato si basano su un’architettura costruita su tre passaggi sequenziali: ascoltare (speech-to-text), capire (grazie ai large language models) e rispondere (text-to-speech). Per il futuro, le evoluzioni in termini di voice AI punteranno su un ripensamento radicale dei processi di elaborazione, con un approccio che privilegia la simultaneità delle operazioni e riduce i tempi di attesa.

La nuova frontiera degli agenti AI vocali sarà rappresentata dall’introduzione dei modelli audio-to-audio, che permetteranno di superare la classica alternanza tra voce e testo. Grazie a questa architettura, lo scambio tra utente e agente AI avverrà tramite un flusso continuo di audio che viene elaborato e generato in tempo reale. Sulla base di una dinamica multi-agent, le conversazioni verranno gestite interamente da agenti AI vocali: questi decideranno quando coinvolgere agenti AI testuali per effettuare azioni complesse restando “in silenzio”, così da dare poi un riscontro all’utente in modalità esclusivamente audio.

“Il modello voice2voice rappresenterà la frontiera più avanzata dell’interazione vocale basata sull’intelligenza artificiale – spiega Gianluca Maruzzella, ceo e co-founder di indigo.ai – oggi non si è ancora arrivati a quel livello di maturità tecnologica, che richiederà tempo per essere tradotta in soluzioni pienamente operative. Tuttavia, è fondamentale continuare a guardare avanti, investendo in architetture e competenze che permettano di non farsi trovare impreparati”.

Information: News | 09 Marzo 2026; | AI | Indigo.ai | agentic AI | assistenti virtuali | voicebot