Nel corso degli ultimi anni, abbiamo assistito al decollo definitivo delle tecnologie basate sulla sintesi e sul riconoscimento vocale. Originariamente proposte per le applicazioni desktop, oggi in forte espansione nei servizi di telefonia e di rete in generale. La tecnologia vocale consta sostanzialmente di due tecnologie distinte: il riconoscimento vocale ASR ( Automatic Speech Recognition ) e la sintesi vocale TTS ( Text To Speech ).
La prima tecnologia permette il riconoscimento del parlato dell’utente tramite un microfono, mentre la seconda il parlato della macchina all’utente. Molti fattori in questi ultimi anni hanno contribuito alla definitiva maturazione di questa tecnologia e gli elementi più importanti di questo cammino di crescita sono:
Il motore ASR, quindi quello per il riconoscimento vocale, è il più complesso. Riconoscere le parole pronunciate, infatti, è un’operazione estremamente articolata e consiste nell’analisi statistica del segnale in uscita dal microfono. Esistono sostanzialmente due tipi di riconoscimento vocale: per comando e per dettatura.
Il riconoscimento vocale per comando è il più semplice dei due e comporta una minore utilizzazione di risorse. In questo caso l’utente può pronunciare soltanto un insieme limitato di parole e viene utilizzato per l’interazione dell’utente con gli applicativi. Oggi questo tipo di riconoscimento vocale è indipendente dall’utilizzatore e quindi non si ha bisogno affatto di apprendimento da parte del motore. Il riconoscimento vocale per dettatura libera invece ha bisogno di maggiori risorse di sistema ed ha anche un maggior tasso di errore, che diminuisce in base al tempo utilizzato per addestrare il motore di riconoscimento.
La sintesi vocale è un processo certamente più semplice e del tutto indipendente dall’utente. Il parametro più importante da tenere in considerazione in questo caso, è la somiglianza della voce rispetto a quella umana e quindi alla sua comprensione e naturalezza. I motori di sintesi più recenti si sono ormai allontanati da quella metallicità che li caratterizzava fino a pochi anni fa. Questi risultano oggi molto comprensibili, non affaticanti e molto simili alla voce umana, grazie all’implementazione della prosodia, la musicalità e le variazioni di tono e di cadenza della voce.
Il campo di applicazione di queste tecnologie è molto ampio, si va dai semplici servizi di rete ai programmi di automazione di ufficio fino alla demotica. Noi di RGPSoft siamo da tempo molto attenti all’evoluzione di queste applicazioni ed in futuro vorremmo implementare tali servizi di riconoscimento vocale anche all’interno dei nostri software gestionali, ma il problema più grande fino ad ora si è manifestato con il dover far acquistare la licenza del motore di riconoscimento vocale, quindi vorremmo creare dei moduli acquistabili a parte per coloro i quali necessitano di tali strumenti. In passato ho creato personalmente un applicativo molto semplice che utilizzando il motore di Microsoft SAPI ( Speech Application Programming Interface ) con gli Agents di Microsoft, permetteva di far colloquiare un bambino con l’applicativo per lo studio dell’alfabeto. Se volete potete scaricare i sorgenti in formato C++ del programma “Paroliamo” in questa pagina, occorre però installare un ASR in Italiano come ViaVoice e un TTS come quello di Microsoft Agents.
Sono arrivato alla convinzione che un abbonamento per tutti i miei software gestionali sia il…
MerciGest è un software per la gestione del magazzino completamente gratuito. Continua a leggere→
In ufficio può capitare di doversi allontanare dal proprio posto di lavoro, ecco che allora…
In questo articolo vedremo quando è più o meno utile togliere la corrente ad un…
Dopo la pausa invernale dovuta al lavoro che devo fare per sostentarmi, eccomi di nuovo…
Vediamo come eliminare i files direttamente da Windows senza utilizzare il cestino. Continua a leggere→