Il famigerato robot Asimo è stato dotato una serie di 8 microfoni disposti intorno alla testa che gli permettono di distinguere e comprendere le voci di tre persone differenti che parlano nello stesso momento.
Il risultato è che al momento Asimo può fare da giudice in una partita a “sasso, carta e forbice” disputata all’unisono. Un po’ poco, è vero, ma la scienza inizia quasi sempre a piccoli passi…
L’intuizione dei ricercatori è stata quella di far riconoscere le voci non per il timbro, ma per la provenienza spaziale, da cui appunto l’uso di otto microfoni distinti, prima di passare il flusso al software di riconoscimento vocale. Questo software è chiamato HARK e non fa distinzioni e priorità tra le voci, trattandole tutte allo stesso modo e permettendo di separarle in una fase successiva. Sebbene intorno al robot possano esserci anche 10 persone, per adesso 3 è il numero massimo di voci su cui Asimo si può “concentrare” per mantenere una accuratezza tra il 70 e l’80%.
Le sfide adesso sono chiaramente:
- aumentare il numero di vocaboli percepiti dal sistema
- aumentare l’accuratezza sino al 100%
- aumentare il numero di “flussi”
A prescindere dall’uso puramente dimostrativo su Asimo, gli scenari sono abbastanza interessanti: tra qualche anno potremmo avere un oggetto che posto al centro di una stanza registra separatamente le voci di un tot di persone durante una riunione, senza bisogno di microfonarle singolarmente, e permettendo in una fase successiva di eliminare dalla “bobina” i contributi inutili. Allo stesso modo, quando in un futuro ancora piuttosto lontano esisteranno robot-camerieri, sarà possibile effettuare più ordinazioni contemporaneamente.
Le possibili applicazioni sono molteplici come sempre, ma la tecnologia mi sembra parecchio interessante, anche se sottintende a un assioma abbastanza preoccupante: siccome non possiamo fare a meno di fare confusione, demandiamo a una macchina il compito di fare ordine.
[fonte NewsScientist ]
Ma al robot cameriere cosa si lascia per mancia? Le duracell XD?
(scusate, dovevo dirla e non ho resistito)
hehe
cmq interessante questa tecnologia.
un robot che riesce a capire da dove viene la voce…
certo che usarlo come registratore
senz’altro una buona invenzione, anche se applicata ad un robot sperimentale sembra più un esercizio di stile.
Molto interessante anche per il riconoscimento vocale: dotando il PC di due microfoni (una banale registrazione stereo, quindi già supportata da praticamente tutto l’HW audio esistente) si può creare un filtro spaziale che permette di separare facilmente il rumore dalla voce. Cioè: se sposto la sedia o bussano alla porta, il riconoscitore vocale ignora il disturbo e non si impalla. E riesce a riconoscere e seguire la mia voce anche se un altro sta parlando in quel momento nella stanza…
Ora rimane solo da far funzionare il riconoscimento vocale in sé ^_^
“Ora rimane solo da far funzionare il riconoscimento vocale in sé”
La Nuance sembra quasi esserci riuscita con il suo Dragon Naturally Speaking. Funziona abbastanza egregiamente.
Domanda insulsa: noi umani riusciamo a gestire solo una voce per volta?
a “sasso, carta e forbice” direi di no, anche 3. Invece in una conversazione si riesce a distinguere 2 voci ma seguirle entrambe è un’impresa. Tre mi sembra veramente impossibile.
Conosco delle ragazze che sono capaci di seguire 2 conversazioni contemporaneamente…ma credo sia una dote tutta al femminile…