di  -  mercoledì 22 maggio 2013

Riguardando la presentazione di Xbox One, una parte della quale era dedicata proprio alla capacità del dispositivo di reagire ai comandi vocali, mi sono messo a riflettere sul tema dell’interfacciamento vocale nella mia lingua madre, l’italiano.

È un tema che mi è caro fin dal tempo in cui, armato di interesse “scientifico” e dal pretesto di essere più produttivo nella redazione dei miei appunti di studio, acquistai Dragon Dictation per PC IBM VoiceType per Windows 9X – era la metà degli anni ’90 – e lo testai per una mezz’ora, tempo che mi bastò per capire che avevo buttato via centomila lire.

Uno dei motivi per cui sto sperimentando Android è la liberazione da Siri, uno strumento che allo stato attuale, per accuratezza e “intelligenza” basta a malapena a farsi una risata scoprendo le risposte che i programmatori Apple hanno pensato per variopinte sequenze d’insulti.

In questo merito anche Android mi ha piuttosto deluso: riconoscimento vocale più accurato ma risposte comunque poco pertinenti ed evidenti lacune quando si vada fuori dalla ricerca web (l’attivazione di applicazioni o di funzioni base del telefono). Problemi superabili, certo, ma che comunque sono sopravvissuti alla più recente release dell’OS mobile di Google (4.2.2) e che prevedibilmente resisteranno anche alla prossima.

Se oggi i problemi menzionati sono fastidiosi, cosa accadrà domani sui cd. “wearable device”, dispositivi indossabili il cui unico mezzo di input è, per l’appunto, vocale?

Cosa accadrà quando dirò al mio Google Glass “chiama Pasquale Trombetta” e come risposta otterrò una ricerca web avente come oggetto il citato contatto? O quando il fidato iWatch, alla domanda “chi è il regista di Iron Man” mi risponderà “purtroppo non capisco che registra di Cairo on me, ma potrei cercarlo su Internet” (cito un esempio documentato su Internet ma centro altri potrei trovarne se avessi il mio iPhone sottomano)?

7 Commenti »

I commenti inseriti dai lettori di AppuntiDigitali non sono oggetto di moderazione preventiva, ma solo di eventuale filtro antispam. Qualora si ravvisi un contenuto non consono (offensivo o diffamatorio) si prega di contattare l'amministrazione di Appunti Digitali all'indirizzo info@appuntidigitali.it, specificando quale sia il commento in oggetto.

  • # 1
    Massimo
     scrive: 

    “Il regista di Aironmen” viene risolto in “chi registra di Cairo on me” dal povero motore di riconoscimento vocale, che non può sapere che stai mischiando italiano e inglese nella stessa frase, e anche se lo sapesse dovrebbe poi sapere che Iron man è un film, e così via :-D

    Alla fine tutti i sistemi di riconoscimento vocale vanno a sbattere sullo stesso muro: la lingua è inevitabilmente ambigua, perché il significato dipende sempre dal contesto, poco o tanto che sia. Noi risolviamo l’ambiguità sia grazie al contesto che alla nostra conoscenza semantica, che ci porta a scartare immediatamente intere configurazioni sonore possibili, appena sentiamo la frase: ma un programma che si basa solo sul riconoscimento di suoni rimarrà sempre fregato.

    Il vero passoa vanti avverrà il giorno che i programmi riconoscitori incorporeranno una conoscenza semantica: solo allora le prestazioni e l’accuratezza miglioreranno decisamente.

    (incidentalmente, questo IMHO è anche il passo che permetterà ai computer di sviluppare una loro forma di autocoscienza… :-)

  • # 2
    Alessio Di Domizio (Autore del post)
     scrive: 

    Però Massimo ti dirò, su android trascrive effettivamente la stringa “regista di aironman” però l’intelligenza di google ci mette una pezza fornendoti il risultato giusto evidenziato. Il funzionamento però anche su android è troppo sporadico. Se questo è lo stato dell’arte a un dispositivo indossabile in Italia non vedo nemmeno come ci si possa pensare.

  • # 3
    mede
     scrive: 

    tempo fa anch’io provai un programma di riconoscimento vocale, credo fosse l’IBM voicetype per windows 95. dopo il periodo di training, in cui in teoria il pc avrebbe dovuto adattarsi alla mia voce ma in realtà sono stato io a incominciare a parlare senza inflessioni come un robot, il dettato funzionava ed era accettabile per l’epoca, a patto di essere in grado di normalizzare voce e livello del microfono ed evitare effetti “pop”, ma in generale era uno sfizio tecnologico e non un qualcosa di molto pratico (per utenti normodotati).

    è veramente curioso come microsoft per promuovere praticamente ogni iterazione di windows da allora presenti questa caratteristica come una novità irrinunciabile e assolutamente innovativa. non scordiamoci che è intergrata in windows 7, l’ho anche provata recentemente e di nuovo cestinata nell’arco di poche ore.

    oggi microsoft ha trovato un’altra via commerciale (per sfruttare gli investimenti infruttiferi di 15 anni in questo campo) nella xbox… i cui giovani utenti probabilmente non sono consapevoli di questo uccello padulo che gira in informatica da anni, e che in quest’ambito diventa, per l’ennesima volta, una novità.

    il mio primo cellulare era un philips genie, fine anni 90, e aveva già la funzione di chiamata tramite interfaccia vocale. una funzione assolutamente inutile.

    Ma solo apple è in grado di farne un fatto culturale. In realtà Jobs aveva ragione: microsoft propone delle cose ma non è in grado di imporle e quindi rimangono li a prendere polvere. per quanto il potere di apple di imporre tendenze sia a mio avviso quantomeno esagerato, dall’altro è davvero imbarazzante quanto poco microsoft sia riuscita a fare.

    personalmente ritengo il riconoscimento vocale un problema troppo complesso per il software che gira… non mi risulta che in inglese venga utilizzato in maniera più massiccia.

  • # 4
    Antonio Barba
     scrive: 

    Lo stato dell’arte è questo: http://www-03.ibm.com/innovation/us/watson/

    e questo: http://www.youtube.com/watch?v=WFR3lOm_xhE

    IBM per implementare il riconoscimento semantico impiega “un bancale” di server potentissimi in cluster, roba che non entra in un telefonino :p

  • # 5
    mede
     scrive: 

    non entra in un telefonino ma come applicazione condivisa può funzionare molto più facilmente di un videogioco in streaming, a mio parere. comunque i risultati mi sembrano deludenti. non è sempre in grado di capire o trovare la risposta, è programmato per parlare solo quando la probabilità di risposta è molto alta, ma per utilizzarlo davvero fuori da quell’ambito dovrebbe buttarsi a “indovinare” anche quando le probabilità sono basse, e il risultato potrebbe non essere soddisfacente…

  • # 6
    II ARROWS
     scrive: 

    Uno dei motivi perché fa così cagare è che non puoi addestrare direttamente il comando vocale.

    Ad esempio, nei vecchi BlackBerry (fino a OS7) puoi avviare una sessione di registrazione. Ti fa dire dei nomi, dei numeri (il sistema è solo per le chiamate e controllare informazioni sullo stato del telefono) e registra il timbro vocale e l’accento e dopo funziona perfettamente.
    Oltretutto la voce italiana è meno meccanica di quella di siri, nonostante si tratti sempre di Nuance che ha fornito il servizio…

    Ora non lo fanno più, si fidano e il risultato è un servizio che non funziona per nulla. La realtà per l’italiano è anche un’altra: il lavoro di sintesi vocale non è stato portato avanti da nessuno, gli americani hanno fatto e ovviamente pensano solo a loro. I loro sistemi funzionano ugualmente male per gli scozzesi ad esempio…

  • # 7
    mede
     scrive: 

    @ Arrows #6
    l’addestramento ha i suoi limiti a mio modesto parere. non è possibile che poi per un raffreddore, o per parlare con un tono diverso, magari sottovoce non funzioni. Un dispositivo che può essere usato facilmente da una sola persona, ha i suoi lati positivi ma anche negativi nella praticità. devono riuscire necessariamente a fare in modo che funzioni a prescindere, altrimenti risulta comunque poco comodo per quasi tutti. in realtà devono risolvere anche il problema delle cadenze dei dialetti. Altrimenti la vedo dura per l’utilizzo di massa.

Scrivi un commento!

Aggiungi il commento, oppure trackback dal tuo sito.

I commenti inseriti dai lettori di AppuntiDigitali non sono oggetto di moderazione preventiva, ma solo di eventuale filtro antispam. Qualora si ravvisi un contenuto non consono (offensivo o diffamatorio) si prega di contattare l'amministrazione di Appunti Digitali all'indirizzo info@appuntidigitali.it, specificando quale sia il commento in oggetto.