INDICE DE TEMAS
Reconocimiento Automático del Habla (RAH) .
El Reconocimiento Automático del Habla (RAH) o Reconocimiento Automático de voz es una parte de la Inteligencia Artificial que tiene como objetivo permitir la comunicación hablada entre seres humanos y computadoras electrónicas.
Este sistema surge de la necesidad de hacer cooperar un conjunto de informaciones que provienen de diversas fuentes de conocimiento (acústica, fonética, fonológica, léxica, sintáctica, semántica y pragmática), en presencia de ambigüedades, incertidumbres y errores inevitables para llegar a obtener una interpretación aceptable del mensaje acústico recibido.
Un aspecto crucial en el diseño de un sistema de RAH es la elección del tipo de aprendizaje que se utilice para construir las diversas fuentes de conocimiento.
Básicamente, existen dos tipos:
- Aprendizaje Deductivo: Se basa en la transferencia de los conocimientos que un experto humano posee, a un sistema informático.
- Aprendizaje Inductivo: Se basa en que el sistema pueda, automáticamente, conseguir los conocimientos necesarios a partir de ejemplos reales sobre la tarea que se desea ejecutar.
Decodificador acústico-fonético: Procedimientos interpretativos que provienen de las fuentes de información acústica, fonética, fonológica y posiblemente léxica.
La entrada al decodificador acústico-fonético es la señal vocal convenientemente representada. Modelo del lenguaje (derivados de las fuentes de conocimiento sintáctico, semántico y pragmático)
Los sistemas de reconocimiento de voz pueden clasificarse según los siguientes criterios:
- Entrenabilidad: Determina si el sistema necesita un entrenamiento previo antes de usarse.
- Dependencia del hablante: Determina si el sistema debe entrenarse para cada usuario o es independiente del hablante.
- Continuidad: Determina si el sistema puede reconocer habla continua o el usuario debe hacer pausas entre palabra y palabra.
- Robustez: Determina si el sistema está diseñado para usarse con señales poco ruidosas o, por el contrario, puede funcionar aceptablemente en condiciones ruidosas, ya sea ruido de fondo, ruido procedente del canal o la presencia de voces de otras personas.
- Tamaño del dominio: Determina si el sistema está diseñado para reconocer lenguaje de un dominio reducido o extenso.
Sabías qué Los investigadores del grupo de reconocimiento de voz de Apple solían llevar una camiseta en la que se podía leer I helped Apple wreck a nice beach (ayudé a Apple a estropear una buena playa), cuya pronunciación es idéntica a I helped Apple recognize speech (ayudé a Apple a reconocer habla). Esta broma ilustra la dificultad de desambiguar cadenas fonéticas.