DeepSpeech es mucho más simple que los sistemas tradicionales y al mismo tiempo proporciona una mayor calidad de reconocimiento en presencia de ruido extraño.
El desarrollo no utiliza modelos acústicos tradicionales y el concepto de fonemas; en cambio, utilizan un sistema de aprendizaje automático bien optimizado basado en una red neuronal, que elimina la necesidad de desarrollar componentes separados para modelar diversas desviaciones, como el ruido, el eco y las características del habla.
El objetivo final del proyecto Common Voice es la acumulación de 10 mil horas con grabaciones de varias pronunciaciones de frases típicas del habla humana, que alcanzarán un nivel aceptable de errores de reconocimiento. En la forma actual, los participantes del proyecto ya han dictado un total de 4.3 mil horas, de las cuales 3.5 mil han pasado la prueba.
Cuando se utiliza el modelo inglés listo para descargar, el nivel de error de reconocimiento en DeepSpeech es del 7,5% cuando se evalúa con el conjunto de pruebas LibriSpeech. A modo de comparación, el nivel de errores en el reconocimiento humano se estima en 5.83%.
DeepSpeech consta de dos subsistemas: un modelo acústico y un decodificador. El modelo acústico utiliza métodos de aprendizaje automático profundo para calcular la probabilidad de la presencia de ciertos caracteres en el sonido de entrada.
Sobre la nueva versión de DeepSpeech
Actualmente DeepSpeech se encuentra en su versión 0.6 en la cual se destacan los siguientes cambios:
⚫ Se propone un nuevo decodificador de transmisión que proporciona una mayor capacidad de respuesta y no depende del tamaño de los datos de audio procesados.
⚫ Se han realizado cambios en la API y se ha trabajado para unificar los nombres de las funciones. Se han agregado funciones para obtener metadatos adicionales sobre la sincronización, lo que permite no solo recibir una representación de texto en la salida, sino también rastrear el enlace de caracteres y oraciones individuales a una posición en la secuencia de audio.
⚫ El soporte para usar la biblioteca CuDNN para optimizar el trabajo con redes neuronales recurrentes (RNN) se agregó al kit de herramientas para módulos de entrenamiento.
⚫ Los requisitos mínimos para la versión TensorFlow se han elevado de 1.13.1 a 1.14.0.
⚫ Se agregó soporte para la edición ligera TensorFlow Lite, que reduce el tamaño del paquete DeepSpeech de 98 MB a 3.7 MB.
⚫ El modelo de lenguaje se ha transferido a otro formato de estructuras de datos, lo que permite asignar archivos a la memoria en el momento del arranque.
⚫ El soporte para el formato anterior ha sido descontinuado.
La implementación está escrita en Python utilizando la plataforma de aprendizaje automático TensorFlow y se distribuye bajo la licencia gratuita MPL 2.0. El trabajo es soportado en Linux, Android, macOS y Windows. Hay suficiente rendimiento para usar el motor en las placas LePotato, Raspberry Pi 3 y Raspberry Pi 4.
Fuente : desdelinux
- Visto: 907