[Runasimi] dialectos y sus desafios, era re: Ubuntu en Quechua - Traducción en Launchpad
Tany Villalba
tanyvillalba en yahoo.com
Mie Nov 28 19:08:59 EST 2007
No entendi bien lo que hablas, pero si deseas hacer un lector de texto al quechua te dire que el camino es mas largo y tedioso de lo que esperas no es tan simple como juntar archivos, te explciare mas o menos a un evento que asisti sobre reconocimiento de voz.
Primero llaman hacen un filtrado de tipos de voz, es decir no puedes usar cualquiera, lo que haces es hacer pronunciar todo el alfabeto continuo a una sola persona sin espacios en blanco uno lento y otro acelerado, puedes usar varias velocidades , de eso dependera cuan mejor selecciones la voz, una vez grabado si hay espacios en blanco los recortas con algun software de recorte pero cuidado que en la union del nuevo archivo el cambio sea brusco por lo cual lo ideal serai que pronuncie sin espacios en blanco (ausencia de voz), una vez que tienes grabado el alfabeto a varias velodidades agarras tu software de paso a frecuencia y tiempo osea transformada de fourier, y le aplicas a todo el archivo de voz (archivo debe ser formato wav sin comprension de audio) una vez que le pasas alas varias velocidades te dara un espectro, debes elegir primero el espectro mas alto y el espectro mas bajo, luego entre ellos debes elegir cual es el mas uniforme debido a que te
aparecera como una bulla cuanto menos picos tenga mejor es la voz, veras que esto tiene mucho sentido cuando explique la uniion de archivo. COn esto elegiras la voz y la velocidad adecuada para que esta persona hable, podrias jugar tambien entre mujeres y varones ya que tiene distinto timbre lo cual obtendras distintos espectros.
BUeno una vez elegido lo que haces es aplicar niveles (PADE o acercamiento de pade) no estoy seguro del nombre, lo anote porque usaba para electromagentismo tambien es un metodo numerico, bueno lo que haces es por niveles, el primer nivel te dice que eliges todas las consonantes y vocales y haces pronuncias poniendo la vocal y consonante adelante y atras como sonaria. Luego puedes usar complejidad dos que no es necesario depende del idioma, es decir por ejemplo en que quechua existe el ph que suena un p pero con aire, eso lo juntas con cada una de las vocales, y asi juegas conc otras consonantes, luego puedes subir de ocmplejidad dependiendo del idioma si puede usar hasta 3 consonantes debes hacer, si no me equivoco en el quechua el problema seria la comilla por lo que veo pero no estoy seguro podrias dividirlo dependiendo como se pronuncia.
OK una vez grabado todo esto lo que debes hacer es limpiar cada grabacion, es decir quitar los espacios de ruido, luego debes decir cual es la maxima potencia que usas y la minima algo asi como en frecuencia, eso te ayudara a que la voz sea mas uniforme y sin saltos, y recuerdas del analisis que hiciste de frecuencia en el tramo anterior pues si ves en un programa y elegiste la voz correcta veras que los picos en la voz no son muy altos eso significa que es mas facil suavizar la voz, eso hara un efecto de continuidad cuando juntes.
Una vez que tienes los pedazos de voz en archivos lo que haces es por ejemplo intentar leer una palabra con archivos siempre separando silaba consonante recorriendo letra por letra apensa encuentres puedes leerlo, ojo aqui dos consideraciones primero debes poner el maximo de letras significativas, es decir decir que como maximo en tu base de datos de voces tienes pronunciacin de 3 letras como maximo, si no lo ubica le haces emitir un sonido algo asi para que veas que aun no tienes esa pronunciacion, puede ser algo asi, la otra parte que debes considerar es que no solo es unir los archivos que ya tienes, seria como tratar de unir un cuadrado y un redondo, no lo consegiras, lo que debes hacer es esperar unir toda la palabra es decir que un espacio un blanco significar termino de palabra o una coma o un punto por ejemplo, o podrias usar mas cosas pero usaremos lo basico, luego aplicas nuevamente tu trasnformada de fourier esta vez a toda la plabra, una vez
obtenida la transformada, lo que haces es multiplicar por una equacion que podria ser una onda uniforme, podria ser un seno o un coseno o otra funcion, eso para suavizar los cambios entre grupo de letras unidas, es como si a una masa dura le hecharas agua y le forzaras a nivelarse un poco, bueno con eso tienes la plabra pulida ya para pronunciar.
Hay varias complejidades aun como por ejemplo el espacio de tiempo que significa un punto una coma o un simple espacio, veras qu esto es importante si alguna vez usaste un programa que lee texto.
Bueno esto fue todo lo que aprendi, pero menciono nuevas cosas que no se contemplaron, como por ejemplo que ellos normalmente manejan una base de datos de palabras comunes, ya pronunciadas por enetero, las que mayormente ssiempre hay en toda frase, como la palabra "como" "porque" "sin embargo" y asi varias palabras comunes que son unos cientos por lo que menciono. Otro problema que se debe solucionar es que existe acentuacion en las palabras no puedes leer por ejemplo la palabra policia sin entonacion y fuerza en la parte de "cia" sino sonara extranho como veras, eso se arregla multiplicando esa parte de acentuacion con un pico mas alto en la onda que uniformiza toda la palabra, pero para eso como veras deberas tener un diccionario de palabras que indican como se pronuncia es decir saber donde darle mas fuerza.
Bueno despues de aburrirte mucho, en la charla mostro un simple grupo de palabras grabadass y pronunciadas una tras de otra comso si fueran una palabra, y nadie consiguio adivinar que fue lo que se leo, vale decir que nadie consiguio adiivnar lo que simplemente se hizo una union de archivo de archivos.
Ahora algo que entendi claro es que este proceso es como una ecuacion de las series de fourier que es una onda cuadrada pero que en realidad esa compuestas por curvas senoidales de periodo progresivo es decir cada cursa senosoidal es mas corta que la anterior (revisa series de fourier si no entendiste esta parte) entonces partes de lo que mencione mas o menos y mas sumandole cosas que perfeccionen el metodo de lectura, esto hara que cada cosa que incrementes incrementara un pooquito mas a la perfeccion, y cada cosa que agregues sera un poquito menos, intentando conseguir la perfeccion de lectura.
Saludos espero no haber sido aburrido
---------------------
Tany Villalba V.
www.cuscolibreweb.org -Cusco-Peru
COMPARTIR NO ES PIRATEAR
celular claro 0055-16-92272699 (Brasil)
----- Mensaje original ----
De: Yama Ploskonka <Yama en veritasacademy.net>
Para: Amos Batto <amosbatto en yahoo.com>; runasimi en somoslibres.org
Enviado: miércoles, 28 de noviembre, 2007 20:16:36
Asunto: [Runasimi] dialectos y sus desafios, era re: Ubuntu en Quechua - Traducción en Launchpad
Fascinante problema. Efectivamente, el enfoque en comunicar con medios
escritos en lenguas y culturas primordialmente orales tiene sus propios
bemoles.
Atacando un peque~o paquete informatico en el que estoy trabajando me
he
encontrado con que contar con un archivo texto (text file) con los
terminos facilitaria enormemente la traduccion posterior del paquete.
Es decir, no incorporar los terminos en el codigo del software mismo,
sino en un archivo en el que el software "recoge" cada termino segun
sea
necesario. Esto facilita enormemente posteriores traducciones y
versiones, ya que en lugar de tener que "pescar" en cada archivo de
codigo, el simplemente traducir este un archivo texto habilita el
paquete a operar en otro idioma. Un enfoque similar seria posible para
este y otros enfoque multiligues, a saber, el software no utiliza
terminos de su propio codigo sino levanta sus terminos de un archivo o
folder de archivos de sonido segun los necesita. Por supuesto esto
requeriria alguna forma de conectar ambos, a saber, un "anchor" llamado
por cada requerimiento del paquete.
Desde el punto de vista de tama~o seria un enfoque vencedor tambien, ya
que el paquete puede contar con cientos de alternativas de idioma por
cada adicional megabit de datos.
Mandare mas detalles conforme haya avanzado en masticar mi codigo...
Yamandu
Amos Batto wrote:
> --- José Boris Bellido Santa María
> <jboris.bsm en gmail.com> wrote:
>
>> El 27/11/07, mauricio van melgar lazo
>> <vanmelgar en yahoo.es> escribió:
>>> LAS PERSONAS QUE LAS HABLAN, POR LO GENERAL NO
>>> APRENDEN DE FORMA ESCRITA A HABLAR QUECHUA, SINO
>> ES "EN LA GRAN MAYORIA"
>>> SOLO POR ESCUCHAR, O SEA Q SI SE QUIERE TRADUCIR,
>> seria mas adecuado ( en la
>>> medida de que se pueda y sea factible ) realizar
>> el S.O. y acompañado de la
>>> escritura de la palabra o acción del boton,
>> selección, etc... vaya
>>> acompañado de una PRONUNCIACIÓN de dicho comando,
>> para q las personas q lo
>>> usan entiendan y esten mas agusto con el S.O.
>> Gnome ya tiene esa opcion con festival, pero claro
>> no hay el motor
>> para quecha, y alguien tendra q hacerlo, jejejeje,
>> yo no se nada sobre
>> generacion de voz apartir de texto, pero suena
>> interesante el reto y
>> sirve q aprendo algo q no se :D. Asi q si hay gente
>> interesa,
>> podriamos ver la posibilidad de hacer el motor y
>> tener el paquete para
>> ubuntu bolivia en quechua pre instalado y claro el
>> paquete para debian
>> en los repositorios por si alguien usuario debian
>> quiere escuchar a su
>> compu hablar en quechua. Si hay alguien q tenga idea
>> de como hacer un
>> TTS y no tenga tiempo, aqui ya tiene a un
>> desarrollador :D
>>
>> Saludos,
>>
>> PS: Insisto es interesante el reto
>>
>> --
>> José Boris Bellido Santa María
>> general en softwarelibre.org.bo
>
> Creando un pronunciador de quechua es una idea muy
> interesante pero es importante de considerar el
> problema de dialectos. Si trata de crear un
> pronunciador universal que sirve para todos los
> dialectos, muchos quechuahablantes van a rechazarlo.
> Los quechuahablantes van a preguntar porque no está
> pronunciando la letra "q" con el sonido de "g"? Los
> hablantes de Cuzco van a preguntar porque no está
> pronunciando la letra "ph" (p aspirado) con el sonido
> de "f"?
>
> La traducción de Ubuntu en quechua fue comenzado por
> un autor de materiales educativos en Arequipa hace más
> de 2 años. Él no habla quechua pero ha reclutado un
> profesor de quechua en Arequipa para hacerlo con sus
> estudiantes. La última vez que yo revisé el sitio web,
> muy poco fue hecho.
>
> Una traducción en otro dialecto de quechua necesita
> ser editado o los hablantes en su area van a
> rechazarlo. La traducción de Microsoft Office y
> Windows en el quechua de Ayacucho ha sido poco usado
> en Bolivia porque es otro dialecto con diferentes
> morfemas y vocabulario que usa otro alfabeto. En
> Ayacucho, se escribe con 19 letras, pero en Bolivia se
> escribe quechua con 28 porque hay consonantes
> asperados y glotalizados.
>
> Afortunadamente, el quechua hablada en Arequipa (el
> dialecto Cuzco-Collao) es más cerca el quechua de
> Bolivia y Argentina pero hay differencias,
> especialmente de vocabulario. Cuando yo estaba en el
> Congreso Mundial de la Lengua Quechua en Arequipa en
> Nov. de 2006, fue muy interesante escuchando los
> hablantes de Cochabamba tratando de comunicar con los
> hablantes de Arequipa y Cuzco. Me recuerdo un hablante
> de Cochabamba preguntando que significa "lliw" (todo)
> y a veces necesitaban escuchar una pregunta dos veces
> para entender. Si Uds. ha tratado de hablar con
> alguién que habla gallego, entiendes los problemas.
> Más o menos un hablante de castellano puede entender
> gallego pero no todo y es lo mismo con
> quechuahablantes comunicando entre dialectos.
>
> Bolivia tiene más de 2 milliones de hablantes de
> quechua boliviano sureño (Sucre, Potosí, Cochabamba) y
> algunos miles de hablantes de quechua boliviano
> norteño en el norte del departamento de La Paz. Hay
> hasta 120000 hablantes (probablemente menos) del
> dialecto santiagüeño en el noroeste de Argentina.
> Estos 3 dialectos son de la misma familia de quechua
> II sureño que el dialecto de Cuzco-Callao, pero las
> traducciónes que hace en Arequipa necesitan ser
> adaptado para los dialectos de Bolivia y Argentina.
>
> El problema de hacer software en quechua cuando poca
> gente pueden leerlo es dificil de solucionar. El
> estado no hace mucho para enseñar el quechua en las
> escuelas y muchas veces los padres se sienten que sus
> niños necesitan ser alfabetizados en castellano para
> avanzarse. Muchas veces los padres resisten programas
> de educación bilingüe por miedo que sus niños queden
> atrasados y muchos profesores resisten porque ellos no
> tiene entrenamiento en lenguas originarias. Además
> algunos expresan conceptos racistas hacias lenguas
> originarias. Aunque Bolivia ha tenido 2 decadas de
> programas de educación bilingüe intercultural, muy
> pocos bolivianos han sido entrenados de leer en sus
> lenguas maternas. Los programas de educación bilingüe
> han fracasado generalmente por falta de apoyo del
> estado, del los profesores, y de los padres. Entonces,
> hay problemas serias de actitudes en la sociedad y es
> necesario de promover nuevas percepciones hacia estas
> lenguas.
>
> A la misma vez, hay nuevas esperanzas por los cambios
> politicos recientes y la nueva fortalecimiento de
> identidades indigenas. Cuando yo he mostrado AbiWord
> en quechua y aymara a hablantes de estas lenguas,
> muchos tienen ganas de usar el software.
>
> Por mi parte, yo pienso que la meta debe ser
> alfabetización en lenguas originarias. Tratando de
> armar un sistema oral para pronunciar palabras en
> quechua está bien, pero el texto siempre debe ser
> enfrente del usuario a la misma vez.
>
> En runasimipi.org hemos tratado de crear versiones de
> AbiWord en lenguas originarias con la traducción en
> castellano abajo en la barra del estado. Hoy en dia,
> casi todos los quechuahablantes y aymarahablantes que
> usan computadoras son bilingües y alfabetizadas en
> castellano. Si ellos tienen dudas en la lectura de
> quechua o aymara, pueden verificar el sentido de la
> frase con una ojeada bajo en la barra de estado.
>
> Por lo menos, esto es nuestra esperanza, pero no hemos
> verificado si software bilingüe funciona bien o no.
> Por mi parte estoy dispuesto de ayudar a alguien que
> quiere tratar de armar un sistema de pronunciación de
> quechua, pero ahora hay muy poco software traducido
> en quechua para pronunciar.
>
> Después de más de un año estoy muy cansado de tratar
> de encontrar voluntarios para traducir en quechua.
> Muchos prometen pero pocos hacen. Después de estudiar
> el problema, yo he llegado a la conclusión que nunca
> vamos a avanzar mucho en la traducción si siguemos en
> la misma ruta.
>
> Con voluntarios pasamos 4.5 meses para traducir 1540
> palabras en aymara. Simplemente no es factible de
> traducir OpenOffice completamente por voluntarios. Hay
> 21,000 frases en el software y más de 300,000 frases
> en los archivos de ayuda de OpenOffice. GNOME tiene
> casi 300,000 frases para traducir también. Hay poca
> gente capacitado de traducir software en lenguas
> originarias. Es mucho más dificil en lenguas
> originarias que traducir software de inglés a
> castellano. No hay vocabulario establecido y la
> estructura y los conceptos de la lengua son totalmente
> diferente. Solo para traducir palabras faciles como
> "table" o "set" o "spell-check" puede pasar horas en
> discusión tratando de llegar a un consenso en la
> traducción.
>
> Hay barreras serias que necesita ser solucionado
> primero antes que podemos solicitar voluntarios para
> traducir. Necesita un sistema de traducción en línea,
> un diccionario de terminos informaticos y un base de
> software ya traducido para ser el modelo para otras
> traducciónes. Para realizar estas metas, necesitamos
> personas que pueden trabajar tiempo completo.
>
> Estamos entregando una propuesta al Ministerio de
> Educación para financiar la traducción de FireFox,
> OpenOffice y crear un diccionario de la informatica en
> quechua, aymara y guaraní. En total, calculamos 17
> meses de trabajo con un costo de $103000.
>
> Cuando ya tenemos un base de software traducido y
> vocabulario informatica para usar, esperamos que sea
> más fácil de encontrar voluntarios en el futuro para
> traducir lo demas de GNOME y otro software libre.
>
> Saludos,
> Amos Batto
> Runasimipi.org
>
>
>
>
____________________________________________________________________________________
> Be a better pen pal.
> Text or chat with friends inside Yahoo! Mail. See how.
http://overview.mail.yahoo.com/
>
> _______________________________________________
> Runasimi mailing list
> Runasimi en somoslibres.org
> http://somoslibres.org/mailman/listinfo/runasimi_somoslibres.org
>
>
_______________________________________________
Runasimi mailing list
Runasimi en somoslibres.org
http://somoslibres.org/mailman/listinfo/runasimi_somoslibres.org
Comparte video en la ventana de tus mensajes (y también tus fotos de Flickr). Usa el nuevo Yahoo! Messenger versión Beta.
http://e1.beta.messenger.yahoo.com/
Más información sobre la lista de distribución Runasimi