Sei sulla pagina 1di 28

Nuestro aparato contara con GPS en el dispositivo portable para las personas que tengan Alzheimer por tal

motivo debemos de conocer sobre las caractersticas que contendr. La implementacin del programa NAVSTAR, GPS (Navigation System Timing And Ranging, Global Positioning System) fue efectivamente iniciada en diciembre de 1973. El 22 de febrero de 1978 fue lanzado el primer satlite de una serie de cuatro. La responsabilidad del desarrollo y mantenimiento del sistema recae en el Departamento de Defensa de los Estados Unidos, Divisin Sistema Espacial. Esa dependencia se deba a que el sistema fue concebido, igual que Transit, para uso militar. GPS es un sistema que tiene como objetivo la determinacin de las coordenadas espaciales de puntos respecto de un sistema de referencia mundial. Los puntos pueden estar ubicados en cualquier lugar del planeta, pueden permanecer estticos o en movimiento y las observaciones pueden realizarse en cualquier momento del da. Para la obtencin de coordenadas el sistema se basa en la determinacin simultnea de las distancias a cuatro satlites (como mnimo) de coordenadas conocidas. Estas distancias se obtienen a partir de las seales emitidas por los satlites, las que son recibidas por receptores especialmente diseados. Las coordenadas de los satlites son provistas al receptor por el sistema. Sistema GPS est constituido por tres segmentos fundamentales: Espacial De control Del usuario Segmento espacial Los primeros satlites puestos en rbita fueron los integrantes del denominado Bloque I. Fueron lanzados desde la base Vandenberg, ubicada en el estado de California. El total de satlites puestos en rbita fue 11 entre los aos 1978 y 1985, utilizndose para ello cohetes AtlasF. Estos primeros satlites tuvieron un peso de 845 Kg. y un promedio de vida efectiva de 7.5 aos. Las rbitas descriptas tenan una inclinacin de 63 grados respecto del Ecuador. Los satlites del Bloque I fueron sustituidos progresivamente por los del denominado Bloque II. El primer satlite de este grupo fue lanzado en el ao 1989 desde el Centro Espacial Kennedy en Cabo Caaveral, estado de Florida.

En 1990 se comenz con el lanzamiento de satlites que tenan ligeras diferencias respecto de la primer versin de este bloque. Este fue el denominado Bloque IIA la A significa Advanced. El 8 de diciembre de 1993 se haban puesto en rbita 15 satlites adicionales de este bloque, totalizando as 24 satlites, fue entonces declarado al sistema en plena capacidad operativa. En 1996 fue lanzado el primer satlite del Bloque IIR. El agregado de R (replacement) se refiere a reemplazo o sustitucin, es decir, estos satlites fueron reemplazando a los satlites que salan de operacin. Esta versin tiene un peso de 2000 Kg. y se distingue por las mejoras introducidas en los relojes de a bordo. Finalmente se desarroll la cuarta generacin de satlites de este bloque, el denominado Bloque IIF con importantes mejoras en el sistema de navegacin de a bordo. El lanzamiento de estos satlites comenz en el 2001 y se prev que seguir hasta el 2010. Estn diseados para una vida til de 15 aos. Para la puesta en rbita de satlites de todas las versiones del Bloque II se utilizaron transbordadores espaciales, que transportan simultneamente tres satlites en cada viaje, con la consecuente reduccin de costos. Forman parte del equipamiento de cada satlite dos paneles solares y un sistema de propulsin. Los paneles solares se utilizan para recargar los acumuladores que permiten el funcionamiento mientras el satlite pasa por la sombra de la Tierra. Desde el sistema de control terrestre es posible activar los sistemas de propulsin con el objetivo de corregir las rbitas de cada satlite o incluso cambiar de posicin dentro de la misma rbita. A fines de 1993 cuando fue completada la constelacin de satlites del sistema sus caractersticas eran las siguientes: Compuesta por 24 satlites. Los satlites se ubican en 6 rbitas planas prcticamente circulares, con inclinacin de 55 respecto al plano del Ecuador y con una distribucin aproximadamente uniforme; con 4 satlites en cada rbita. Se encuentran aproximadamente a 20180 km de altura. Tienen 12h de perodo de rotacin (en tiempo sidreo) u 11h 58m (en tiempo oficial). Tambin hay satlites en rbita que se encuentran desactivados y disponibles como reemplazo. Con la constelacin completa, se dispone, en cualquier punto y momento, entre 5 y 11 satlites observables, con geometra favorable. El tiempo mximo de observacin de un satlite es de hasta 4 horas 15 minutos.

Con la incorporacin de los satlites de los Bloques IIR y IIF la constelacin tiene a principios del 2005, 29 satlites en rbita, distribuidos en los seis planos orbitales. La cantidad de satlites por plano es 4, 5 6 segn la rbita. Segmento de control Las funciones principales del segmento de control, denominado internacionalmente con las siglas OCS (Operational Control Segment) son Monitoreo y control permanente de los satlites con el objeto de determinar y redecir las rbitas y los relojes de a bordo. Sincronizacin de los relojes de los satlites con el tiempo GPS Transmisin, a cada satlite, de la informacin procesada. Est integrado por una Estacin de Control Maestra (MCS), varias Estaciones de Monitoreo (MS) y Antenas Terrestres (GA). Las estaciones de monitoreo tienen coordenadas conocidas con gran precisin y estn equipadas con receptores GPS de doble frecuencia L1/L2 y un reloj de Cesio. Su funcin es determinar las distancias a todos los satlites visibles y transmitirlas a la estacin de control maestra junto con los datos meteorolgicos de cada estacin. Con los datos recibidos de las estaciones monitoras, la estacin maestra, ubicada en la Base de la Fuerza Area Schriever en el estado de Colorado, calcula los parmetros orbitales y los de los relojes y posteriormente los transmite a las antenas terrestres que los transfieren a los satlites a travs de un enlace va banda S. Estas estn ubicadas en: Colorado Springs (EUA) Isla Ascensin (Atlntico Sur) Diego Garca (ndico) Kwajalein (Pacfico Occidental) Hawaii (Pacfico Oriental) Quito (Ecuador) Buenos Aires (Argentina) Hermitage (Inglaterra) Bahrein (Golfo Prsico) Smithfield (Australia).

Segmento usuario Est constituido por los instrumentos utilizados para recepcionar y procesar la seal emitida por los satlites. Estos instrumentos estn integrados esencialmente por una antena y un receptor. Un equipo complementario es usado, en ocasiones, para transferir datos entre receptores. La antena est conectada por cable al receptor o en otros casos forman una sola unidad. Las coordenadas que se calculan corresponden al centro radioelctrico de la antena. El receptor consta de un mnimo de 4 canales (generalmente 10 12) que permiten recepcionar y procesar simultneamente la seal de cada satlite. Posee adems un oscilador de cuarzo que permite generar la frecuencia de referencia para realizar la observacin. Un microprocesador interno con el software correspondiente calcula las coordenadas de la antena y la velocidad y acimut si el aparato est en movimiento. Posee adems una memoria para almacenar observaciones. La capacidad de esta memoria vara de acuerdo al tipo de receptor, pudiendo llegar a almacenar informacin durante varias decenas de horas. Todo equipo adiciona una unidad de alimentacin elctrica que deber brindar al receptor la autonoma necesaria. Los equipos estn en continuo desarrollo y su evolucin es comparable a la experimentada en informtica durante las ltimas dcadas para los ordenadores personales. Informacin en el receptor Una vez en funcionamiento, el receptor puede ofrecer al operador una muy amplia y diversa informacin sobre el proceso de observacin, mientras recibe las seales de los satlites. Aunque vara entre diferentes modelos, se suele disponer de la informacin siguiente: Satlites localizados Satlites en seguimiento Intensidad de cada seal recibida Condicin de cada satlite en seguimiento Posicin: longitud, latitud, altitud Calidad de la geometra de observacin. Segn la precisin con que se pueden obtener los resultados, podemos clasificarlos en receptores: Geodsicos -Topogrficos -Navegadores

Posicionamiento absoluto Cuando hablamos de posicionamiento absoluto nos referimos al caso de un solo receptor operando en modo autnomo, es decir, la funcin tpica de navegacin, calculando las coordenadas del receptor sobre la superficie terrestre en base a las mediciones de distancia que realiza a los satlites visibles (o a los posibles en funcin del nmero de canales del receptor) y mostrando estas coordenadas, sin ningn tipo de correccin, en el display del receptor (con un intervalo de actualizacin que se puede prefijar, por ejemplo 1 segundo). Podemos distinguir dos modos de operacin: esttico y mvil. Modo esttico El modo esttico significa que el receptor permanece estacionado sobre el punto del que se quieren conocer las coordenadas durante un lapso de tiempo, que puede ser de algunos minutos; si este receptor se encuentra calculando posiciones coordenadas) tendremos, para la solucin en 3 dimensiones, un sistema de 4 ecuaciones con 4 incgnitas por cada instante de actualizacin en la toma de datos, (si se observaran ms de 4 satlites, tendremos sobreabundancia de observaciones). La posicin final, coordenadas del punto estacin, corresponde al promedio de todas las posiciones calculadas. Dentro de las variables que podemos manejar en este tipo de posicionamiento vale recordar la importancia de operar con un valor bajo de PDOP Modo mvil El modo mvil est relacionado con el uso del receptor en movimiento, en este caso tendremos soluciones instantneas en tres dimensiones IV2Posicionamiento con Cdigo C/A para cada momento de toma, que no corresponden al mismo punto (el receptor se est moviendo). Tendremos formado un sistema de 4 ecuaciones con 4 incgnitas por cada toma (y sobreabundancia si se observan mas de 4 satlites), que nos dar las coordenadas del punto en que se ubica el receptor a cada instante, siendo esta la solucin tpica de navegacin, de modo que esta sucesin de puntos describe la trayectoria seguida por el receptor. Precisiones Con estos mtodos de operacin la precisin general alcanzable en las coordenadas de los puntos ser mejor que 10 metros en horizontal y 15 metros en vertical, en el 95% de los casos (que es la caracterizacin oficial del SPS, Servicio de Posicionamiento Standard).

Esta precisin se alcanzaba desde el origen del sistema, hasta que fue implementada la SA (Selective Avaliability), en marzo de 1990, cuando deliberadamente se degrad la precisin, hasta su desactivacin, el 1 de mayo de 2000. En el perodo en que estuvo activada la SA se lograba una precisin en la posicin horizontal (bidimensional) del orden de 100 metros, para un usuario aislado, en el 95% de los casos. Para estudiar los efectos sobre la posicin horizontal de una estacin fija realizamos la siguiente experiencia: Estacionamos un receptor sobre un punto de coordenadas conocidas, durante varias horas y lo ponemos a calcular posiciones; luego hacemos la grfica de la distribucin de todas esas posiciones calculadas, comparando cunto se alejan del valor conocido, tomndolo como referencia. La aplicacin de estas tcnicas de correccin diferencial nos conducen al fundamento del posicionamiento relativo, es decir, la utilizacin simultnea de dos o mas receptores, tomando datos al mismo tiempo (con el mismo intervalo de grabacin), el primero, que estar ubicado sobre un punto de coordenadas conocidas, ser el receptor base y el otro (o los otros) ser el receptor remoto y se ubicar en los puntos que nos interesa relevar, para conocer sus coordenadas. Las coordenadas de los puntos relevados se obtendrn finalmente con una precisin que depende, no solo de los errores en el clculo del vector, como vimos hasta ahora, sino tambin de la precisin con que se conozcan las coordenadas de la estacin de referencia, ya que al georreferenciar puntos de esta forma, trasladamos cualquier incertidumbre en las coordenadas del sitio del receptor base, a los puntos que se relevan con el receptor remoto, por lo tanto, para ser coherentes con la precisin del mtodo, las coordenadas del receptor base deben conocerse con mejor precisin que la propia del mtodo de medicin utilizado; por ejemplo, vinculndose a redes existentes de precisin adecuada. Mtodos de operacin De esta manera, y anlogamente al posicionamiento absoluto, encontramos dos modos de operacin: Esttico y mvil. Modo esttico En el modo esttico, el receptor remoto es estacionado algunos minutos sobre el punto que nos interesa relevar, haciendo mediciones de distancias a los satlites y/o calculando posiciones, almacenando estos datos en su memoria interna. Al cabo del relevamiento de todos los puntos que interesan, se bajan los datos del receptor base y del remoto a una computadora para realizar el postprocesamiento de las mediciones de

ambos y aplicar alguno de los mtodos de correccin diferencial que permiten obtener las coordenadas de los puntos relevados. Como en todo posicionamiento esttico, es importante, ya que podemos manejarlo, trabajar con un PDOP bajo. Modo mvil En el modo mvil, el receptor remoto est en movimiento, calculando y almacenando distancias y/o posiciones en su memoria interna. Luego de terminado el trayecto a medir, se bajan los datos y se efecta el post procesamiento, aplicando la correccin diferencial (posicin o distancias), se obtiene cada posicin instantnea corregida, de esta forma, las coordenadas de la trayectoria del receptor remoto constituirn la solucin final. Estas dos alternativas tambin pueden aplicarse en tiempo real, contando con el equipamiento adecuado. Otra de las caractersticas con las que contara nuestro dispositivo, ser los recordatorios con voz, ya que nos ayudaran a programarlo en base a sus necesidades, por ejemplo a ciertas horas recordar el medicamento, obligaciones, recordar la hora, mtodos para realizar alguna actividad por ejemplo alguna comida o alguna actividad. Tomamos como ejemplo de estos a Natural Readers1, Balabolka 2, Odiogo3, qrvoice4, Automator, Speak It, Text Speaker etc son algunos de los programas que cumple con una de las caractersticas de las cuales contara nuestro dispositivo, estos son programas de Texto a Voz (Text-To-Speech, TTS). Todas las voces instaladas en tu sistema estn disponibles. El texto de la pantalla puede ser guardado como un archivo en formato WAV, MP3, MP4, OGG o WMA. El programa puede leer el contenido del portapapeles, ver el texto de un documento en formato AZW, AZW3, CHM, DjVu, DOC, EPUB, FB2, HTML, LIT, MOBI, ODT, PDF, PRC y RTF, personalizar las fuentes y el color de fondo, controlar la lectura desde la bandeja de sistema o mediante las teclas rpidas globales, en estas se puede modificar los parmetros de las voces, incluyendo veloidad y tono, para que asi el usuario pueda definir una lista de palabras para mejorar la pronunciacin de la misma en el texto El usuario puede definir una lista de palabras para mejorar la pronunciacin de la mismas en el texto. Esta caracterstica es til cuando se desea cambiar la pronunciacin de algunas

1 2

http://www.naturalreaders.com/ http://www.cross-plus-a.com/es/balabolka.htm 3 http://www.odiogo.com/ 4 http://qrvoice.net/

palabras. Las reglas para corregir la pronunciacin usan la sintaxis de las expresiones regulares. Sistema de conversin de texto a voz La historia de los sistemas que pretenden emular el sistema de produccin de voz humano se remonta hasta finales del siglo XVIII, donde surgieron las primeras teoras y aparatos reales que generaban sonidos voclicos e incluso palabras y frases, como por ejemplo la mquina parlantede Von Kempelen, que fue reconstruida en el ao 1835 por Sir Charles Wheatstone y cuyo aspecto se muestra en la Ilustracin

Mquina parlante de Von Kempelen (1791) reconstruida por Sir Charles Wheatstone El primer dispositivo elctrico para sntesis de voz data de 1922 (Stewart), que consista en un zumbador como fuente de excitacin y dos circuitos resonantes para modelar la respuesta del tracto vocal y que era capaz de generar sonidos voclicos a partir de sus dos primeros formantes. El sistema fue mejorado diez aos ms tarde en Japn (Obata y Teshima) aadiendo un tercer formante para mejorar la inteligibilidad de las vocales.

El voderde H. Dudley (1939) En 1939, en la feria mundial celebrada en Nueva York, Homer Dudley de los Laboratorios Bell,demostr el primer sintetizador de voz elctrico, que era operado manualmente, como puede verse en la Ilustracin en la que tambin se muestra el esquema bsico de su funcionamiento. El primer sintetizador de formantes paralelo, el PAT (Parametric Artificial Talker) fue esarrollado en 1953 por Walter Lawrence en Gran Bretaa, al tiempo que en Suecia Gunner Fant desarrollaba un sintetizador de formantes serie, el OVE II. Tanto Lawrence como Fant mostraron ese mismo ao cmo con un ajuste cuidadoso de los parmetros de dichos sistemas era posible imitar de forma muy natural la calidad de la voz humana. El primer sintetizador articulatorio fue desarrollado en 1958 en el MIT por George Rosen. Trabajos en esa misma tecnologa fueron abordados en los Laboratorios Bell por Paul Mermelstein y JamesFlanagan, en 1976. Con la llegada de los ordenadores digitales, John Kelly y Louis Gerstman crearon en 1961 el primer programa de sntesis fontica por regla, y unos aos ms tarde, en 1968, Noriko Umeda desarroll en Japn el primer sistema completo de conversin texto a voz, basado en un modelo articulatorio que inclua un mdulo de anlisis sintctico, todava muy lejos de la calidad de la que disponemos hoy en da. El trabajo de Dennis Klatt en el MIT ha sido uno de los ms importantes en cuanto a su influencia en este campo. En 1979, junto con Jonatahan Allen y Sheri Hunnicut, desarroll el sistema MITalk, mejorado dos aos despus con el famoso sistema Klattalk, con una mejorada fuente de excitacin global. Los aos 80 marcaron el inicio de los sistemas comerciales, inicialmente adaptaciones del Klattalk y posteriores refinamientos como el DECtalk de 1983, probablemente el sistema de conversin texto a voz ms

usado del siglo 20. En 1982, Rokf Carlson, Bjorn Granstrom y Sheri Hunnicut desarrollaron en el KTH sueco el primer sintetizador de formantes multilenguaje, el Infovox TTS, descendiente del OVE de Gunnar Fant. La sntesis por concatenacin recibi un fuerte impulso en 1985, con el desarrollo de la tcnica PSOLA para modificacin prosdica desarrollada por investigadores de France Telecom. Finalmente, las bases de los sistemas por concatenacin basados en bases de datos fueron establecidas por investigadores de los laboratorios ATR en Japn a principios de los aos 90. El siguiente diagrama genrico responder a la arquitectura tpica de cualquier sistema de conversin de texto a voz, en la que distinguimos dos componentes fundamentales.

Arquitectura general de un sistema de conversin de texto a voz El siguiente diagrama muestra la arquitectura del sistema, detallando el mdulo de procesamiento de lenguaje natural.

Arquitectura del sistema TTS con el mdulo de procesamiento de lenguaje natural detallado

La conversin de grafema a fonema es relativamente simple, al haber reglas bien definidas, pero no sucede lo mismo en otros idiomas, en los que la transcripcin fontica detallada slo es posible si se conoce la categora gramatical de la palabra considerada, y sta depende del contexto sintctico en el que se encuentre. Igualmente, la prosodia natural depende fuertemente de la sintaxis (y de la semntica y pragmtica, pero dadas las limitaciones de la tecnologa actual en esas ltimas dos disciplinas, los sistemas de TTS se concentran fundamentalmente en la sintaxis), aunque no muchos sistemas actuales utilizan el anlisis sintctico completo. Mdulo de procesamiento de texto El mdulo de procesamiento de texto tiene una serie de funciones bien definidas, con el objetivo de generar una salida textual normalizada para su procesamiento posterior: Un mdulo de preproceso que identifica nmeros, abreviaturas, acrnimos, expresionesidiomticas y los transforma en texto cuando es necesario, encargndose igualmente dedeshacer ambigedades de puntuacin Un mdulo de anlisis morfolgico, cuya misin es proponer las categoras gramaticales a las que pertenece cada palabra. Por ejemplo la palabra alto puede ser tanto adjetivo como nombre comn, y el nmero 1956 en enero de 1956 tiene categora de ao, totalmente distinta de la que tendra en 1956 patatas. Un mdulo de anlisis contextual, que considera las palabras en su contexto y permite reducir la ambigedad en la asignacin de categoras gramaticales del paso anterior. Finalmente, un analizador sintctico y de prosodia, que examina el texto recibido y trata de encontrar su estructura y as identificar las partes sobre las que debe recaer el foco deatencin en la voz generada, lo que implicar un cambio en el patrn entonativo (energa, frecuencia fundamental y duracin). Igualmente, busca los lmites entre los distintos grupos fnicos, que son los segmentos de frase pronunciados de forma continua entre dos tomas de aire (es decir, nuestro conversor texto a voz tiene que saber respirar). En algunos casos sera planteable tambin la inclusin de un mdulo de anlisis semntico, lo que nos ayudara a detectar con mayor precisin las zonas susceptibles de recibir el foco de atencin en la frase.

Mdulo de conversin grafema-fonema El modulo de conversin de grafema a fonema transforma la secuencia de letras recibidas en unasecuencia de sonidos reales (alfonos). En castellano dichas reglas son bastantes regulares pero no sucede lo mismo en otros idiomas (por ejemplo, la pronunciacin de las palabras inglesas though, cough o throughson diferentes a pesar de tener la misma terminacin). Ello implica que en algunos idiomas es posible que se necesite construir diccionarios de pronunciacin lo que no es una tarea fcil, por varios motivos: Los diccionarios convencionales slo se refieren a la pronunciacin de las palabras raz, no sus derivadas, lo que implica introducir conocimiento sobre la morfofonologa del idioma considerado. Algunas palabras tendrn varias entradas en el diccionario (por ejemplo, la palabra inglesa read se pronuncia de forma distinta segn sea presente o pasado) Los palabras pronunciadas en el contexto de una frase pueden modificar su pronunciacin Y, finalmente, es muy posible que nuestro diccionario no disponga de todas las palabras de un idioma, con lo que habr que hacer frente a la aparicin de palabras desconocidas y tratar de estimar una pronunciacin adecuada As, las aproximaciones tradicionales al problema de la conversin de grafema a fonema son dos: Las basadas en el uso de diccionarios de pronunciacin, en las que se podra tener el repertorio completo de las palabras del idioma, aunque tpicamente se recurre al uso de entradas basadas en morfemas, para conseguir limitar los requisitos de memoria necesarios y mantener el tamao del diccionario en un nivel razonablemente pequeo. Adems del diccionario en s, suelen incorporar reglas morfolgicas para extraer la descomposicin en morfemas de cada palabra y mdulos de post proceso que se encargan de, entre otras cosas, tener en cuenta las reglas de coarticulacin y suavizado entre palabras contiguas. Las basadas en reglas de transcripcin, que inevitablemente requieren tambin de bases de datos de excepciones y de los mdulos de post-proceso comentados anteriormente Obviamente, la solucin no es nica, y hay todo un abanico de posibilidades entre los dos extremos. La solucin adecuada depende de

diversos factores, comenzando por el idioma del que se trate, la disponibilidad de memoria, los requisitos de calidad, etc. Mdulo de generacin de prosodia La prosodia es un concepto complejo, mezcla de efectos fsicos y fonticos que los humanos utilizamos para expresar una actitud o emocin determinada y hacer nfasis en aquellas zonas de la frase pronunciada que consideramos ms importantes. Desde el punto de vista fsico, ya hemos comentado cmo el trmino prosodia se refiere a propiedades de la seal de voz relacionadas con cambios apreciables en el tono fundamental, el volumen, las pausas y la duracin. Las caractersticas prosdicas tienen un importantsimo impacto en la comunicacin oral y son uno de los aspectos fundamentales de cara a conseguir naturalidad en las voces sintticas. El efecto ms apreciable de la prosodia es la asignacin del foco de atencin de la frase, pero el hecho de que un sistema de conversin de texto a habla no haga un uso sofisticado de la informacin prosdica no quiere decir que disminuya su inteligibilidad. En la actualidad hay multitud de estrategias para la asignacin de caractersticas prosdicas. Por ejemplo, para la asignacin de duraciones, se usan tpicamente modelos multiplicativos, en los que la duracin de un alfono es el resultado de multiplicar una duracin base tpica, por una serie de factores que dependen de elementos morfosintcticos calculados en los mdulos previos (como por ejemplo el acento, la posicin en la frase, la longitud del grupo fnico, la velocidad media de locucin deseada, etc.). Tambin se han aplicado tcnicas basada en redes neuronales en la que es una de stas la que genera el valor de duracin a partir de los parmetros de entrada seleccionados. Para la asignacin de la frecuencia fundamental (tono), los modelos ms sencillos aplican un modelo lineal por tramos, en el que se introducen variaciones sobre el tono base en funcin del tipo de frase (interrogativa, enunciativa, exclamativa), del grupo fnico al que se aplica, el acento, etc. Tcnicas ms avanzadas incluyen el uso de redes neuronales o el entrenamiento de contornos de tono fundamental a partir de bases de datos de voz previamente grabadas. Una vez que se ha determinado la estructura sintctica y prosdica de la frase, es necesario todava obtener la duracin precisa de cada fonema, de los silencios, y de los valores de tono a aplicar, lo que, de nuevo, no es una tarea fcil.

Mdulo de proceso digital de seal Al que podramos llamar ms exactamente modulo de sntesis de voz, ya que es el que realiza el proceso de generacin (sntesis) final de la seal de voz artificial. Intuitivamente, las operaciones implicadas en el mdulo de sntesis de voz seran anlogas a las que controlan dinmicamente los elementos articulatorios de los pulmones, cuerdas vocales y tracto vocal. Desde esa perspectiva, este mdulo debera tener una base terica fundamentada en la fontica articulatoria o en la fontica acstica, y prestar especial atencin a las zonas de transicin entre fonemas, ya que es en ellas donde est contenida la informacin ms importante contenida en el mensaje hablado (las sntesis de zonas estables es relativamente fcil de conseguir). Esta filosofa ha dado lugar a dos grandes clases de sistemas de sntesis de voz: Los basados en reglas, que se basan en el conocimiento de los procesos de fonacin y la voz es generada por reglas matemticas explcitas que describen formalmente la influencia de unos fonemas en otros. Los basados en concatenacin de unidades, en los que asumiendo nuestro limitado conocimiento sobre el sistema articulatorio y su complejidad, optan por almacenar unidades elementales de voz pregrabada para posteriormente concatenarlas adecuadamente para producir la seal de voz deseada. Genricamente, a los primeros se les denomina sistemas de sntesis por regla y a los segundos, sistemas de sntesis por concatenacin . Sintetizadores basados en reglas En los que cada fonema tiene un conjunto de parmetros identificativos que se refieren a sus caractersticas estticas, y hay una serie de reglas que permiten calcular los valores de los parmetros necesarios en las transiciones sucesivas entre fonemas. El esquema de trabajo en este tipo de sintetizadores es el mostrado en la Ilustracin en el que se incluye el detalle del proceso previo de generacin de las reglas a partir de una base de datos de parmetros extrados a su vez de un proceso de anlisis de habla previamente grabada, lo que, como insistiremos ms adelante, supone un costoso trabajo

Esquema general de trabajo en un sintetizador basado en reglas

Diagrama de bloques de un sintetizador basado en reglas (Klatt) Por razones histricas, estos sintetizadores se denominan tambin sintetizadores por formantes, debido a que su funcionamiento se basa fundamentalmente en el uso de filtros resonantes que emulan el comportamiento de los formantes (representados con cajas rectangulares en la Ilustracin), fcilmente implementables con un filtro IIR de segundo orden, para los que es necesario especificar la frecuencia central del filtro, el ancho de banda del mismo y la frecuencia de muestreo. Con esaestrategia, es fcil construir un filtro con varias resonancias sin ms que concatenar en serie o en paralelo filtros individuales. En este tipo de sintetizadores, la rama paralelo (R1, RNP, R2, R3, R4, R5 y R6 en la figura) se usa para modelar fricativas y oclusivas, mientras que la rama serie (RNP, RNZ, R1, R2, R3, R4 y R5) modela los sonidos sonoros. En el caso de la rama paralelo, es necesario adems especificar la ganancia para cada filtro (lo que se representa con los crculos en la figura). La rama serie, desde el punto de vista matemtico responde a un filtro todo polos,

mientras que la rama paralelo tiene ceros adems de polos. Los filtros R1 a R6 de la figura representan distintas resonancias, RNP responde a la resonancia de la cavidad nasal, RNZ modela el cero de la cavidad nasal, A1 a AB son las ganancias de cada filtro en la rama paralelo y el sistema dispone de un interruptorpara conectar la rama paralelo o la rama serie. Para sonidos sonoros, el modelo de excitacin consiste en un tren de impulsos que atraviesa un filtro paso bajo (RGP) seguido de un filtro paso banda (RGZ y RGS). Para sonidos sordos, la excitacin consiste en ruido blanco filtrado por un filtro paso bajo (LPF). La excitacin para sonidos fricativos, obviamente, ser la combinacin de ambas fuentes.Al igual que hablbamos en la seccin dedicada a los modelos digitales de produccin de habla, en un sistema basado en reglas (o formantes), es necesario identificar los valores de los parmetros estticos de cada uno de los posibles fonemas del idioma, lo que supone un trabajo semi-manual y, en cualquier caso, tedioso, ya que en una primera fase de anlisis es necesario extraer valores iniciales para dichos parmetros que sern posteriormente refinados con pruebas intensivas. Adems, el clculo automtico de las posiciones de formantes y anchos de bandas dista bastante de ser lo suficientemente preciso, lo que hace que el desarrollo de sistemas basados en reglas sea muy costoso en tiempo.Adems de esta extraccin de valores de parmetros estticos, es imprescindible definir reglasmatemticas que permitan calcular la evolucin de los parmetros cuando se producen transiciones entre fonemas. Como se muestra en la Ilustracin las transiciones entre formantes de la voz real son continuas, es decir, no se producen saltos bruscos en su evolucin.

Forma de onda y espectro de la pronunciacin de "ieaou"

As, los sintetizadores utilizan distintos tipos de funciones de suavizado para generar las transiciones artificiales entre dos sonidos con parmetros articulatorios distintos (funciones lineales, trigonomtricas, etc.), aplicando ciertas restricciones en cuanto a la velocidad mxima de transicin, limitada en el terreno fsico por la velocidad mxima de movimiento de los elementos articulatorios. Adems de lo visto, la calidad conseguida por este tipo de sintetizadores no es la mejor de las disponibles con la tecnologa actual, con lo que a pesar de que la sntesis basada en reglas an es una potente estrategia para sistemas de sntesis de voz, la mayora de los sistemas de alta calidaddisponibles se basan en el otro paradigma: la concatenacin de unidades elementales. Adems de la sntesis por regla basada en formantes, tambin podemos mencionar la existencia de sistemas de sntesis articulatoria, en los que el objetivo es modelar de la forma ms fiel posible los aspectos fsicos de la produccin de habla, los elementos articuladores y las correspondientes distribuciones de velocidad volumtrica del aire y presin sonora en los pulmones, la laringe, las cuerdas vocales y las cavidades oral y nasal. Dado que el sistema de produccin de habla humano esrelativamente limitado en cuanto a grados de libertad, es posible definir modelos con menos de 15 parmetros de control. A pesar de ello y an reconocimiendo que la sntesis articulatoria puede ser uno de los campos con ms futuro en esta rea, la calidad ofrecida por los modelos actuales est an lejos de alcanzar los sistemas basados en reglas y, mucho menos, los basados en concatenacin Sintetizadores basados concatenacin Como decamos, a pesar de que la sntesis por regla es bastante inteligible, suena poco natural porque es muy difcil capturar toda la variabilidad presente en el habla natural y concentrarla en unas pocas reglas. En los sistemas de sntesis por concatenacin, un frase es sintetizada a partir de la concatenacin de segmentos de voz ms pequeos que responden a la misma secuencia fontica de dicha frase. La belleza de este enfoque es que, al contrario que en la sntesis por regla, no hace falta usar ni reglas ni ajustes manuales y casa segmento es completamente natural, al proceder de grabaciones de hablantes reales. El problema fundamental con el que nos enfrentamos en la sntesis por concatenacin radica en las discontinuidades (espectrales y temporales) evidentes que nos encontraremos cuando unamos segmentos de voz de, posiblemente, diferente origen y contextos acsticos: las discontinuidades afectarn al tono fundamental, a la evolucin de los formantes, etc. En la Ilustracin se muestra el esquema de trabajo de un sintetizador basado en concatenacin. El proceso comienza con la segmentacin selectiva de una base de datos de habla real, a partir de la cual se obtienen

los segmentos acsticos correspondientes, as como informacin sobre los mismos (que ser utilizada durante la ejecucin del sintetizador). Igualmente se incluye un mdulo de ajuste prosdico y otro que realiza la concatenacin y sntesis final, utilizando el inventorio de segmentos seleccionado (con la opcin de que se almacenen codificados o no, pudiendo ser necesaria la inclusin del decodificador correspondiente). .

Tipos de unidades acsticas Los aspectos que hay que tener en cuenta para seleccionar el tipo de unidades acsticas se refieren fundamentalmente a consideraciones en cuanto a que produzcan baja distorsin en el proceso deconcatenacin acstica y prosdica, y que su nmero sea manejable dados unos determinados recursos computacionales. A lo largo de la historia de este tipo de sistemas, se han propuesto todo tipo de unidades acsticas para conformar el inventario de segmentos a concatenar: Alfonos independientes del contexto, que presentarn importantes discontinuidades, tales que pueden llegar a hacer el sistema ininteligible, por lo que no son una unidad recomendable, aunque su nmero es del orden de 50, con lo que sus requisitos de almacenamiento y procesamiento son muy reducidos. Difonemas, un tipo de unidad de longitud inferior a la palabra, que contiene informacin sobre dos alfonos y su transicin, con lo que se alivian en parte los problemas de discontinuidades en la unin entre unidades, ya que la parte ms complicada (la transicin, en la que aparecen los efectos de coarticulacin) est grabada de habla

natural. En un difonema se incluye la mitad de la parte estable de un alfono, la transicin al siguiente, y la parte estable de ste ltimo. Una base dedatos de difonemas tpica puede contener alrededor de 1500 unidades diferentes, con lo que la complejidad del almacenamiento y procesamiento se incrementa. Trifonemas, en los que el contexto acstico considerado se extiende a tres alfonos, almacenando la parte estable del primer alfono del trifonema, la transicin al alfono central, el alfono central completo, la transicin al tercero y la parte estable del tercero. En este caso, el nmero de unidades puede subir a algunas decenas de miles de ellas. Unidades inferiores al fonema, poco utilizadas en general Slabas, dado que se ha observado que las discontinuidades dentro de las slabas son ms apreciables que las que se producen entre slabas contiguas Palabras completas, e incluso frases, difcilmente usables dado el tremendo nmero de ellas que pueden ser necesarias para cualquier idioma En general, cuando mayor sea la longitud del segmento, se incrementa el nmero de unidades necesarias para cubrir un idioma completa, aunque se incrementa de igual manera la calidad y naturalidad de dichos segmentos. En cualquier caso, los sistemas modernos tienen a hacer uso de una combinacin de todos los tipos de unidades vistos, eligiendo en cada caso aquellos que dan lugar a la menor distorsin en el proceso de concatenacin. Algoritmos de seleccin de la cadena de unidades a concatenar En este punto se trata de decidir cul es la cadena ptima de segmentos acsticos que hay que concatenar para responder a la secuencia fontica que nos entrega el mdulo de procesamiento de lenguaje natural. En aquellos sistemas en los que nicamente hay una posible secuencia, no hay nada ms que discutir, pero la tendencia actual es a disponer de un conjunto elevado de unidades, de forma que se enriquecen las posibilidades y variaciones en la secuencia. En todos los casos, la estrategia consiste en disear una funcin de coste que tenga relacin con la calidad final a obtener, y que suele tener una componente dependiente de un coste asociado a cada unidad y otro asociado a la transicin entre unidades consecutivas. Algoritmos de concatenacin y modificacin prosdica La tarea real del sistema de sntesis es producir, en tiempo real, una secuencia adecuada de segmentos concatenados, con la prosodia ajustada a los valores deseados. Este proceso es ms fcil cuanto ms cuidada sea la

seleccin de unidades y cuanto mejor preparadas estas para la modificacin de su frecuencia fundamental, duracin y envolvente espectral. Dado que dichos segmentos suelen haber sido extraidos de distintas palabras y, en general, de distintos contextos fonticos, frecuentemente presentan desajustes de amplitud o tono, incluso en el caso de sonidos voclicos estacionarios. En este sentido, los procesos de ecualizacin que se incluyen en la Ilustracin ayudan a aliviar el problema, imponiendo contornos espectrales similares en las fronteras de las unidades que tpicamente afectan nicamente a modificaciones de amplitud. Las modificaciones de tono fundamental son ms sencillas de hacer en tiempo de ejecucin. En general, las tcnicas de concatenacin y modificacin prosdica permiten cambiar la amplitud, la duracin y el tono fundamental de los segmentos acsticos que se van a concatenar. Entre los algoritmos clsicos podemos citar OLA (overlap and add) y SOLA (synchronous overlap and add), que se usan para modificacin de duracin, y PSOLA (Pitch synchronous overlap and add), que es el ms utilizado en los sistemas actuales al permitir tambin la modificacin del tono fundamental. Sntesis emotiva La sntesis de voces emotivas (en el sentido de expresar emociones humanas como la tristeza, alegra, enfado, etc.) ha sido objeto de mucha atencin en los ltimos aos. Uno de los problemas fundamentales con los que se enfrenta la tecnologa es que ni siquiera oyentes humanos tienen un criterio definido para la identificacin emotiva. En la tabla siguiente se muestran los porcentajes de deteccin de la emocin simulada en una grabacin con voz natural (generada por un actor) por parte de un grupo de oyentes humanos. Como puede observarse, hay emociones como la alegra que tienen unos porcentajes de identificacin correcta relativamente bajos.

En la tabla siguiente se muestran los mismos resultados cuando la grabacin natural se sustituye por voz sinttica, en este caso la de un sintetizador por regla.

Los resultados muestran en casi todos los casos unos resultados mucho peores que los conseguidos con voz natural. Los primeros sistemas de sntesis emotiva se aplicaron a sintetizadores basados en reglas, (como el del estudio citado anteriormente) convenientemente modificados (sobre todo en el modelo de fuente glotal). La ventaja de este tipo de intetizadores es el gran control sobre los parmetros relacionados con la fontica acstica y prosdicos, pero la baja calidad de los mismos los hace poco atractivos. Los mtodos ms usados en la actualidad operan sobre sintetizadores basados en concatenacin con dos tcnicas fundamentales:

Modificacin prosdica, alterando convenientemente el tono fundamental, la duracin y el volumen, aunque se ha demostrado que dichos parmetros no son los ms relevantes para algunas emociones. Copia prosdica, en la que se persigue copiar los parmetros de control prosdico de ejemplos reales de voces producidas por actores profesionales con la emocin correspondiente. Los sistemas de sntesis por concatenacin son especialmente adecuados para aplicar este mecanismo de copia prosdica, y los resultados conseguidos son razonablemente buenos. En la tabla siguiente se muestran los resultados de tasas de reconocimiento correcto de distintas emociones cuando se usaba el sistema de sntesis por concatenacin del Grupo de Tecnologa del Habla del Departamento de Ingeniera Electrnica de la UPM, aplicando los dos mtodos descritos anteriormente.

Como puede verse, los resultados son significativamente mejores que los descritos para el sistetizador por regla, sobre todo en el caso de la copia prosdica, ms prximos a los obtenidos al usar grabaciones de voz real. Igualmente hay trabajos en curso sobre la sntesis de voces musicales, para generar canciones artificiales, como el Center for Spoken Language Understanding, del Oregon Graduate Institute, en los Estados Unidos. Evaluacin de sistemas de conversin de texto a voz A la hora de decidir acerca de la mayor o menor calidad de un sistema de conversin de texto a voz, es imprescindible abordar tareas de evaluacin. Dicha evaluacin puede hacerse desde mltiples puntos de vista: pruebas de inteligibilidad, pruebas de calidad global y naturalidad, de forma manual o automtica, pruebas en laboratorio o pruebas de campo, etc. En el Grupo de Tecnologa del Habla de la Universidad Politcnica de Madrid disponen de sistemas de conversin de texto a voz en castellano de alta calidad, entre los que destaca el basado en concatenacin de difonemas, con un sofisticado mdulo de asignacin de tono basado en

redes neuronales (puede encontrarse ejemplos y una demostracin en lnea en http://www.gth.die.upm.es/research/synthesis/synthesis.html incluyendo muestras de un conversor basado en reglas). Bibliografia Posicionamiento Satelital, Eduardo Huerta, Aldo Mangiaterra y Gustavo Noguera UNR Editora -Universidad Nacional de Rosario, 2005. HOFMANN WELLENHOF, et al. (1997). Global Positioning System, Theory and practice. Springer Verlag, Wien, New York.HUERTA E, JIMNEZ B, MANGIATERRA A, NOGUERA G, et al. (2001). Proyecto 19/1077 Estacin permanente GPS. Serie Temas de Geociencia, N 7: Georreferenciacin. UNR Editora, Rosario. MANGIATERRA A, NOGUERA G, et al. (1999). Contribuciones a la geodesia en la Argentina de fines del siglo XX, Homenaje a Oscar Parach. UNR Editora, Rosario. PALACIOS CID R, et al. (1999) Geodesia geomtrica, fsica y por satlites. Editorial Colegio de Ingenieros Tcnicos en Topografa, Madrid. PREZ J, BALLELL J. (2000). Transformaciones de coordenadas. Editorial Colegio de Ingenieros Tcnicos en Topografa, Madrid. SEEBER G. (1993). Satellite Geodesy. Walter de Gruyter, Berlin, New York. TEUNISSEN P, KLEUSBERG A. (1998). GPS for Geodesy. Springer, Berlin, New York. TORGE W. (2001). Geodesy. Walter de Gruyter, Berlin, New York. VALBUENA DURN J. L.,NEZ GARCA DEL POZO A, et al. (1992). GPS, la nueva era de la topografa. Ediciones Ciencias Sociales SA, Madrid. ZAKATOV P. (1981). Curso de geodesia superior. Editorial Mir, Mosc.

Bernal Bermdez, J. , Bobadilla Sancho, J. y Gmez Vilda, P. Reconocimiento de voz y fontica acstica. Editorial Rama. 2000 Spoken Language Processing: A guide to Theory, Algorithm and System Development. Prentice Hall, 2001 Palazuelos Cagigas, S.Aplicaciones tecnolgicas en la comunicacin destinadas a parlisiscerebral y afines. Laboratoriode Tecnologas de la Rehabilitacin (DIE-ETSIT-UPM). Informe Interno. 1999 Pardo, J.M..El sistema de produccin de habla. Apuntes de Ingeniera Neurosensorial. 2002

Cronograma Friedrich Robert Helmert (1880), la geodesia es la ciencia encargada de la edicin y representacin cartogrfica de la superficie terrestre La implementacin del programa NAVSTAR, GPS (Navigation System Timing And Ranging, Global Positioning System) fue efectivamente iniciada en diciembre de 1973. El 22 de febrero de 1978 fue lanzado el primer satlite de una serie de cuatro. Los primeros satlites puestos en rbita fueron los integrantes del denominado Bloque I. Fueron lanzados desde la base Vandenberg, ubicada en el estado de California. El total de satlites puestos en rbita fue 11 entre los aos 1978 y 1985, utilizndose para ello cohetes AtlasF. Los satlites del Bloque I fueron sustituidos progresivamente por los del denominado Bloque II. El primer satlite de este grupo fue lanzado en el ao 1989 desde el Centro Espacial Kennedy en Cabo Caaveral, estado de Florida. En 1990 se comenz con el lanzamiento de satlites que tenan ligeras diferencias respecto de la primer versin de este bloque. Este fue el denominado Bloque IIA la A significa Advanced. El 8 de diciembre de 1993 se haban puesto en rbita 15 satlites adicionales de este bloque, totalizando as 24 satlites, fue entonces declarado al sistema en plena capacidad operativa. En 1996 fue lanzado el primer satlite del Bloque IIR. El agregado de R (replacement) se refiere a reemplazo o sustitucin, es decir, estos satlites fueron reemplazando a los satlites que salan de operacin. Esta versin tiene un peso de 2000 Kg. y se distingue por las mejoras introducidas en los relojes de a bordo. Finalmente se desarroll la cuarta generacin de satlites de este bloque, el denominado Bloque IIF con importantes mejoras en el sistema de navegacin de a bordo. El lanzamiento de estos satlites comenz en el 2001 y se prev que seguir hasta el 2010

A fines de 1993 cuando fue completada la constelacin de satlites del sistema. Con la incorporacin de los satlites de los Bloques IIR y IIF la constelacin tiene a principios del 2005, 29 satlites en rbita, distribuidos en los seis planos orbitales. La cantidad de satlites por plano es 4, 5 6 segn la rbita. Con la llegada de los ordenadores digitales, John Kelly y Louis Gerstman crearon en 1961 el primer programa de sntesis fontica por regla, y unos aos ms tarde, en 1968, Noriko Umeda desarroll en Japn el primer sistema completo de conversin texto a voz, basado en un modelo articulatorio que inclua un mdulo de anlisis sintctico, todava muy lejos de la calidad de la que disponemos hoy en da. El trabajo de Dennis Klatt en el MIT ha sido uno de los ms importantes en cuanto a su influencia en este campo. En 1979, junto con Jonatahan Allen y Sheri Hunnicut, desarroll el sistema MITalk, mejorado dos aos despus con el famoso sistema Klattalk, con una mejorada fuente de excitacin global. Los aos 80 marcaron el inicio de los sistemas comerciales, inicialmente adaptaciones del Klattalk y posteriores refinamientos como el DECtalk de 1983, probablemente el sistema de conversin texto a voz ms usado del siglo 20. En 1982, Rokf Carlson, Bjorn Granstrom y Sheri Hunnicut desarrollaron en el KTH sueco el primer sintetizador de formantes multilenguaje, el Infovox TTS, descendiente del OVE de Gunnar Fant. La sntesis por concatenacin recibi un fuerte impulso en 1985, con el desarrollo de la tcnica PSOLA para modificacin prosdica desarrollada por investigadores de France Telecom. Las bases de los sistemas por concatenacin basados en bases de datos fueron establecidas por investigadores de los laboratorios ATR en Japn a principios de los aos 90. La historia de los sistemas que pretenden emular el sistema de produccin de voz humano se remonta hasta finales del siglo XVIII, donde surgieron las primeras teoras y aparatos reales que generaban sonidos voclicos e incluso palabras y frases, como por ejemplo la

mquina parlantede Von Kempelen, que fue reconstruida en el ao 1835 por Sir Charles Wheatstone y cuyo aspecto se muestra en la Ilustracin Mquina parlante de Von Kempelen (1791) reconstruida por Sir Charles Wheatstone El primer dispositivo elctrico para sntesis de voz data de 1922 (Stewart), que consista en un zumbador como fuente de excitacin y dos circuitos resonantes para modelar la respuesta del tracto vocal y que era capaz de generar sonidos voclicos a partir de sus dos primeros formantes. El sistema fue mejorado diez aos ms tarde en Japn (Obata y Teshima) aadiendo un tercer formante para mejorar la inteligibilidad de las vocales. En 1939, en la feria mundial celebrada en Nueva York, Homer Dudley de los Laboratorios Bell,demostr el primer sintetizador de voz elctrico, que era operado manualmente, como puede verse en la Ilustracin en la que tambin se muestra el esquema bsico de su funcionamiento. El primer sintetizador de formantes paralelo, el PAT (Parametric Artificial Talker) fue esarrollado en 1953 por Walter Lawrence en Gran Bretaa, al tiempo que en Suecia Gunner Fant desarrollaba un sintetizador de formantes serie, el OVE II. Tanto Lawrence como Fant mostraron ese mismo ao cmo con un ajuste cuidadoso de los parmetros de dichos sistemas era posible imitar de forma muy natural la calidad de la voz humana. El primer sintetizador articulatorio fue desarrollado en 1958 en el MIT por George Rosen. Trabajos en esa misma tecnologa fueron abordados en los Laboratorios Bell por Paul Mermelstein y JamesFlanagan, en 1976.

Potrebbero piacerti anche