Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
I. INTRODUCCION
La identificacin de una persona es una forma eficaz de brindar
seguridad a un sistema. El estudio de los rasgos conductuales
del ser humano como reconocimiento de: iris del ojo, huellas
dactilares, geometra de la palma de la mano, de voz,
faciales; ha alcanzado un notable inters en el desarrollo en el
campo de las TICS.
IDENTIFICADORES
MODELOS DE
PLANTILLA
MLP
DISTORSION EN
TIEMPO DINAMICO
(DTW)
REDES
NEURALES
NNS
VECTOR DE
QUANTIZACION
(VQ)
MAQUINAS DE
SOPORTE DE
VECTOR (SVMS)
MODELOS
OCULTOS DE
MARKOV (HMM)
ESTOCASTICOS
MODELOS DE MESCLA
GAUSSIANA
(GMM)
Son sonidos del habla que nos permiten distinguir palabras en una lengua
determinada Ej. /p/ y /b/ son fonemas ya que solo al cambiar una letra puede
cambiar todo el contexto en pata & bata
2
Tambin llamadas oclusivas sonoras y se pronuncian con la vibracin de las
cuerdas vocales y determinan pausas en palabras
3 TIMIT base de datos que est diseado para proporcionar datos de voz para
los estudios acsticos-fontica y para el desarrollo y la evaluacin de los
sistemas de reconocimiento automtico del habla. TIMIT contiene grabaciones
de banda ancha de dialectos de Ingls Americano.
PRE
PROCESAMIENTO
PROCESAMIENTO
DE IMAGEN
EXTRACION D E
CARACTERISTICAS
WAVELETS
REDES
NEURONALES
TDNN & MLP
MEL-FREQUENCY
CEPSTRUM COEFFICIENTS
(MFCC)
EXTRACCION
DE
CARACTERISTICAS
INGRESO
VOZ
LINEAR PREDICTIVE
CEPSTRAL COEFICIENTS
(LPCC)
VOZ
RECONOCIDA
PERCEPTUAL LINEAR
PREDICTION (PLP)
NEURAL PREDICTIVE
CODING
(1)
(1)
[][] (2 + 1) ,
(2)
=0
= 0,1, , 1
0 0
0
0 1 0
(3)
= [ ] = (0 , 1 , , 1 ) =
0 0 1
Donde , con = 0,1,, N
coeficientes transformados.
- 1,
=0
(2 + 1) , = 0,1, , 1
2
Seg1 Seg2
Espectrograma
de Imagen
() = 2[]
SegN
4%
3%
FFT
2%
DCT
1%
KLT
0%
2x2
4x4
64
Seal
Analogica
Voz
Convertidor
de 16 Bits
Lineal
Espectrograma
Con n puntos
FFT
Extraction de Caractersticas
Tomar m
Caracterisiticas
Por cada segmento
(Escaneo en Zigzag)
Divida a los
segmentos l,
nmero de PxQ
Clasificador
Guardar como un
archivo de
patrones
REDES
NEURONALES
TDNN & MLP
Escoger
P,Q,m
Ronocer
fonema o
plabra
Hola
Entrenamiento
Pruebas
85
89
77.5
72.4
AGRADECIMIENTOS
Este documento fue realizado con la colaboracin del Msc.
Kenneth Palacios B. profesor de la Universidad de Cuenca y
profesor del ESPOCH quien nos ayud con material y la
documentacin necesaria para realizar esta investigacin.
REFERENCIAS
[1] Lopes Carla, Perdigo Fernando Phone Recognition on the
TIMIT Database
[2] Garca Guajardo, Sistema de reconocimiento de voz
usando perceptrn multicapa y Coeficientes Cepstrales de Mel.
Pag 21-22 . (2014).
[3] Hwang J, Li H, "Interactive Quary learning for Isolated
Speech Recognition", Proc. Of IEEE Signal Processing,
Network for Signal Processing II, Denmark 31 Aug. - 2 Sep.
1992, page 93-102.
[4] Waibel A H, Hanazawa T, Hinton G,Shikano K, Lang K,
"Phoneme Recognition Using Time-Delay Neural Networks.",
lEEE Trans. on ASSP, Vol. ASSP-37, No. 3, March 1989.
[5] Digital Signal Processing and Statistical Classification Miao
G., Clements M. Pag. 116
[6]Valetin Cruz Rodriguez Diseo de un codificador de
imgenes adaptativo multitransformada mediante el uso de la
transformada karhunen-love Octubre 2012 Pag.35 Ref 2.62
[7] M Ahmadi, NJ Bailey, BS Hoyle, "Phoneme Recognition
using Speech Image ( Spectrogram ).", lEEE Proceedings
IWISP '96, 47 November 1996; Manchester, UK. Pag. 674
[8] Rao K R, Yip P, ''DCT. Algorithm. Advantages,
Applications."', Academic Press Inc., 1990.