TCC Ramon

UFPA
Universidade Federal do Par
Ramon Villar Monte Palma Pantoja
Reconhecimento de Padres de Rudo

em redes VDSL2 usando Mquinas de
Vetor de Suporte
UNIVERSIDADE FEDERAL DO PAR

INSTITUTO DE TECNOLOGIA
FACULDADE DE ENGENHARIA ELTRICA
BELM PAR
2 semestre - 2011
Reconhecimento de Padres de Rudo em Redes

VDSL2 usando Mquinas de Vetor de Suporte
Trabalho submetido ao Colegiado do Curso de Engenharia

Eltrica, do Instituto de Tecnologia da Universidade Federal
do Par (FEE ITEC UFPA), para obteno do grau de
Engenheiro Eletricista.
Orientador: Prof. Dr. Joo Crisstomo Weyl Albuquerque

Costa
Co-orientadora: Profa. Dra. Valquria Gusmo Macedo.
Belm - PA
2011
Reconhecimento de Padres de Rudo em Redes

VDSL2 usando Mquinas de Vetor de Suporte
Trabalho submetido ao Colegiado do Curso de
Engenharia Eltrica, do Instituto de Tecnologia da
Universidade Federal do Par (FEE ITEC
UFPA), para obteno do grau de Engenheiro
Eletricista.
Este trabalho foi julgado em ___/___/_____ adequado para obteno do Grau de

Engenheiro Eletricista e aprovado na sua forma final pela banca examinadora que atribuiu o
conceito _______________.
__________________________________________
Prof. Dr. Joo Crisstomo Weyl Albuquerque Costa
ORIENTADOR
__________________________________________
Profa. Dra. Valquria Gusmo Macedo
CO - ORIENTADORA
__________________________________________
Prof. Dr. Aldebaro Barreto da Rocha Klautau Junior
MEMBRO DA BANCA EXAMINADORA
__________________________________________
Prof. Dr. damo Lima de Santana
__________________________________________
Msc. Vinicius Duarte Lima
__________________________________________
Prof. Msc. Ronaldo Nonato Silva Lima
DIRETOR DA FACULDADE DE ENGENHARIA
ELTRICA
Dedicatria
minha famlia, pelo amor com o qual fui criado.
Agradecimentos
minha famlia, que sempre me incentivou ao trabalho e ao estudo, e cujo sentimento
de amor e fraternidade eu procuro levar aonde quer que eu v. Agradeo especialmente aos
meus irmos Gabriel e Lucian, por serem as pessoas com as quais tive a maior convivncia
at hoje, tendo com eles aprendido muito sobre o que o verdadeiro companheirismo.
minha namorada, Satie, pelo amor, carinho, pacincia, e apoio em todo e qualquer
momento. Agradeo tambm pela ajuda na confeco deste trabalho.
A todos os meus amigos e companheiros, em especial ao Alan, Amagol, Bruno, Csar,
Biro, Diego, Donza, Felipe, Flvio, Luiz Augusto, Mauro Andr, Pingarilho, Renan, Roberto
Medeiros, Thiago, e Wilson.
Ao LEA e seus integrantes, responsvel por parte significativa do meu aprendizado
profissional e humano enquanto estudante universitrio. Agradeo especialmente ao Roberto
Menezes, Lamartine Souza, e Vincius Duarte, que me orientaram durante meu perodo de
estgio.
Aos professores do curso de Engenharia Eltrica, que atravs dos seus ensinamentos e
desafios me fazem sentir orgulho imenso em estar me formando.
Resumo
A tecnologia de acesso em banda larga Linha Digital do Assinante, ou DSL (do ingls
Digital Subscribe Line) sofre distrbios originados por basicamente quatro tipos de rudo:
crosstalk, impulsivo, rudo de radiofreqncia e rudo de fundo. Identificar qual deles afeta o
desempenho de um trfego DSL em um determinado momento pode ser uma informao
importante para um melhor gerenciamento do enlace local por parte das operadoras de
telefonia, permitindo que algoritmos que atuam nos modems se adaptem durante a conexo, e
tambm facilitando saber qual a origem de certos problemas no servio prestado ao usurio.
Este trabalho prope o reconhecimento de padres de rudo na parte do enlace de cobre do
VDSL2, a mais recente tecnologia DSL, a partir da aplicao da tcnica Mquinas de Vetores
de Suporte (Support Vector Machines SVM) sobre um conjunto de informaes estatsticas
de gerenciamento, disponveis na camada de aplicao atravs do Protocolo Simples de
Gerncia de Rede (Simple Network Management Protocol SNMP).
Abstract
The Digital Subscriber Line (DSL) broadband technology is mainly disturbed by four
types of noise: crosstalk, impulse noise, radiofrequency noise and background noise. The
identification of which one is limiting the performance of the DSL traffic while the system is
running can be useful for a better management of the local loop by the telephone companies,
allowing modem algorithms to adapt to different noise situations, and making easier the task
of finding some deployment problems sources. This work proposes the noise pattern
recognition on the copper local loop of VDSL2, the most recent DSL technology, through the
application of Support Vector Machines (SVM) on a set of statistical management
information available at the application layer through the Simple Network Management
Protocol (Simple Network Management Protocol-SNMP).
Lista de Figuras
Figura 1 - O enlace local de telefonia (Golden, Dedieu, & Jacobsen, 2004). .......................... 12
Figura 2 Diagrama esquemtico de uma rede DSL. .............................................................. 13
Figura 3 - Diviso do espectro de frequncia no ADSL........................................................... 14
Figura 4 - Diagrama esquemtico geral de um sistema de comunicao digital. ..................... 15
Figura 5 NEXT (Golden, Dedieu, & Jacobsen, 2004)........................................................... 17
Figura 6 FEXT (Golden, Dedieu, & Jacobsen, 2004). .......................................................... 17
Figura 7 - Estrutura da rvore MIB. ......................................................................................... 19
Figura 8 DSLAM obtm as mtricas MIB de cada enlace DSL (Ericsson, 2009). ............... 20
Figura 9 - Mquina de aprendizado. ......................................................................................... 21
Figura 10 - Alguns exemplos de dgitos manuscritos do servio postal americano. ................ 23
Figura 11 - Os pontos vermelhos podem pertencer a um nmero infinito de funes. ............ 25
Figura 13 - Variao do risco estrutural em funo da dimenso VC. ..................................... 26
Figura 14 - Funes diferentes possuem capacidades diferentes (Weston). ............................ 27
Figura 15 - Conjuntos de dados linearmente separveis. ......................................................... 27
Figura 16 - Definindo a margem do classificador. ................................................................... 28
Figura 17 - Classificador de margem rgida. Os vetores de suporte so aqueles situados em
cima da margem (Schlkopf, 2000). ........................................................................................ 29
Figura 18 - Mapeamento no espao de caractersticas (Schlkopf, 2000). .............................. 31
Figura 19 - Variveis de folga . ................................................................................................ 35
Figura 20 - Aplicao do SVM em classificao de dados no linearmente separveis. ......... 37
Figura 22 - Disposio dos equipamentos no cenrio de medio. .......................................... 38
Figura 23 Arquivo ".csv" contendo as MIB. ............................................................................ 42
Figura 24 - Fase inicial da treinamento para determinao dos vetores de suporte. ................ 44
Figura 25 - Fase de classificao. ............................................................................................. 44
Lista de Tabelas
Tabela 1 - Tipos de Kernel. ...................................................................................................... 33
Tabela 2 -Tipos de rudo e enlaces utilizados. ......................................................................... 40
Tabela 3 - Variaes de crosstalk utilizados. .......................................................................... 40
Tabela 4 - Tabela de confuso. ................................................................................................ 45
Tabela 5 Resultados da classificao para o kernel Gaussiano (com =2). .......................... 46
Tabela 6 - Exatido e preciso para o kernel gaussiano. .......................................................... 46
Tabela 7 - Resultados da classificao para o kernel Polinomial (com d=2). .......................... 47
Tabela 8 - Exatido e preciso para o kernel polinomial. ........................................................ 47
Tabela 9 - Resultados da classificao para o kernel linear. .................................................... 48
Tabela 10 - Exatido e preciso para o kernel linear. ............................................................... 48
Tabela 11 Conjunto das 59 mtricas MIB selecionadas ........................................................... 54
Tabela 12 Mtricas de 1 a 6 (abscissas) pelas mtricas de 1 6 (ordenadas) ......................... 58
Tabela 13 Mtricas de 1 a 6 pelas mtricas de 7 12 .............................................................. 58
Tabela 14 Mtricas de 7 a 12 pelas mtricas 1 a 6 ................................................................... 59
Tabela 15 Mtricas de 7 a 12 pelas mtricas de 7 a 12 ............................................................ 59
Lista de Siglas
ADSL
Asymmetric Digital Subscriber Line
ADSL2+
Asymmetric Digital Subscriber Line 2
AM
Amplitude Modulation
ATU-C
ADSL Terminal Unit Central
ATU-R
ADSL Terminal Unit Remote
AWGN
Additive White Gaussian Noise
CO
Central Office
DMT
Discrete Multi-tone
DSL
Digital Subscriber Line
DSLAM
Digital Subscriber Line Access Multiplexer
FEXT
Far-end Crosstalk
FFT
Fast Fourier Transform
HTTP
Hypertext Transfer Protocol
IETF
Internet Engineering Task Force
IP
Internet Protocol
ISDN
Integrated Services Digital Network
MIB
Management Information Base
NEXT
Near-End Crosstalk
PSD
Power Spectral Density
PSTN
Public Switched Telephone Network
QAM
Quadrature Amplitude Modulation
REIN
Repetitive Electrical Impulse Noise
RFC
Request for Comments
RFI
Radio Frequency Interference
SNMP
Simple Network Management Protocol
SNR
Signal-to-Noise Ratio
SVM
Support Vector Machines
VC
Vapnik-Chervonenkis
VDSL2
Very-high bit rate DSL
VTU-R
VDSL Terminal Unit-Remote
Sumrio
1 INTRODUO ..................................................................................................................... 8
1.1 OBJETIVO DO TRABALHO .......................................................................................... 9
1.2 REVISO BIBLIOGRFICA E ESTADO DA ARTE .................................................... 9
1.3 ORGANIZAO DOS CAPTULOS ............................................................................ 10
2 TECNOLOGIA DSL ........................................................................................................... 12
2.1 TIPOS DE DSL: .......................................................................................................... 14
2.2 RUDO EM SISTEMAS DE COMUNICAO .......................................................................... 15
2.3 TIPOS DE RUDO EM SISTEMAS DSL................................................................................. 16
2.3.1 Crosstalk................................................................................................................... 16
2.3.2 Rudo Eltrico Impulsivo Repetitivo ........................................................................ 18
2.3.3 Rudo de Radiofrequncia ........................................................................................ 18
2.3.4 Rudo de Fundo ........................................................................................................ 18
2.4 MTRICAS MIB EM DSL .................................................................................................. 19
3 MQUINAS DE VETOR DE SUPORTE ......................................................................... 21
3.1 APRENDIZADO DE MQUINA ............................................................................................ 21
3.1.1 Aprendizado Supervisionado.................................................................................... 22
3.1.2 Aprendizado No-supervisionado ............................................................................ 23
3.2 MQUINAS DE VETOR DE SUPORTE.................................................................................. 24
3.2.1 Complexidade da Hiptese e Dimenso de Vapnik-Chervonenkis (VC) ................. 24
3.2.2 Classificador de Margem Rgida e o Caso Linearmente Separvel ....................... 27
3.2.3 Kernels ..................................................................................................................... 31
3.2.4 Condio de Existncia de um Kernel ..................................................................... 33
3.2.5 Classificadores de Vetor de Suporte ........................................................................ 34
4 METODOLOGIA................................................................................................................ 38
4.1 CENRIO DE MEDIO ..................................................................................................... 38
4.2 APLICAO DO ALGORITMO DE APRENDIZAGEM ............................................................. 41
4.2.1 Ferramentas Computacionais .................................................................................. 41
4.2.2 Fase de Seleo dos Dados Relevantes.................................................................... 41
4.2.3 Fase de Treinamento do SVM .................................................................................. 43
4.2.4 Fase de Classificao............................................................................................... 44
5 RESULTADOS .................................................................................................................... 45
6 CONCLUSO...................................................................................................................... 49
6.1 PROPOSTAS DE TRABALHOS FUTUROS ............................................................................. 49
REFERNCIAS BIBLIOGRFICAS ................................................................................. 51
APNDICE A CONJUNTO TOTAL DAS MTRICAS MIB ..................................... 54
APNDICE B DIAGRAMAS DE DISPERSO PARA O CASO DO CROSSTALK . 57
APNDICE C ARQUIVOS DE RUDO UTILIZADOS NAS MEDIES ................. 60
CAPTULO 1
1 INTRODUO
O rudo em um sistema de comunicao um dos fatores que causa maior
impacto no desempenho do mesmo. No caso de sistemas do DSL, a presena
principalmente do crosstalk (em portugus, diafonia, porm o termo em ingls ser
utilizado devido sua ampla aceitao) e do rudo impulsivo causam problemas para
operadoras e usurios, podendo limitar bastante o uso da tecnologia. A possibilidade da
identificao de qual tipo de rudo ocorre em um enlace DSL em um determinado
momento se torna deste modo importante para aqueles que vendem o produto, pois
tero um meio de monitorar melhor a sua rede nesse aspecto, tambm permitindo que
algoritmos que atuam nos modems se adaptem durante a conexo, e facilitando saber
qual a origem de certos problemas no servio prestado ao usurio (Yang, Dasgupta,
Redfer, & Ali).
Uma maneira de resolver esse problema seria atravs da utilizao de tcnicas de
inteligncia computacional, que abrangem uma larga gama de algoritmos e teorias, entre
eles a aprendizagem de mquina. Mquinas de Vetor de Suporte (Support Vector
Machines SVM) uma dessas tcnicas, sendo baseada na teoria do aprendizado
estatstico, desenvolvidas por Vladimir Vapnik e Alexey Chervonenkis (Vapnik, 1998).
A ideia principal do SVM a seguinte: dado um conjunto de vetores de dois padres
diferentes, realizar a projeo dos mesmos em um espao de igual ou maior dimenso e
identificar o subconjunto deles que permita o clculo de uma funo discriminante para
realizar a classificao de novos vetores. No caso do problema de identificao de rudo
em DSL, o conjunto de vetores so dados da Base de Informao de Gerenciamento, ou
MIB (do ingls Management Information Base) provenientes do Multiplexador de
Acesso DSL, ou DSLAM (do ingls Digital Subscriber Line Access Multiplexer),
acessveis atravs do Protocolo Simples de Gerncia de Rede (Simple Network
Management Protocol SNMP) da internet. SVM considerado o estado da arte em
aprendizado de mquina e minerao de dados, possuindo uma slida fundamentao
terica e sendo capaz de lidar com problemas de alta dimensionalidade (Wu, et al,
2008). A aplicao desta tcnica ser a principal contribuio deste trabalho para
encontrar a relao entre a estatstica das mtricas obtidas e a presena de um
determinado tipo de rudo.
1.1 OBJETIVO DO TRABALHO

Dispondo
da
tcnica
de
aprendizado
estatstico
SVM
desenvolvida
computacionalmente (atravs do software MATLAB), o trabalho tem como objetivo

criar uma ferramenta de classificao do rudo presente em uma rede de segunda
gerao do DSL a taxas muito altas de bit (Very-high bit rate DSL VDSL2), atuando
na central telefnica. A classificao desejada possui quatro padres diferentes:
crosstalk, Rudo Impulsivo Repetitivo (Repetitive Electrical Impulse Noise REIN),
rudo de fundo e Interferncia de Rdio Frequncia (Radio Frequency Interference RFI).
importante ressaltar que, apesar de o objetivo deste trabalho ser a classificao
do tipo de rudo ocorrendo no DSL, esta pode ser considerada apenas a primeira etapa
de um trabalho de pesquisa maior, onde se deseja chegar a estgios de inferncia sobre o
rudo com o mximo de informaes fsicas possveis de serem alcanadas somente a
partir das medies na camada de aplicao.
1.2 REVISO BIBLIOGRFICA E ESTADO DA ARTE

No que se refere a pesquisas j realizadas que possuam semelhana ao presente
trabalho, pode-se dividi-los em diferentes categorias: identificao de rudo e
aprendizagem de mquina/minerao de dados aplicadas MIB. Nota-se que ocorre de
muitas vezes a identificao do rudo ocorrer junto estimao do mesmo, sendo que
esta no o objetivo deste trabalho.
Um modo comum de identificao de rudo atravs de medidas com
equipamentos colocados na casa do usurio. A nota de aplicao (Dunford, 2008)
descreve um exemplo deste tipo, que consiste em medidas de potncia do rudo em cada
portadora. Nota-se a necessidade da interrupo do servio do assinante para a medio
de nvel de potncia no local do mesmo. Em (Galli, Valenti, 2001) apresentada uma
tcnica de identificao de boa preciso baseada em correlao de densidades espectrais
de potncia medidas, atuando principalmente na camada fsica de comunicao, o que
difere do presente trabalho, que busca realizar inferncia em termos de medies da
camada de aplicao. Neles a identificao ocorre tambm quando no est sendo
havendo trfego DSL. Em (Yang, Dasgupta, Redfer, & Ali), a classificao de rudo
crosstalk realizada a partir da estimao das densidades espectrais de potncia dos
rudos atuando sobre o enlace, sem a interrupo do servio.
10
A aplicao de tcnicas de aprendizagem de mquina s variveis MIB consiste

basicamente para deteco de erros ou anomalias na rede, como mostrado em (Kulkarni,
et al.,2006)(Gazineu, 2007). Neles, a gerncia de rede atravs das variveis MIB
apresentada de maneira mais genrica, com o intuito principal de detectar erros de
trfego, como congestionamento em um n.
Em (Li & Manikopoulos, 2003),
proposto um sistema para deteco de ataques de negao de servio (Denial of Service

- DoS). Nele, cada varivel MIB caracterizada por uma densidade de probabilidade
padro, e o monitoramento em tempo real dessas variveis permite ao sistema realizar,
caso o conjunto de variveis tenha uma estatstica diferente daquela de referncia, uma
classificao entre ocorrncia ou no de ocorrncia de ataque, atravs de uma rede
neural. Em (Cui-Mei, 2009), o mesmo resultado desejado, porm desta vez usando
SVM como tcnica de classificao, o que o torna bastante semelhante ao modo como
se pretende classificar os tipos de rudo em DSL neste trabalho. Este artigo prope o uso
de Seleo de Caractersticas atravs da Correlao, ou CFS (do ingls Correlation
Feature Selection), para selecionar as mtricas que vo participar do processo de
classificao. Outra ideia interessante deste autor utilizar SVM em dois nveis de
hierarquia: no primeiro nvel deseja-se classificar se h ou no ataque DoS, e no nvel
seguinte deseja-se classificar qual tipo especfico de DoS foi realizado, dado que houve
um ataque. Finalmente, em (Farias, et al., 2011), artigo do mesmo grupo de pesquisa em
DSL do presente trabalho, proposta uma tcnica para classificao e estimao do
rudo em tempo real atravs de regresso linear e lgica fuzzy. Nele, no h necessidade
de interrupo do servio do assinante. O objetivo e os mtodos propostos nele so
semelhantes aos deste trabalho, diferindo principalmente a tcnica de classificao
utilizada e as variveis escolhidas para realizar a classificao.
1.3 ORGANIZAO DOS CAPTULOS

O presente trabalho est dividido nos seguintes captulos:
Captulo 1 Introduo.
Captulo 2 - Tecnologia xDSL: Neste captulo apresentada uma viso geral

sobre a tecnologia xDSL, e feito estudo mais aprofundado sobre a presena do
rudo no mesmo. O funcionamento do protocolo SNMP e das MIB em redes
xDSL tambm introduzido.
Captulo 3 - Mquinas de vetor de suporte: A tcnica de aprendizagem de

mquina e minerao de dados apresentada do ponto de vista do
11
reconhecimento de padres, atravs de suas principais ideias: a construo de

um hiperplano de separao timo entre dois conjuntos de padres diferentes, e
as funes kernel, que permitem a generalizao do algoritmo para problemas
no lineares.
Captulo 4 - Metodologia: explicado como foram feitas as medies de

trfego em VDSL2 utilizando cabo real, e o modo como foi aplicada a mquina
de vetores de suporte.
Captulo 5 - Resultados: exposio dos resultados obtidos, a partir do uso de

matrizes de confuso.
Captulo 6 - Concluso: concluso sobre os resultados obtidos e o trabalho

realizado, bem como as propostas de possveis outros trabalhos que sigam a
mesma linha de raciocnio.
12
CAPTULO 2
2 TECNOLOGIA DSL
O sistema DSL a tecnologia de acesso mais utilizada por usurios residenciais
e comerciais (Broadband, 2008). Ela consiste na transmisso de dados, vdeo e udio,
em alta velocidade, atravs da rede telefnica. A caracterstica principal desta
tecnologia o fato de ela ter sido construda para transmitir sinais digitais em banda
larga aproveitando a infra-estrutura de telefonia j existente (que transmite sinais
analgicos de voz), cuja existncia remete ao comeo do sculo XX. A estrutura da rede
telefnica foi criada para operar na estreita faixa de voz, que vai at 4 kHz. Com o
advento da eletrnica e dos computadores, tornou-se necessria a pesquisa para
encontrar meios de transmitir informaes digitais, e a possibilidade de usar faixas
maiores de frequncia para a composio dos sinais e garantir a qualidade do servio
tornou-se um objetivo a ser alcanado. Devido infra-estrutura telefnica j existente e
popularizada pelo mundo, pensou-se em utiliz-la tambm para o fim da comunicao
digital. A utilizao da rede telefnica foi muito importante para a popularizao do
DSL, principalmente porque permitiu que o acesso em banda larga fosse oferecido a
preos muito menores em comparao com a fibra ptica, por exemplo.
De modo a compreender o funcionamento desta tecnologia, necessrio
compreender inicialmente como funciona a Rede Telefnica Pblica Comutada, ou
PSTN (do ingls Public Switched Telephone Network). A arquitetura bsica de um
sistema de telefonia pode ser vista na Figura 1:
Figura 1 - O enlace local de telefonia (Golden, Dedieu, & Jacobsen, 2004).
A rede telefnica opera na faixa at 4 kHz, funcionando por meio de cabos

contendo pares tranados de cobre, enviando sinais analgicos de voz. O comutador
local, tambm chamado de central telefnica, o responsvel pela comutao das
13
chamadas, realizando o direcionamento das ligaes. Esta comutao j foi feita de

diversas maneiras, desde operao manual, eletromecnica, e atualmente atravs de
interfaces digitais (Golden, Dedieu, & Jacobsen, 2004). Da central telefnica sai o
backbone, cabo comportando os diversos pares que correspondem aos usurios sendo
atendidos por ela. Esses pares so divididos em direo aos usurios finais atravs de
gabinetes localizados na rua, podendo passar por mais de um em seu caminho. O
acrscimo do servio DSL trouxe mudanas principalmente nas extremidades da linha
telefnica, j na central e no usurio, como mostra a Figura 2:
Figura 2 Diagrama esquemtico de uma rede DSL.
As principais adies estrutura telefnica advindas do DSL foram as seguintes:

Modem xDSL: O modem DSL um transceptor que fica conectado a um computador
ou switch, responsvel pelo tratamento analgico e digital do sinal eltrico em DSL.
Fica localizado na casa do usurio, onde normalmente referido como a unidade
terminal, ou ATU-R (do ingls ADSL Terminal Unit Remote), e tambm est presente
na central, como componente do DSLAM, sendo assim referido como Unidade
Terminal ADSLCentral, ou ATU-C (do ingls ADSL Terminal Unit Central).
DSL Access Multiplexer (DSLAM): o responsvel pela multiplexao do trfego na
rede DSL, permitindo que diversos usurios possam usufruir do servio. Normalmente
est presente na Central Telefnica (Central Office CO), que considerada o comeo
do enlace. O DSLAM usualmente contm muitos modems ATU-C, servindo a uma
grande quantidade de usurios.
Splitter: Como a informao de voz e de dados chega ao consumidor atravs do mesmo
par tranado, necessrio utilizar filtros que dividam a faixa espectral de ambos, para
que no haja interferncia de um servio no outro, normalmente atravs de ecos
(G.993.1, 2004). A utilizao dos splitters denota tambm a possibilidade do usurio
de usar o servio de telefonia e o DSL simultaneamente.
14
2.1 TIPOS DE DSL:

Um grande nmero de tipos tecnologias DSL foi e ainda oferecido no
mercado, denotando a versatilidade que possvel alcanar na transmisso de sinais
atravs de cabos de cobre. Entre todas as tecnologias, duas merecem bastante destaque:
o ADSL, por ser o tipo mais popular e vendido no mundo, e o VDSL2, que o seu mais
recente estgio desenvolvimento.
2.1.1 ADSL:
O ADSL o tipo de DSL que permitiu a popularizao do servio, devido sua
capacidade de ser funcional em enlaces de at 4 km, e por ser uma tecnologia de
transmisso assimtrica, significando que a banda de upstream diferente da banda de
downstream, tendo como conseqncia que a taxa de transmisso dos dois tambm
diferente. Um dos principais motivos para a sua aplicao comercial foi para o de vdeo
em demanda (Patrcio, 2006). A diviso do seu espectro, como ilustra a Figura 3,
favorece o downstream, que normalmente prioritrio em termos de usurios
residenciais.
Figura 3 - Diviso do espectro de frequncia no ADSL.
Nota-se na Figura 3 que a faixa reservada voz dividida daquela reservada

comunicao digital. A ltima verso do ADSL, o ADSL2+, proporciona at 24 Mbps
como taxa de downstream e 1Mbps para o upstream (Broadband, 2008).
2.1.2 VDSL2
A tecnologia DSL veio como uma maneira de amenizar a necessidade dos
consumidores por acesso internet em banda larga. Entretanto, o avano das redes de
fibra ptica e redes hbridas pticas-coaxiais faz com que as operadoras de telefonia
tenham a constante preocupao com o aumento da taxa de transmisso, de modo a
15
manter seus usurios fiis ao servio oferecido (Papandriopoulos & Evans, SCALE: A
Low-Complexity Distributed Protocol for Spectrum Balancing in Multiuser DSL
Networks, 2009). A criao do VDSL2 representa esta tentativa de manter a tecnologia
ainda bastante competitiva, com a faixa de frequncia se estendendo at 30 MHz e
prometendo at 100 Mbps em um trfego simtrico para pequenos enlaces (at 1500 m).
O trfego assimtrico tambm permitido, com velocidade de 150 Mbps para
downstream e 50 Mbps para o upstream. A expanso da fibra ptica a partir da central
nos enlaces um dos fatores que permite ao VDSL2 alcanar taxas to grandes em
relao s tecnologias DSL anteriores, especificamente na modalidade de fibra at o
gabinete (Fiber to the Curb - FTTC), com o VDSL2 ligando a fibra ptica a
consumidores residenciais, e na fibra at o prdio (Fiber to the Building - FTTB),
ligando a fibra ptica a consumidores comerciais principalmente. VDSL2 traz
mudanas significativas em termos de infra-estrutura, visto que agora os DSLAMs
(antes normalmente localizados dentro das COs) tero que ser posicionados em
gabinetes situados prximos ao usurio (Eriksson & Odenhammar, 2006).
2.2 Rudo em Sistemas de Comunicao

O rudo um dos principais fatores limitantes de um sistema de comunicao, e
uma descrio breve do seu impacto faz-se interessante, j que identific-lo um dos
objetivos deste trabalho. Em seu artigo seminal (Shannon, 1948), Shannon descreveu
matematicamente a influncia do rudo sobre a capacidade do canal de comunicao.
Considerando o sistema de comunicao digital descrito na Figura 4:
Figura 4 - Diagrama esquemtico geral de um sistema de comunicao digital.
A capacidade do canal em um sistema digital foi descrita na Equao 2.1 como

sendo:
16
,
onde
(2.1)
a informao mtua entre o emissor ( ) e o receptor (
. Pode-se
dizer ento que a capacidade do canal a taxa mxima de informao que se pode
transmitir atravs do mesmo, dada em bits/Hz, alcanada em funo da distribuio de
probabilidade do emissor. Logo, caso a taxa do canal seja
, pode haver um
aumento no comprimento dos blocos de informao que garanta que sua chegada ao
receptor sem erro (MacKay, 2003). Caso
, a probabilidade de erro do bloco
aumenta proporcionalmente ao comprimento do mesmo, fazendo com que a

comunicao comece a se tornar impraticvel. Ao estender a Equao 2.1 para um canal
na presena de rudo, chegou-se seguinte Equao 2.2 para a capacidade:
,
Onde
a largura de banda do canal em Hz, e
(2.2)
a Razo Sinal-Rudo, RSR
(Signal-to-Noise Ratio SNR), mostrando a relao entre a potncia do sinal contendo

a informao que se deseja transmitir, e a potncia do rudo presente no canal afetando a
informao. Logo, possvel aumentar a capacidade de transmisso em um canal
aumentando a largura de banda ou melhorando a razo sinal-rudo do mesmo. O SNR
varia de acordo com o tipo de rudo que se considera atuando sobre o sistema. Ser visto
adiante que possvel obter informaes interessantes para realizar uma caracterizao
do rudo (como a margem de SNR, nmero de blocos corrigidos, e taxa de transmisso
da central para o usurio) atravs do protocolo SNMP.
2.3 Tipos de Rudo em Sistemas DSL
2.3.1 Crosstalk
O crosstalk em DSL o rudo causado devido ao acoplamento eletromagntico
entre os fios de cobre que compem o canal de comunicao telefnico, e o principal
tipo de rudo presente em um enlace DSL (Cendrillon, 2004). Um dos motivos a m
qualidade dos tradicionais fios telefnicos, que agravam o efeito do crosstalk no
desempenho do servio DSL. Este tipo de rudo pode ocorrer mesmo em enlaces curtos,
e depende da topologia do enlace (Papandriopoulos, et AL, 2009). O crosstalk quando
dois pares prximos esto trabalhando na mesma faixa de freqncia.
O crosstalk pode ser categorizado em dois tipos diferentes: NEXT e FEXT,
definidos a seguir.
17
2.3.1.1 NEXT
O crosstalk do tipo NEXT (do ingls Near-End Crosstalk) o acoplamento que
ocorre em outro par tranado no sentido contrrio ao do sinal original. Sua ocorrncia
mais intensa nas extremidades do enlace, mas pode ocorrer tambm no meio dele
(Golden, Dedieu, & Jacobsen, 2004). Este tipo de rudo ocorre em transmisses DSL
simtricas. A Figura 5 exemplifica a ocorrncia do NEXT:
Figura 5 NEXT (Golden, Dedieu, & Jacobsen, 2004).
O modelo (emprico) da densidade espectral de potncia do rudo NEXT dado

pela Equao 2.3 (Golden, Dedieu, & Jacobsen, 2004):
| | .
(2.3)
Este modelo indica a relao entre o sinal transmitido por
pares interferentes,
e o crosstalk sobre um cabo sofrendo a interferncia, pois
proporcional ao
nmero de pares interferentes no cabo.

2.3.1.2 FEXT
O FEXT (do ingls Far-end Crosstalk) o acoplamento que ocorre no mesmo
sentido do sinal transmitido. O FEXT, ilustrado na Figura 6, pode ocorrer em
transmisses simtricas e assimtricas.
Figura 6 FEXT (Golden, Dedieu, & Jacobsen, 2004).
O modelo (emprico) da potncia do rudo FEXT dado pela Equao 2.4

(Golden, Dedieu, & Jacobsen, 2004):
18
| | ,
onde
(2.4)
proporcional ao comprimento do cabo e ao nmero de interferentes, e

uma constante.
O NEXT muito mais pernicioso que o FEXT, pois ele afeta um sinal que j
sofreu perdas devido distncia percorrida, enquanto que o FEXT sofre atenuao ao
longo da linha e depois afeta o sinal. A partir dos modelos apresentados, percebe-se que
a o nvel de interferncia aumenta medida que aumenta a frequncia de operao do
DSL, e tambm quanto maior a quantidade de interferentes conectados no mesmo
binder (cabo de proteo revestindo um conjunto de pares tranados), maior a potncia
do rudo (Golden, Dedieu, & Jacobsen, 2004).
2.3.2 Rudo Eltrico Impulsivo Repetitivo
O Rudo Eltrico Impulsivo Repetitivo, ou REIN (do ingls Repetitive Electric
Impulsive Noise) o rudo que se caracteriza por pulsos eltricos de curta durao, mas
de potncias muito elevadas, ocorrendo com periodicidade. Sua interferncia gerada
por qualquer pulso eletromagntico que ocorra nas proximidades do enlace, e, portanto
sua fonte no facilmente identificada, sendo normalmente proveniente da atividade
humana e transitrios causados por chaveamento (Golden, Dedieu, & Jacobsen, 2004).
A potncia do rudo impulsivo pode ser grande o suficiente para muitas vezes
interromper a transmisso em sistemas DSL.
2.3.3 Rudo de Radiofrequncia
o rudo causado pela interferncia de ondas de rdio, tendo como origem
normalmente transmisses de emissoras usando modulao AM ou de rdio amador.
um rudo que possui uma faixa estreita de frequncia, entre 2,5 e 5 kHz, sendo que a
faixa do AM localiza-se entre 0,5 e 1,6 MHz, e a do amador entre 1,8 e 29 MHz, que
tambm compartilhada pelo ADSL e pelo VDSL2. Em comparao com o crosstalk e
o rudo impulsivo, o impacto do rudo de radiofrequncia possui menor importncia. No
entanto, na frequncia do VDSL2, a potncia do rudo pode chegar a -30 dBm e 0 dBm,
para rdio AM e amador respectivamente, considerando a transmisso em modo
diferencial, o que leva o RFI estar includo na padronizao do VDSL2 (Nedev, 2003).
2.3.4 Rudo de Fundo
O rudo de fundo caracteriza-se por estar presente no sistema mesmo quando a
fonte no est emitindo. Ele criado pela composio das interferncias de diversas
fontes externas ao sistema de comunicao. Em DSL, ele possui como padro a
19
densidade espectral de potncia de -140 dBm/Hz, podendo ocupar diferentes faixas de

frequncia (Golden, Dedieu, & Jacobsen, 2004) (Brost & Aspell, 2002).
2.4 Mtricas MIB em DSL
Como as medies da camada fsica podem causar a interrupo do servio de
internet, uma alternativa para inferncia do rudo seria buscar nas camadas superiores
um meio de realiz-lo, a partir dos dados apresentados por elas. Existe um conjunto de
ferramentas de gerenciamento de rede na camada de aplicao. Entre elas, o SNMP, que
foi criado por um grupo do Internet Engineering Task Force (IETF) justamente para
realizar o monitoramento e gesto das redes de computadores e dispositivos de
Protocolo de Internet (Internet Protocol IP). Ele segue basicamente um conjunto de
regras que permite a um computador obter informaes estatsticas (como pacotes
perdidos, nmero de erros, margem de rudo, entre muitas outras) a respeito de outro
computador. Ele permite, por exemplo, que um administrador de rede possa
diagnosticar e corrigir problemas na rede a partir de servidores remotos. O SNMP foi
definido a partir de trs documentos RFC (Request for Comments) (Gati, 2005):
RFC 1156
Management Information Base MIB
RFC 1157
SNMP Protocol
RFC 1213
Management Information Base MIB II
Cada informao obtida pelo SNMP estocada em um MIB, que um banco de

dados virtual criado para a tarefa da gesto de rede de comunicaes. Esse banco de
dados possui diversas variveis, chamadas de variveis MIB, que neste trabalho sero
tambm chamadas mtricas. Os MIB so informaes relacionadas ao gerenciamento de
dispositivos, como impressoras, roteadores, e modems. Eles so organizados de acordo
com a rvore descrita na Figura 7:
Figura 7 - Estrutura da rvore MIB.
20
O fato de o protocolo SNMP e o MIB serem ferramentas que permitem

monitorar o funcionamento de uma rede atravs de mtricas estatsticas, aliado
explicao dada na seo (rudo em sistemas DSL), propicia uma possibilidade de obter
um conhecimento adicional quele simplesmente descrito pelas mesmas, justificando a
realizao dos MIB como fonte de dados para o processo de aprendizagem de mquina
que ser visto adiante. No caso da classificao de rudo, deve-se tentar descrever o
comportamento dessas mtricas na presena do mesmo.
O MIB em sistemas DSL obtido a partir de um mdulo do DSLAM, que obtm
informaes de gerenciamento para cada par de modems situados nas extremidades do
enlace, como mostra a Figura 8 (Ericsson, 2009).
Figura 8 DSLAM obtm as mtricas MIB de cada enlace DSL (Ericsson, 2009).
21
CAPTULO 3
3 MQUINAS DE VETOR DE SUPORTE

3.1 Aprendizado de Mquina
Mquinas de vetores de suporte uma tcnica que pertence a um ramo da
inteligncia artificial chamado de Aprendizado de Mquina. De modo a entender melhor
certos conceitos genricos utilizados em SVM, uma introduo ao aprendizado de
mquina se faz til. O aprendizado de mquina composto por diversas tcnicas que
possuem em comum um objetivo: fazer com que determinado sistema execute certa
tarefa com base em uma srie de experincias relacionadas com a mesma, ou seja, fazer
com que o sistema aprenda. O processo de aprendizagem ocorre analisando um
conjunto de
dimenso
dados de entrada
, com
, onde
um vetor de
, e a partir desta anlise inferir um determinado padro de sada
. A
arquitetura tradicional de uma mquina de aprendizado pode ser conferida na Figura 9,

onde
uma hiptese (modelo) representando a relao aproximada entre
e a sada estimada pela hiptese
Figura 9 - Mquina de aprendizado.
Uma descrio formal para a problemtica do aprendizado de mquina pode ser

a seguinte (Mitchell, 1997):
Um programa de computador aprende, baseado em uma experincia
respeito a uma tarefa
, e uma medida de desempenho
medido por , aumenta com a experincia
, com
, se o desempenho em
O processo do aprendizado de mquina pode ser resumido nas 5 etapas

seguintes:
1 Obteno do conjunto de dados de treino
22
2 Formulao de uma (ou vrias) hiptese
, com
um conhecimento a priori da relao entre os dados de entrada
representando
e a sada .
3 Treinamento do algoritmo de aprendizado utilizando os dados obtidos em 1,

adaptando a hiptese
a medida que a mquina recebe mais dados. Esta a etapa de
aprendizagem do algoritmo, existindo uma grande quantidade de tcnicas diferentes que

podem ser usadas para treinamento.
4 - Teste da hiptese obtida a partir dos dados de treino utilizando os dados de
validao. Se no comeo desta etapa houver mais de uma hiptese plausvel para um
modelo definitivo, apenas uma ser escolhida para a etapa 5. A hiptese final tambm
pode ser modificada nesta parte.
5- Aplicao da hiptese final obtida nos dados de teste, de modo a verificar se
ela generaliza bem para novos dados, ou seja, se ela fornece a resposta correta para
dados para os quais o algoritmo nunca foi apresentado e no conhece a sada
. O
objetivo final do aprendizado sempre obter uma hiptese que se adqe a esse critrio,
se no perfeitamente, pelo menos aproximadamente, portanto ela no deve ser
modificada nesta etapa. Os dados de treino, validao e teste fazem parte do mesmo
conjunto de dados obtidos de um experimento. Recomenda-se que os dados tenham um
comportamento diversificado (valores no to parecidos, ou que tenham um nmero
diversificado de sadas, e no vrias de somente um tipo, por exemplo) de modo a gerar
uma hiptese generalista.
Tcnicas de aprendizado de mquina so aplicadas para reconhecimento de
padres, viso computacional, robtica, economia, e vrias outras reas onde se deseja
descobrir relaes matemticas dentro de um conjunto de dados. Duas categorias de
aprendizado so apresentadas abaixo: supervisionado e no-supervisionado.
3.1.1 Aprendizado Supervisionado
No aprendizado supervisionado, o conjunto de dados de entrada formado por
, onde a -sima entrada da mquina de aprendizado, ou seja, fornecida
mquina a entrada junto sua respectiva sada. Este tipo de situao favorvel para o
algoritmo de aprendizado, j que ele ensinado a dar o resultado correto para
determinada entrada. O aprendizado supervisionado pode ser de dois tipos: classificao
ou regresso. Na classificao, busca-se classificar a sada de uma mquina de
aprendizagem em termos qualitativos, normalmente discretos. O problema atual de
classificao de rudo se enquadra neste caso, j que a sada pertence ao conjunto
23
}. Na regresso, busca-se obter uma sada
quantitativa na mquina de aprendizado, geralmente na forma de uma funo contnua

. O aprendizado supervisionado tambm chamado aprendizado com professor.
Um exemplo deste tipo de aprendizado o reconhecimento de manuscritos, mostrado na
Figura 10. Nele, fornecida uma imagem digital representando nmeros ou letras, com
16x16 pixels, onde cada pixel formado por 8 bits, que representam a intensidade na
escala do cinza, indo de 0 a 255. Juntamente com a imagem digital fornecido
precisamente o dgito que a entrada representa, fazendo com que o algoritmo aprenda a
relacionar as imagens digitais com a sua respectiva sada.
(Hastie, Tibshirani, &
Friedman, 2009).
Figura 10 - Alguns exemplos de dgitos manuscritos do servio postal americano.
3.1.2 Aprendizado No-supervisionado

No aprendizado no-supervisionado, a sada no fornecida juntamente com a
de entrada, mas o nmero de classes ao qual as entradas pertencem podem ser
conhecidas. Nesta modalidade de aprendizado mais difcil j que o algoritmo ter que
aprender por si s quais os diferentes padres ocultos no conjunto de dados (Hastie,
Tibshirani, & Friedman, 2009). Um exemplo de problema de aprendizado nosupervisionado o da estimao das densidades de probabilidade presentes em um
conjunto de dados, sendo que o mesmo composto por uma ou mais densidades.
24
3.2 Mquinas de Vetor de Suporte

Mquinas de vetor de suporte so um conjunto de algoritmos para aprendizado
estatstico relativamente recentes, desenvolvidos por Vapnik et AL (Vapnik, 1998).
Mquinas de vetor de suporte fazem parte da classe de algoritmos de aprendizado
estatstico supervisionado, no-paramtricos e podem ser usado tanto para classificao
como para regresso.
A principal ideia por trs dos algoritmos SVM consiste em encontrar o
hiperplano timo que proporcione a mxima separao entre dois conjuntos de dados de
padres conhecidos e diferentes. Desse modo, podemos determinar o padro de uma
amostra no identificada com base em sua localizao em relao ao hiperplano timo.
Quando o conjunto de treino composto por dados linearmente separveis, ou seja,
dados que podem ser divididos por pelo menos um hiperplano, o procedimento para
obteno do hiperplano timo consiste na soluo direta de um problema de otimizao
convexa. Caso o conjunto de dados no seja linearmente separvel, faz-se necessria a
utilizao de uma transformao que aumente a dimenso do mesmo, de modo que
neste novo espao os dados estejam linearmente separveis e possa-se encontrar um
hiperplano de separao. Esta transformao realizada atravs do uso da funo de
kernel, o que torna o SVM uma tcnica bastante robusta e eficiente na resoluo de
problemas de classificao no lineares. O fato de minimizar uma funo convexa, para
a qual existe uma boa quantidade de mtodos analticos de soluo, facilita a sua
implementao, bem como previne o algoritmo de sofrer com problemas relacionados a
mnimos locais. Outra importante caracterstica das SVMs a possibilidade de utilizlos em problemas com nmero infinito de dimenses (Cristianini & Shawe-Taylor,
2000).
3.2.1 Complexidade da Hiptese e Dimenso de Vapnik-Chervonenkis (VC)

Como j mencionado, o problema bsico em aprendizado supervisionadona
supervisionado aquele de encontrar a estrutura presente nos dados de entrada
. Dado um novo
, deseja-se encontrar o seu
correspondente
com base nas sadas j fornecidas pelos dados de treino. Um meio comum de alcanar
este objetivo a minimizao do risco emprico (ou erro emprico) em relao aos
dados de treino, dado pela Equao 3.1:
25
|
onde
(3.1)
a hiptese considerada. No caso de SVM,
podem assumir
somente os valores 1 e -1. Porm, nem sempre um erro pequeno para os dados de treino
significa que nos dados de teste o erro tambm ser pequeno, o que pode causar
problemas na generalizao do algoritmo, causando o chamado overfitting1. Isso pode
ser mostrado da seguinte maneira (Weston): dados um conjunto de treino
e um conjunto de teste
espao , para todo
existe
de modo que
e
onde
, ambos pertencendo ao mesmo

( )
( )
(3.2)
. Ou seja, existe uma infinidade de funes possveis que
podem ser relacionadas aos dados de treino e suas sadas, entretanto deve-se encontrar a
verdadeira funo relacionando
funo
e , ou pelo menos boas estimativas da verdadeira
A Figura 11 exemplifica a situao:
Figura 11 - Os pontos vermelhos podem pertencer a um nmero infinito de funes.
Deve-se, portanto, restringir o nmero de funes possveis para resolver o

problema, para uma quantidade que se adque ao nmero de dados de treino disponvel,
de modo a restringir a prpria complexidade da hiptese (Schlkopf, 2000).
Em um de seus principais resultados, a teoria do aprendizado estatstico
determina que, de modo a generalizar eficientemente um determinado problema de
1
O overfitting o fenmeno que ocorre quando, aps o treinamento, a mquina de aprendizado obtm um
desempenho muito bom na classificao dos dados de treino (erro emprico tendendo a zero), porm
obtm um desempenho ruim na classificao dos dados de teste. Esta m classificao ocorre porque a
complexidade da hiptese final gerada acaba por depender somente da forma como os dados de treino
esto distribudos
26
aprendizado, o algoritmo deve ser capaz de minimizar o risco estrutural, dado pela
seguinte Equao 3.3:
(3.3)
onde
o risco emprico e
depende de
o nmero de dados de treino. O termo
e do parmetro , chamado dimenso de Vapnik-Chernonenkis (VC), que
determina o grau de complexidade de uma determinada classe de funes.

A dimenso VC uma propriedade de uma famlia de funes
, onde
define os parmetros de uma determinada funo. Considerando um caso de

classificao binria, onde
}, ela definida como sendo o maior nmero
pontos possveis de serem divididos pela funo
de
(Schlkopf, 2000) (Burges,
1998).
. De maneira mais geral, a dimenso VC considerada uma medida da
capacidade de uma funo, sendo capacidade uma medida da complexidade de uma
funo. Se uma famlia de funes de alta capacidade for usada para classificao,
possvel que ocorra overfitting, enquanto que famlias de funes com baixa capacidade
podem acarretar em um risco emprico relativamente alto, como exemplificado na
Figura 13.
Figura 12 - Variao do risco estrutural em funo da dimenso VC.
Na Figura 14, esta situao fica mais explcita para o conjunto de dados no
linearmente separvel das bolas opacas e das bolas vazadas. Nota-se que, da esquerda
para a direita, funes de dimenso VC maior so utilizadas para se ajustarem melhor
aos dados de treino.
27
Figura 13 - Funes diferentes possuem capacidades diferentes (Weston).
A minimizao do risco estrutural busca proporcionar um balanceamento entre a

complexidade do espao de hipteses e o conjunto finito de dados de treino, fazendo
com que o desempenho do algoritmo seja bom no somente nos dados de treino, mas
tambm nos de teste.
3.2.2 Classificador de Margem Rgida e o Caso Linearmente Separvel
Para compreender o funcionamento bsico de SVMs, pode-se tomar como
exemplo o problema mais simples, em que se treina uma mquina com dados
linearmente separveis, tambm chamada de mquina linear (Burges, 1998). A Figura
15 ilustra um conjunto de padres linearmente separveis, e como possvel traar um
ou mais hiperplanos para separ-los.
Figura 14 - Conjuntos de dados linearmente separveis.
Supondo o problema de classificao binria onde se deseja estimar
de modo
que:
{
Onde
(3.4)
um conjunto de dados linearmente
separveis independentes e identicamente distribudos (i.i.d). Dada a classe de

hiperplanos:
{
(3.5)
28
Deseja-se encontrar o hiperplano timo que proporcione a mxima margem

possvel de diviso entre os dados de classes diferentes, obedecendo regra de deciso:
(3.6)
Entre todos os hiperplanos possveis, existe um nico que ir corresponder a este
critrio (Schlkopf, 2000), que pode ser descrito da seguinte maneira:
{
Chamando de
de dados para
o conjunto de dados para o qual
ser positivo, e
(3.7)
o conjunto
negativo, supe-se que se deseje encontrar uma margem funcional
entre os dados e o hiperplano timo como mostrado na Figura 16.
Figura 15 - Definindo a margem do classificador.
Por conveno, esta margem possui valor unitrio, de modo que:

e
(3.8)
Nos casos extremos (
encontrada normalizando
, a margem geomtrica
pode ser
(Cristianini & Shawe-Taylor, 2000),

(
(3.9)
J que a margem deve ser maximizada, o hiperplano timo pode ser encontrando
resolvendo-se o seguinte problema de otimizao:

sujeito {
(3.10)
29
O problema descrito pode ser mais bem visualizado atravs Figura 17, que
apresenta um caso de classificao bidimensional:
Figura 16 - Classificador de margem rgida. Os vetores de suporte so aqueles situados em cima da margem
(Schlkopf, 2000).
Este o chamado classificador de margem rgida, pois definido por um

hiperplano que busca maximizar somente a separao entre conjuntos de dados de
padres diferentes. O problema descrito um problema de otimizao convexa, e pode
ser resolvido atravs da chamada formulao primal do problema, obtida inserindo
multiplicadores de Lagrange (um para cada restrio), resultando na seguinte funo de
custo a ser minimizada:

(3.11)
A soluo precisa deste problema no entra no escopo deste trabalho. Apesar

disso, parte do procedimento de busca da soluo do mesmo permite entender o que so
os vetores de suporte. Primeiramente, nota-se que nesta nova formulao os dados de
treino aparecem somente na forma de produtos internos na funo custo. Mais frente
ser visto que este um importante fato para a generalizao do algoritmo para
classificao de padres no linearmente separveis. A funo custo deve ser
minimizada em relao
e maximizada em relao aos
, caracterizando um
ponto de sela para o mnimo da funo, resultando em:
(3.12)
30
(3.13)
Uma importante relao em problemas de otimizao convexa decorre do

teorema demonstrado por Kuhn e Tucker (Cristianini & Shawe-Taylor, 2000),
conhecida como condio de complementaridade de Karush-Kuhn-Tucker (KKT), que
estabelece, no caso de SVM, que a soluo tima do problema deve obedecer seguinte
relao:
,
(3.14)
Esta condio determina que, para as restries ativas,
e desempenha um
papel na otimizao, enquanto que para as restries inativas
, no tendo
importncia para a otimizao. Caso uma das restries ativas sofra alguma variao,
seu
correspondente tambm ir mudar, significando que este representa a
sensibilidade da soluo tima face restrio. Caso ocorra uma mudana em uma
restrio inativa, seu correspondente
no ir mudar. Finalmente, chega-se a
concluso que o problema de encontrar o hiperplano timo de separao entre dois

conjuntos de classes diferentes depende somente dos vetores cujas restries no
problema de otimizao possuem multiplicadores de Lagrange
, e, portanto, se d
a esses o nome de vetores de suporte, pois a determinao do hiperplano depende

apenas deles.
Substituindo as Equaes 3.12 e 3.13 na equao primal (Equao 3.11), obtmse uma nova funo custo, dependente somente dos multiplicadores de Lagrange,
chamada formulao dual, resultando finalmente em:
(3.15)
Cuja soluo agora encontrada em funo das variveis duais
. A funo de
deciso toma a seguinte forma:

(
(3.16)
Uma analogia (Schlkopf, 2000) (Burges, 1998) pode ser feita entre o
classificador apresentado e a mecnica. Atravs da soluo apresentada, pode-se
considerar que cada vetor de suporte exerce uma fora perpendicular sobre uma folha
31
rgida localizada sobre o hiperplano timo, de modo a manter o sistema sobre equilbrio.
A restrio dada pela Equao 3.12 determina que a soma das foras sobre a folha
igual a zero, e a Equao 3.13 tambm determina que o torque seja igual a zero, j que
(3.17)
A funo de deciso e a funo custo do problema dual dependem somente do

produto interno. Esta importante propriedade permite a aplicao de SVMs em espaos
de caractersticas de dimenso maior que o problema original, que tambm sejam
espao de produto interno. Este produto interno do espao de caractersticas
desempenha um grande papel em SVMs, e permite a aplicao do algoritmo descrito
em uma ampla gama de problemas de aprendizagem de mquina.
3.2.3 Kernels
Quando dois padres no so linearmente separveis, e sua distribuio no
espao complexa o suficiente para no permitir o uso adequado de classificadores de
hiperplano de separao timo, faz-se necessrio realizar um mapeamento dos dados de
treino em um espao de caractersticas de maior dimenso, de modo que no novo espao
criado eles sejam linearmente separveis, como mostrados na Figura 18.
Figura 17 - Mapeamento no espao de caractersticas (Schlkopf, 2000).
O mapeamento realizado por uma determinada funo . A realizao do

mesmo baseia-se no teorema de Cover: Um problema complexo de classificao de
padres, projetado no-linearmente em um espao de alta dimenso, mais provvel de
ser linearmente separvel do que em um espao de menor dimenso, dada que a
densidade populacional do novo espao no to grande (Cover, 1965).
Supondo, por exemplo, que se deseje mapear um espao de dimenso
espao de dimenso
em um
), usando um polinmio de ordem . No caso simples do
mapeamento de um espao bidimensional para um espao tridimensional, tem-se:
32
(3.18)
onde
O nmero de termos (monmios) do vetor original no novo espao de
caractersticas ser igual a:

(
(3.19)
Para problemas de pequena dimensionalidade, o mapeamento direto no acarreta

grandes dificuldades computacionais. No entanto, o uso de uma expresso fatorial
mostra que para problemas de maior dimensionalidade (que so os casos mais comuns),
o nmero de monmios dos vetores do espao de caractersticas ser muito grande,
tornando o mapeamento impraticvel em termos computacionais. Por exemplo, no caso
de reconhecimento de imagens de 16 16 pixels, usando um polinmio de 5 grau para
mapeamento, os vetores no espao de caractersticas possuiro
monmios. Esta
dificuldade sugere o uso de um mapeamento implcito para facilitar o problema.

Apesar disso, a teoria de mquinas de vetor de suporte estabelece que o
conhecimento ou no da funo no necessrio para encontrar o hiperplano timo,
mas sim o produto interno dos diversos dados de treino no espao de caractersticas. A
esse produto interno dado o nome de kernel. A construo de hiperplanos timos no
espao de caractersticas com o auxlio de kernels a principal ideia das SVM.
De maneira mais intuitiva, o kernel pode ser considerado como uma medida de
similaridade num determinado espao vetorial com produto interno
Sendo uma
medida de similaridade entre dois elementos, o kernel pode ser considerado uma funo,
na forma:
(3.20)
onde
Em que
o mapeamento de
(3.21)
para um determinado espao de caractersticas
Ou seja, o kernel uma funo que toma dois vetores do espao
e retorna um
nmero real que mede a similaridade entre os mesmos. Em um espao euclidiano, o

produto interno pode ser considerado como um kernel, ou seja:
(3.22)
Este o chamado kernel linear, e utilizado justamente na situao de dados de

treino linearmente separveis. Outros tipos de kernel no-lineares so dados na Tabela
1.
33
Tabela 1 - Tipos de Kernel.
Kernel
Tipo de classificador
Polinmio de grau
Gaussiano Funo de Base Radial
Perceptron Multicamadas
O kernel polinomial de ordem 2
(3.23)
por exemplo, pode ser mostrado como o produto de dois mapeamentos polinomiais,
considerando o espao original tendo duas dimenses, como segue abaixo:
(3.24)
Onde se pode afirmar que
3.2.4 Condio de Existncia de um Kernel

A criao de um kernel, como dito anteriormente, no depende do conhecimento
da funo de mapeamento
. Ser visto adiante que isso ocorre devido ao fato de a
regra de deciso para a representao dual
depender somente do produto interno
(3.25)
, ou seja, do prprio kernel.
O teorema de Mercer determina quando uma funo
pode ser
considerada um kernel (Cristianini & Shawe-Taylor, 2000):

Seja
um espao de dimenso finita onde
. Ento
uma funo simtrica em
uma funo kernel se e somente se a sua respectiva matriz de Gram

(
(3.26)
For positiva definida, ou seja:
Para todo
(3.27)
Respeitada a condio,
chamado um kernel de Mercer. Em casos onde um
determinado kernel no segue a condio de Mercer, o problema de otimizao
34
quadrtica pode no ter soluo. Ainda assim, caso um kernel que no siga a condio
de Mercer resulte numa matriz positiva definida para um determinado conjunto de
dados de treino, o problema de otimizao quadrtica ter uma soluo tima (Burges,
1998). As funes de kernel possuem as seguintes propriedades, dado que
kernels definidos em
matriz simtrica
uma funo real em , e
positiva semi-definida de dimenso
so
uma
(Cristianini & Shawe-
Taylor, 2000):
1.
2.
3.
4.
5.
Estas propriedades demonstram a capacidade de reproduzir kernels a partir de
outros kernels.
Ainda no se possui uma boa noo terica de quando um determinado tipo de
kernel deve ou no ser aplicado em um problema especfico, e a aplicao de um kernel
em um problema complexo um fator de sucesso ou fracasso na realizao do mesmo,
sendo este um grande trunfo e ao mesmo tempo um limitador para o SVM (Burges,
1998). Ainda assim em muitos casos o uso de diferentes kernels pode resultar em
timos resultados. O conceito de kernel como medida de similaridade bastante amplo,
e possui muitas propriedades demonstradas (Hastie, Tibshirani, & Friedman, 2009).
3.2.5 Classificadores de Vetor de Suporte

Dada a noo de hiperplano de separao timo e kernels, possvel agora
fornecer a representao geral de SVM, que obtida realizando a substituio os
produtos internos da formulao dual por kernels. Tambm sero adicionadas variveis
de folga
ao problema (citar o problema primal), j que em casos reais comum a
ocorrncia de algumas amostras muito prximas amostra de outra classe, de modo a

no respeitar as restries (restries do problema primal), como mostra a Figura 19.
35
Figura 18 - Variveis de folga .
A incluso das variveis de folga deixa as restries da seguinte forma:

(
Os
(3.28)
representam o erro de cada amostra em relao ao hiperplano de
separao. Incorporando as variveis de folga ao problema original, chega-se seguinte

funo custo:

minimizar
sujeito {
(3.29)
Este o chamado classificador de margem suave, pois nele no se busca

somente encontrar o hiperplano de mxima separao, mas tambm reduzir o erro das
amostras de treino que esto erroneamente classificadas. As condies de
complementaridade de Karush-Kuhn-Tucker determinam que, para este classificador,
para as amostras de treino que se encontram do lado correto do hiperplano (amostras
corretamente classificadas), seu respectivo
ser igual a zero, enquanto aquelas que se
encontram do lado errado do hiperplano tero seu
minimizado de modo a encontrar
um balanceamento entre o erro de classificao dos dados de treino e a mxima

separao possvel entre as duas classes. O parmetro
peso que os
o responsvel por controlar o
tero na otimizao: quanto maior o seu valor, mais importncia ser
dada minimizao do erro de treino. Esta funo custo mostra demonstra bem a
capacidade de SVM de encontrar um balanceamento entre a complexidade da hiptese (
atravs do termo ) e a minimizao do risco emprico (dado por
).
36
Ao passar o problema para a forma dual, e utilizando kernels, obtm-se:
(3.30)
cuja funo de deciso continua sendo a mesma

(
A presena do fator
na restrio dos
(3.31)
restringe a influncia de outliers
(dados que no correspondem estatstica padro do conjunto total), padres que na

verdade no representem um comportamento normal da classe. Para o clculo de ,
volta-se novamente condio de Karush-Kuhn-Tucker, fazendo, para qualquer vetor
:
(3.32)
A fim de evitar problemas numricos, recomenda-se utilizar a mdia do valor de

obtido no conjunto inteiro de dados de treino. Percebe-se que a funo custo necessita
dos dados de treino apenas para o clculo do kernel, logo, os mesmos dados precisam
entrar no algoritmo apenas na forma da matriz de Gram
(
(Equao 3.26).
(3.33)
O problema de otimizao na forma acima descrita a forma mais comum do

SVM em reconhecimento de padres.
A Figura 20 um exemplo da capacidade do SVM em lidar com dados no
linearmente separveis, ilustrando a ideia centra da tcnica. Nela, um kernel gaussiano
foi usado para separar o conjunto de bolas vazadas das bolas opacas. Percebe-se que, se
forem tomados os dados no espao original, no possvel traar um hiperplano de
separao dividindo os dois conjuntos. Foi usado ento o kernel gaussiano (que pertence
a uma classe maior de funes chamadas de funes de base radial) para aumentar a
dimenso do problema. As curvas tracejadas so as projees do hiperplano timo de
separao (encontrado no espao de caractersticas) no espao original dos dados, e a
37
regio em branco a margem projetada do espao de caractersticas. As amostras que

contm um crculo ao redor indicam os vetores de suporte.
Figura 19 - Aplicao do SVM em classificao de dados no linearmente separveis.
38
CAPTULO 4
4 METODOLOGIA
O objetivo deste trabalho classificar corretamente qual o tipo de rudo est
presente na parte do cobre de um enlace VDSL2. importante considerar que neste
trabalho, embora seja uma simplificao, considerado que cada tipo de rudo ocorre
em momentos diferentes (no so simultneos). Os tipos de rudo a serem classificados
so:
Rudo de fundo;
Crosstalk (NEXT/FEXT);
Rudo eltrico repetitivo impulsivo;
Rudo RFI.
A escolha dos tipos de rudo foi feita com base na norma G-993.1 da ITU
(G.993.1, 2004).
O procedimento para realizar o trabalho divide-se em dois momentos:
1.
Montagem e execuo do cenrio de medio para extrao das MIB.
2.
Aplicao do algoritmo de aprendizagem de mquina (SVM) para
realizar a classificao do rudo.
4.1 Cenrio de Medio

A montagem do cenrio de medio baseia-se em parte na norma G-993.1
(G.993.1, 2004). O esquema geral de medio exemplificado pela Figura 22.
Figura 20 - Disposio dos equipamentos no cenrio de medio.
39
A descrio de como cada equipamento utilizado no cenrio de medies

segue abaixo:
DSLAM: Objetiva-se realizar a classificao do rudo atravs do DSLAM. Para simular
esta situao, um computador foi conectado a ele para coletar os dados das medies
(atravs do software MIB Browser, descrito mais adiante), e realizar a classificao do
rudo (atravs do MATLAB). O modelo do DSLAM usado foi o Ericsson EDN312xp.
Gerador de trfego: o equipamento que simular a gerao de trfego no enlace

experimental. ligado ao DSLAM e ao usurio para efetuar um trfego bidirecional. O
trfego gerado do tipo HTTP. A taxa de transmisso foi escolhida de acordo com a
taxa do VDSL2 assimtrico. O modelo utilizado para o gerador foi o SPIRENT AX4000.
Gerador de rudo: contm os arquivos de rudo dos diversos tipos descritos, e permite
simular a presena do mesmo no enlace. Ser ligado diretamente ao enlace. O rudo foi
injetado tanto do lado da central como do lado do usurio. Os arquivos de rudo
utilizados so dados no Apndice C. O modelo do gerador de rudo utilizado foi o DLS
5500 da Spirent Communications.
VTU-R (VDSL Terminal Unit - Remote): Representa o usurio na outra extremidade

do enlace VDSL2.
Linha sob Teste: o enlace telefnico fsico real usado para os experimentos. Est
ligado ao DSLAM, ao modem (que representa o usurio remoto), e tambm ao injetor
de rudo, j que deve sofrer influncia do mesmo. No presente trabalho, os
comprimentos de enlace selecionados so 50, 150, e 450 metros, respeitando os limites
do VDSL2. As bitolas dos cabos escolhidas no para medio foram as de 0,4 mm e 0,5
mm, por serem mais as usadas (Golden, Dedieu, & Jacobsen, 2004). importante notar
que neste trabalho sero usados enlaces de uma nica seo de cabo ligando os
terminais.
As medies foram realizadas utilizando os comprimentos de enlace e bitola do

cabos descritos na Tabela 2.
40
Tabela 2 -Tipos de rudo e enlaces utilizados.
Enlace
Tipo de Rudo
Comprimento(m)
Crosstalk
REIN
Enlace 1 (bitola 0,4 mm)
RFI
50,150,450
Rudo de Fundo
Crosstalk
REIN
Enlace 2 (bitola 0,5 mm)
RFI
Rudo de Fundo
O crosstalk foi injetado com base no nmero de interferentes e na potncia do

rudo, conforme a Tabela 3.
Tabela 3 - Variaes de crosstalk utilizados.
Nmero de interferentes
5
Potncia do rudo
-25.6dBm
10
-23.4dBm
15
-22.4dBm
20
-21.6dBm
25
-21.1dBm
30
-20.6dBm
35
-20.2dBm
40
-19.8dBm
45
-19.5dBm
49
-19.3dBm
O rudo impulsivo utilizado tem potncia de 0 dBm, e o rudo RFI escolhido

possui potncias de -44 dBm e -54 dBm. A situao do rudo de fundo foi criada no
injetando artificialmente nenhum tipo de rudo nos cabos reais.
A medio ocorre na sequncia descrita:
1. O modem e o DSLAM devem estar devidamente sincronizados, e o gerador de
trfego deve estar realizando a transmisso.
41
2. O tipo de rudo selecionado injetado no enlace escolhido.

3. A extrao de cada amostra das MIB realizada de 30 em 30 segundos, at um
total de 30 amostras, totalizando 15 minutos de medio.
4.
Ao fim da extrao das amostras, o trfego encerrado, a injeo de rudo

interrompida e o modem desligado.
4.2 Aplicao do Algoritmo de Aprendizagem

Estabelecido o mtodo de obteno dos dados, a parte mais fsica do problema,
necessrio em seguida estabelecer as etapas do processo de aprendizagem de mquina.
4.2.1 Ferramentas Computacionais
A ferramenta escolhida como fonte dos dados foi o MIB Browser. O MIB
Browser um programa gratuito que obtm suas mtricas MIB de um determinado
hardware atravs do protocolo SNMP. A ferramenta escolhida para realizar a aplicao
do SVM foi o MATLAB, pela facilidade do mesmo em lidar com matrizes e lgebra
linear. Existe um bom nmero de softwares onde SVM`s so implementados: LIBSVM
(Chang & Lin, 2001), SVMLight (Joachims, 2008), SVMTorch (Collobert & Bengio,
2001) etc., porm, por fins de aprendizagem, e com o propsito especfico de utilizar a
tcnica para a classificao de rudo, optou-se realizar uma implementao prpria no
MATLAB. De modo a obter as mtricas MIB mostrados em tempo real no MIB
Browser, foi usado o programa SNMPGet (SNMPGET, 2009) junto um script
MATLAB criado com o propsito de armazenar as mtricas em arquivos de extenso
.csv.
4.2.2 Fase de Seleo dos Dados Relevantes
Para tanto, os dados, que esto originalmente contidos em um arquivo .csv,
sero convertidos em matrizes do MATLAB (arquivos.m). Existe um universo de 59
mtricas MIB. A disposio das mtricas MIB no arquivo .csv est de acordo com a
Figura 23, onde cada coluna representa os valores em sequncia de uma mtrica, e cada
linha representa uma amostra.
42
Figura 21 Arquivo ".csv" contendo as MIB.
De modo a escolher as mtricas mais relevantes para o processo de

aprendizagem, o conjunto inteiro de dados medidos foi analisado, e optou-se pelo
seguinte mtodo de seleo:
As mtricas que possuem varincia nula no conjunto total de amostras so

eliminadas, pois a covarincia de cada uma delas com os quatro tipos de
rudo nula, se considerarmos estes como variveis aleatrias.
A matriz dos coeficientes de correlao linear das mtricas foi calculada,

tomando por base o conjunto inteiro de amostras, e procurou-se selecionar
aquelas que tivessem grande correlao com o maior nmero de mtricas
possvel sem ser correlacionadas entre si. O coeficiente de correlao linear
calculado atravs da seguinte Equao 4.1, onde
representam os
valores de duas mtricas quaisquer:
(4.1)
O Apndice A contm a tabela 11, listando todas as 59 mtricas MIB escolhidas

inicialmente, assim como uma explicao das convenes de nomenclatura utilizadas
nas MIB em DSL.
43
Realizado o processo de seleo, foram escolhidas as seguintes mtricas,

descritas em (Ericsson, 2009):
adslAturCurrSnrMgn: a margem de rudo do lado das instalaes do cliente
com relao ao respectivo sinal recebido em dcimos de dB.
adslAturCurrOutputPwr: Medida da potncia total de sada transmitida pelas
instalaes do usurio.
adslAtucPerfCurr1DayESs: contagem dos segundos de erro durante o dia
corrente. O segundo de erro um parmetro que conta o nmero de intervalos de um
segundo contendo uma ou mais anomalias no cdigo de redundncia cclica, ou um ou
mais defeitos de perda de sinal ou frame severamente errado.
4.2.3 Fase de Treinamento do SVM
Nesta fase busca-se realizar o treinamento do algoritmo de modo a determinar os
vetores de suporte que iro permitir a classificao dos dados de teste e validao.
Selecionadas as mtricas, o conjunto de treino foi separado do conjunto de teste,
usando 25% dos dados para treino e 75% para teste, optando por deixar os dois
conjuntos com dados de medies diversificadas, e no com muitos dados de poucas
medies, de modo a garantir ao algoritmo de classificao melhores chances de
generalizao. A escolha no comum de apenas 25% do conjunto total para os dados de
treino se deve ao fato de que a otimizao quadrtica realizada pelo MATLAB no era
resolvida corretamente para matrizes de Gram relativamente grandes(com dimenso
maior que 250x250), o que implicou neste reduzido conjunto de treino.
Aps a seleo, os dados das mtricas foram utilizados para encontrar os vetores
de suporte que determinaro como os mesmos esto divididos no espao
multidimensional. A obteno desses vetores depende da escolha do kernel a ser
utilizado no problema. Optou-se ento por utilizar o kernel linear, o gaussiano, e o
polinomial para avaliar o desempenho do SVM. Como existem quatro tipos de rudo
diferentes, e o SVM um classificador binrio, decidiu-se realizar a classificao de
novas amostras utilizando o mtodo todos contra todos. Neste mtodo, realizada
uma classificao para cada dois padres diferentes, e escolhido aquele que obteve o
maior nmero de amostras corretamente classificadas. Ressalta-se aqui que no houve
normalizao das amostras em momento algum do processo de aprendizagem de
mquina. A Figura 24 ilustra esta fase:
44
Figura 22 - Fase inicial da treinamento para determinao dos vetores de suporte.
4.2.4 Fase de Classificao

No segundo momento, busca-se realizar a classificao dos dados de teste, onde
as mtricas coletadas sero continuamente classificadas, indicando para cada amostra do
conjunto qual o tipo de rudo est presente no enlace. Para esta fase, coleta-se apenas os
dados das mtricas relevantes na fase 1, que sero operados em conjunto com os vetores
de suporte (tambm obtidos na fase 1), e realiza-se a classificao dos mesmos. A
Figura 25 ilustra esta fase:
Figura 23 - Fase de classificao.
45
CAPTULO 5
5 RESULTADOS
Para apresentar os resultados obtidos na classificao dos dados, optou-se por
utilizar a matriz de confuso, comumente utilizada em problemas de classificao. Para
auxiliar na compreenso dos valores usados para medir o desempenho do SVM, a tabela
de confuso foi dada na Tabela 4, cujos elementos so os seguintes:
Tabela 4 - Tabela de confuso.
Classe
Preditos como (+1)
Preditos como (-1)
+1
Verdadeiros Positivos (Tp)
Falsos Negativos (Fn)
-1
Falsos Positivos (Fp)
Verdadeiros Negativos (Tn)
Verdadeiros positivos (Tp): nmero de elementos que possuem classe +1 e que

foram corretamente classificados com a classe +1 pelo SVM.
Falsos positivos (Fp): nmero de elementos que possui classe -1 e que foram
erroneamente classificados com a classe +1 pelo SVM.
Falsos negativos (Fn): nmero de elementos que possui classe +1 e que foram
erroneamente classificados com a classe -1 pelo SVM.
Verdadeiros negativos (Tn): nmero de elementos que possui classe -1 e que

foram classificados com a classe -1 pelo SVM.
Esta matriz permite o clculo de inmeras medidas de desempenho do
classificador. As medidas de desempenho escolhidas para o este trabalho foram as

seguintes:
Exatido: proporo do nmero total de predies corretas. Calculado atravs da
seguinte Equao 5.1:
(5.1)
Preciso: proporo dos casos preditos positivos que esto corretos.

(5.2)
Taxa de verdadeiros positivos: proporo de casos positivos que foram

corretamente classificados:
46
(5.3)
Ressalta-se que o desempenho do classificador ser avaliado para o problema de
classificao de rudo como um todo e tambm para cada classe especfica. Exceo
feita preciso, pois ela existe apenas para as classes especficas. As matrizes de
confuso descritas para os kernels linear, gaussiano, e polinomial de ordem 2 (Tabelas 5
10), representam os resultados para os dados de teste do problema. Os parmetros dos
kernels escolhidos correspondem ao melhor desempenho alcanado, com
(varivel que controla o risco emprico no SVM).
Tabela 5 Matriz de confuso para o kernel Gaussiano (com =2).
Predio
Crosstalk
REIN
RFI
Rudo de
Fundo
Classe
Crosstalk
450
Taxa de
Verdadeiros
Positivos
99,33%
REIN
59
96,29%
RFI
277
33
88,08%
Rudo de Fundo
164
100,00%
95,92%
Mdia
Tabela 6 - Exatido e preciso para o kernel gaussiano.
Geral
Exatido
96,15%
Preciso
--
Crosstalk
98,90%
99,55%
REIN
92,18%
96,72%
RFI
89,35%
89,35%
Rudo de Fundo
83,24%
83,24%
47
Tabela 7 Matriz de confuso para o kernel Polinomial (com d=2).
Predio
Crosstalk
REIN
RFI
Rudo de
Fundo
449
Taxa de
Verdadeiros
Positivos
99,11%
REIN
61
100%
RFI
281
29
90,64%
Rudo de Fundo
20
144
87,80%
Classe
Crosstalk
94,38%
Mdia
Tabela 8 - Exatido e preciso para o kernel polinomial.
Geral
Exatido
94,63%
Preciso
--
Crosstalk
99,11%
100%
REIN
93,84%
93,84%
RFI
85,15%
93,35%
Rudo de Fundo
74,61%
83,23%
48
Tabela 9 Matriz de confuso para o kernel linear.
Predio
Crosstalk
REIN
RFI
Rudo de
Fundo
449
Taxa de
Verdadeiros
Positivos
99,11%
REIN
61
100%
RFI
261
49
84,19%
Rudo de Fundo
16
148
90,24%
Classe
Crosstalk
93,38%
Mdia
Tabela 10 - Exatido e preciso para o kernel linear.
Exatido
Preciso
Geral
93,01%
--
Crosstalk
99,11%
100%
REIN
93,84%
93,84%
RFI
80,06%
94,22%
Rudo de Fundo
69,48%
75,12%
O kernel gaussiano foi aquele que obteve as melhores medidas de desempenho,

seguido do kernel polinomial de ordem 2, e por ltimo o kernel linear. A exatido geral
dos 3 kernels foi muito semelhante, com valores acima de 90%. Este resultado se deve
bastante ao fato de que a classificao do crosstalk e do REIN provou-se tarefa simples,
j que os dois obtiveram preciso e Exatido acima de 90% nos trs casos. Por outro
lado, a classificao do REIN e do RFI foi menos satisfatria, com exatido e preciso
entre 80% e 90% em mdia, com um desempenho um pouco melhor para o RFI. O
desempenho mais fraco do kernel linear pode ser explicado pelo fato de que, em
situaes de aplicao real de SVMs, supor que os dados estejam linearmente
separados seria um caso bastante otimista. Uma ltima anlise feita para a taxa de
verdadeiros positivos. Os quatro tipos de situaes de rudo consideradas possuem um
comportamento em regime permanente, sendo que as rajadas do REIN atuam
periodicamente (Golden, Dedieu, & Jacobsen, 2004). Logo, em um cenrio VDSL2 no
qual somente um tipo de rudo ocorra por vez, o normal que haja bastantes amostras
consecutivas de um mesmo tipo, e como a taxa de verdadeiros positivos foi alta, esperase que a classificao de rudo tenha um bom desempenh
49
CAPTULO 6
6 CONCLUSO
Os experimentos em laboratrio mostram que o objetivo inicial da classificao
do rudo em uma rede VDSL2 realizvel. O reduzido nmero de dados de treino e os
resultados satisfatrios obtidos nas medies realizadas em diferentes cenrios mostram
tambm que cada tipo de rudo influencia a estatstica das mtricas MIB de uma
maneira bastante caracterstica, o que facilita o processo de aprendizagem de mquina.
Atenta-se tambm para o fato de que os resultados obtidos no podem ser considerados
como gerais, podendo a correta classificao ser alcanada seguindo o esquema
proposto na metodologia das medies.
Em relao ao mtodo proposto, foi mostrado, com base nos resultados
alcanados, que a aplicao de tcnicas de aprendizagem de mquina s mtricas MIB
pode gerar mais conhecimento sobre a rede do que aquele sendo explcito pelo valor
delas. O fato de essas tcnicas computacionais serem relativamente simples de serem
aplicadas e no interferirem no oferecimento do servio um atrativo para as
operadoras de telefonia e fornecedores do servio VDSL2.
6.1 Propostas de Trabalhos Futuros
O rudo crosstalk, sendo predominante em DSL, poderia ser analisado mais

profundamente atravs da sua influencia sobre a estatstica das mtricas MIB.
Para tanto, possivelmente o nmero de mtricas a ser analisado dever ser
aumentado. Informaes como faixa de freqncia, nmero de tons afetados, bit
loading, e potncia do rudo poderiam ser estimadas utilizando tcnicas de
aprendizagem de mquina, tornando mais rica a classificao de rudo.
Aplicao do mtodo proposto e do classificador obtido em linhas telefnicas

em redes envolvendo usurios reais.
A classificao desenvolvida neste trabalho envolvia os dados obtidos apenas

para um par de modems, VTU-O e seu respectivo VTU-R. Redes de
computadores, como o prprio nome j diz, envolvem uma grande quantidade de
usurios e terminais. Caso se aplique tcnicas de aprendizado de mquina em
50
dados que envolvam informaes de diversos enlaces, possvel estudar o caso

de gerenciamento inteligente da rede VDSL2 em maior escala.
Realizada a classificao para o caso de somente um tipo de rudo por vez, o

passo seguinte seria a realizao da classificao de mais de um tipo de rudo
ocorrendo simultaneamente na rede, tornando o mtodo proposto mais
abrangente.
51
REFERNCIAS BIBLIOGRFICAS
Broadband, F. Acesso em 19 de outubro de 2011, disponvel em Broadband Forum:

http://www.broadband-forum.org/downloads/About_DSL.pdf, 2008
Brost, R., & Aspell, S. "ADSL Interoperability Test Plan", 2002
Burges, C. J. "A Tutorial on Support Vector Machines for Pattern Recognition". Bell
Laboratories, Lucent Technologies, 1998
Cendrillon, R. "Multi-user Signal and Spectra Co-ordination for Digital Subscriber
Lines",2004
Chang, C.-C., & Lin, C.-J. "LIBSVM: a library for support vector machines", 2001
Collobert, R., & Bengio, S. "SVMTorch: support vector machines for large-scale
regression problems". The Journal of Machine Learning Research, 2001
Cover, T. M.. "Geometrical and Statistical Properties of Systems of Linear Inequalities
with Applications in Pattern Recognition". IEEE Transactions on Electronic Computers,
Julho de 1965
Cristianini, N., & Shawe-Taylor, J. "An Introduction to Support Vector Machines and
Other Kernel-based Learning Method", 2000.
Cui-Mei, B. "Intrusion Detection Based on One-class SVM and SNMP MIB data" .
Fifth International Conference on Information Assurance and Security, (p. 4), 2009
Dunford, C. "Measuring NEXT and FEXT". Telecom Test and Measurement. 2008
Ericsson. "EDN312x, EDN312, EDN110 Proprietary MIB Description EDA 1200",
2009
Eriksson, P.-E., & Odenhammar, B. "VDSL2: Next important broadband technology",
Ericsson, 2006
Farias, F. S., Borges, G. S., Moritsuka, N. S., Costa, J. C., Francs, C. R., Souza, L. V.,
et al. "Noise Estimation in DSL Networks using Linear Regression and Fuzzy
Systems",2011
G.993.1, I.-T. "Very high speed digital subscriber line transceivers", International
Telecommunication Union, 2004
Gati, D. "Intelligence dans les rseaux". Lavoisier, 2005
Galli, Stefano; Valenti, Craig; "A Frequency-Domain Approach to Crosstalk
Identification in xDSL Systems", 2001
52
Gazineu, D. S. "VISDAMAGE Ferramenta de Minerao Visual de Dados Aplicada

Gerncia de Redes". Trabalho de Concluso de Curso, Graduao em Sistemas de
Informao, Pontifcia Universidade Catlica do Rio Grande do Sul, Porto Alegre, 2007
Ginsburg, D. "Implementing ADSL", 1999
Golden, P., Dedieu, H., & Jacobsen, K. S. "Fundamentals of DSL Technology" (1 ed.).
Auerbach Publications, 2004
Hastie, T., Tibshirani, R., & Friedman, J. "The Elements of Statistical Learning: Data
Mining, Inference, and Prediction". (2 ed.). Springer. 2009
Joachims, T., "SVMLight: Support Vector Machine". Acesso em 8 de Novembro de
2011, disponvel em SVMLight: http://svmlight.joachims.org/, 2008
Kulkarni, P. G., McClean, S. I., Parr, G. P., & Black, M. M., "Deploying MIB Data
Mining for Proactive Network Management". 3rd International IEEE Conference
Intelligent Systems, 2006
Li, J., & Manikopoulos, C."Early Statistical Anomaly Intrusion Detection of DOS
Attacks Using MIB Traffic Parameters". IEEE , 2003
MacKay, D. J.,"Information Theory, Inference, and Learning Algorithms", 2003
Mitchell, T. M., "Machine Learning", McGraw Hill, 1997
Nedev, N. H. "Analysis of the Impact of Impulse Noise in Digital Subscriber Line
Systems". The University of Edinburgh, 2003
Papandriopoulos, J. (s.d.). Acesso em 29 de Novembro de 2011, disponvel em John
Papandriopoulos: http://jpap.andriopo.ulos.org/
Papandriopoulos, J., & Evans, J. S. "SCALE: A Low-Complexity Distributed Protocol
for Spectrum Balancing in Multiuser DSL Networks". IEEE Transactions on
Information Theory , 55, 2009
Patrcio, . T. "Software para Qualicao de Enlaces em Sistemas xDSL: Abordagem
por Algoritmos Genticos", Trabalho de Concluso de Curso, Graduao em
Engenharia da Computao, Universidade Federal do Par - UFPA, Belm, 2006
Schlkopf, B. "Statistical Learning and Kernel Methods". Microsoft Research, 2000
Shannon, C. E. "A Mathematical Theory of Communication". The Bell System
Technical Journal , 27, 1948
Siqueira, R. G. (2010). "Analysis and Mitigation of the Eect of Repetitive Impulsive
Noises on Digital Subscriber Lines". Trabalho de Concluso de Curso, Graduao em
Engenharia da Computao, Universidade Federal de Pernambuco, Recife.
53
SNMPGET. (2009). Acesso em 21 de Dezembro de 2011, disponvel em SNMPGET:

http://www.net-snmp.org/docs/man/snmpget.html
Vapnik, V. N. "Statistical Learning Theory" . John Wiley & Sons, Inc., 1998
Weston, J. "Support Vector Machine (and Statistical Learning Theory) Tutorial". NEC
Labs America, Princeton, USA.
Wu, X., et al., "Top 10 Algorithms in Data Mining", Knowledge and Information
Systems, 14, 2008
Yang, Z., Dasgupta, U., Redfer, A., & Ali, M. "Noise Identification in ADSL Modems"
54
APNDICE A CONJUNTO TOTAL DAS MTRICAS MIB
Tabela 11 Conjunto das 59 mtricas MIB selecionadas
Mtricas MIB
adslIfAdminStatus
Mtricas MIB
adslAturPerfCurr1DayLoss
adslIfOperStatus
adslAturPerfCurr1DayLprs
adslAtucChanCurrTxRate
adslAtucPerfCurr1DayLols
adslAturChanCurrTxRate
adslAtucPerfCurr1DayInits
adslAtucCurrAttainableRate
adslAtucChanConfInterleaveMaxTxRate
adslAturCurrAttainableRate
adslAturChanConfInterleaveMaxTxRate
adslAtucCurrSnrMgn
adslAtucChanConfInterleaveMinTxRate
adslAturCurrSnrMgn
adslAturChanConfInterleaveMinTxRate
adslAtucCurrAtn
adslAtucConfMaxSnrMgn
adslAturCurrAtn
adslAturConfMaxSnrMgn
adslAtucCurrOutputPwr
adslAtucConfTargetSnrMgn
adslAturCurrOutputPwr
adslAturConfTargetSnrMgn
adslAtucChanInterleaveDelay
adslAtucConfMinSnrMgn
adslAturChanInterleaveDelay
adslAturConfMinSnrMgn
adslAtucProprietaryChanActualInp
adslAtucChanConfMaxInterleaveDelay
adslAturProprietaryChanActualInp
adslAturChanConfMaxInterleaveDelay
adslAtucChanPerfCurr1DayUncorrectBlks
adslAtucProprietaryChanConfXINPminIlvB0
adslAturChanPerfCurr1DayUncorrectBlks
adslAturProprietaryChanConfXINPminIlvB0
adslAtucPerfCurr1DayESs
adslAtucProprietaryPhysXActualLineBitRate
adslAturPerfCurr1DayESs
adslAturProprietaryPhysXActualLineBitRate
adslAtucPerfCurr1DaySesL
loopDiagLoopAttenuationFE
adslAturPerfCurr1DaySesL
loopDiagLoopAttenuationNE
adslAtucChanCrcBlockLength
loopDiagSignalAttenuationFE
adslAturChanCrcBlockLength
loopDiagSignalAttenuationNE
55
adslAtucChanPerfCurr1DayCorrectedBlks
loopDiagSnrMarginFE
adslAturChanPerfCurr1DayCorrectedBlks
loopDiagSnrMarginNE
adslAtucPerfXCurr1DayEcs
loopDiagAttainableBitRateFE
adslAturPerfXCurr1DayEcs
loopDiagAttainableBitRateNE
adslAtucPerfCurr1DayUasL
adslLineXStatusActPsdUs
adslAturPerfCurr1DayUasL
adslLineXStatusActPsdDs
adslAtucPerfCurr1DayLoss
A nomenclatura (incompleta) utilizada para descrever as mtricas segue a

seguinte conveno:
Atuc : unidade terminal na central telefnica.
Atur : unidade terminal na extremidade do usurio (remota).
Curr: corrente (adjetivo).
Prev: precedente.
Atn: Atenuao.
Es: Segundos com erro.
Lof: Perda de frame
Lol: Perda de ligao
Los: Perda de sinal
Lpr: Perda de potncia
Max: Mximo
Min: Mnimo
Mgn:Margem
Psd: Densidade espectral de potncia
Snr: Razo Sinal Rudo
Tx: Transmissor
56
Rx: Receptor
Blks: Blocos
57
APNDICE B DIAGRAMAS DE DISPERSO PARA O CASO DO

CROSSTALK
De modo a ter uma noo do comportamento estatstico das mtricas MIB,
decidiu-se plotar o diagrama de disperso 134 amostras de crosstalk de 12 mtricas (por
simplificao). As 134 medies foram escolhidas de variados cenrios de transmisso
VDSL2 utilizados neste trabalho:
1. adslAtucCurrSnrMgn;
2. adslAturCurrSnrMgn;
3. adslAturCurrOutputPwr;
4. adslAtucChanPerfCurr1DayUncorrectBlks;
5. adslAtucPerfCurr1DayESs;
6. adslAtucChanPerfCurr1DayCorrectedBlks;
7. adslAtucPerfXCurr1DayEcs;
8. adslAturPerfXCurr1DayEcs;
9. adslAtucPerfCurr1DayUasL;
10. adslAturPerfCurr1DayUasL;
11. adslAturPerfCurr1DayLprs;
12. adslAtucPerfCurr1DayInits.
As amostras esto normalizadas em relao sua mdia e varincia. Devido
quantidade de mtricas, foi necessrio dividir o diagrama em quatro blocos diferente, na
seguinte ordem:
No primeiro bloco esto plotadas as mtricas de 1 a 6 (abscissas) pelas

mtricas de 1 6 (ordenadas).
No segundo bloco esto plotadas as mtricas de 1 a 6 pelas mtricas de 7
12
No terceiro bloco esto plotadas as mtricas de 7 a 12 pelas mtricas 1 a
6
No quarto bloco esto plotadas as mtricas de 7 a 12 pelas mtricas de 7
a 12
58
Tabela 12 Mtricas de 1 a 6 (abscissas) pelas mtricas de 1 6 (ordenadas)
Tabela 13 Mtricas de 1 a 6 pelas mtricas de 7 12
59
Tabela 14 Mtricas de 7 a 12 pelas mtricas 1 a 6
Tabela 15 Mtricas de 7 a 12 pelas mtricas de 7 a 12
60
APNDICE C ARQUIVOS DE RUDO UTILIZADOS NAS MEDIES

Os nomes dos arquivos de rudo indicam algumas caractersticas fsicas deles,
bem como a norma da qual foram originados. No rudo impulsivo, nota-se o intervalo
entre de cada impulso (100 s). No rudo
Crosstalk:
Para 50m
Potncia: varivel
ITU-T/VDSL2_(North_America)_v1.0/G993-2_Annex_A/POTS/at_VTUO/Loop1/G9932VDSL2-APOTS_VTU-O_Loop1-0100ft_xtk.enc
Potncia: varivel
Para 150m
Potncia: varivel
Potncia: varivel
Para 450m
Potncia: varivel
Potncia: varivel
Impulsivo
Potncia: 0 dbm
REIN/Differential_Mode/Europe-100Hz/-85dBm-hz/-Rein-85dBm-Hz_100us100Hz_td.enc
RFI
Potncia: -44 dbm
TS101_270-1v2-0-10_5B19v2-0/Broadcast_RF/-ETSI-VDSL_RF_Diff-Mode_UpA_rfi.enc
Potncia: -54 dbm
TS101_270-1v2-0-10_5B19v2-0/Broadcast_RF/-ETSI-VDSL_RF_Diff-Mode_UpB_rfi.enc

TCC Ramon

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

TCC Ramon

Caricato da

Copyright:

Formati disponibili

UFPA

Universidade Federal do Par

Ramon Villar Monte Palma Pantoja

Reconhecimento de Padres de Rudo

UNIVERSIDADE FEDERAL DO PAR

Ramon Villar Monte Palma Pantoja

Reconhecimento de Padres de Rudo em Redes

Trabalho submetido ao Colegiado do Curso de Engenharia

Orientador: Prof. Dr. Joo Crisstomo Weyl Albuquerque

Ramon Villar Monte Palma Pantoja

Reconhecimento de Padres de Rudo em Redes

Este trabalho foi julgado em ___/___/_____ adequado para obteno do Grau de

minha famlia, pelo amor com o qual fui criado.

Asymmetric Digital Subscriber Line

Asymmetric Digital Subscriber Line 2

ADSL Terminal Unit Central

ADSL Terminal Unit Remote

Additive White Gaussian Noise

Digital Subscriber Line

Digital Subscriber Line Access Multiplexer

Fast Fourier Transform

Hypertext Transfer Protocol

Internet Engineering Task Force

Integrated Services Digital Network

Management Information Base

Power Spectral Density

Public Switched Telephone Network

Quadrature Amplitude Modulation

Repetitive Electrical Impulse Noise

Request for Comments

Radio Frequency Interference

Simple Network Management Protocol

Support Vector Machines

Very-high bit rate DSL

VDSL Terminal Unit-Remote

1.1 OBJETIVO DO TRABALHO

computacionalmente (atravs do software MATLAB), o trabalho tem como objetivo

1.2 REVISO BIBLIOGRFICA E ESTADO DA ARTE

A aplicao de tcnicas de aprendizagem de mquina s variveis MIB consiste

Em (Li & Manikopoulos, 2003),

proposto um sistema para deteco de ataques de negao de servio (Denial of Service

1.3 ORGANIZAO DOS CAPTULOS

Captulo 2 - Tecnologia xDSL: Neste captulo apresentada uma viso geral

Captulo 3 - Mquinas de vetor de suporte: A tcnica de aprendizagem de

reconhecimento de padres, atravs de suas principais ideias: a construo de

Captulo 4 - Metodologia: explicado como foram feitas as medies de

Captulo 5 - Resultados: exposio dos resultados obtidos, a partir do uso de

Captulo 6 - Concluso: concluso sobre os resultados obtidos e o trabalho

Figura 1 - O enlace local de telefonia (Golden, Dedieu, & Jacobsen, 2004).

A rede telefnica opera na faixa at 4 kHz, funcionando por meio de cabos

chamadas, realizando o direcionamento das ligaes. Esta comutao j foi feita de

Figura 2 Diagrama esquemtico de uma rede DSL.

As principais adies estrutura telefnica advindas do DSL foram as seguintes:

2.1 TIPOS DE DSL:

Figura 3 - Diviso do espectro de frequncia no ADSL.

Nota-se na Figura 3 que a faixa reservada voz dividida daquela reservada

2.2 Rudo em Sistemas de Comunicao

Figura 4 - Diagrama esquemtico geral de um sistema de comunicao digital.

A capacidade do canal em um sistema digital foi descrita na Equao 2.1 como

a informao mtua entre o emissor ( ) e o receptor (

, a probabilidade de erro do bloco

aumenta proporcionalmente ao comprimento do mesmo, fazendo com que a

a largura de banda do canal em Hz, e

Este trabalho foi julgado em _/_/_____ adequado para obteno do Grau de