Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Na Criptologia, assim como em outras ciências, são realizados estudos experimentais ou obser
vacionais
que resultam numa coleção de dados numéricos. O propósito da investigação é responder uma
questão científica onde o padrão de variação nos dados faz com que a resposta não seja
óbvia. É aí que entra a estatística: padroniza os métodos para coleta e descrição dos dados e
permite estabelecer evidências
pró
ou
contra
as questões que estejam sendo analisadas.
Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos
básicos.
Tipos de Dados
Resumo numérico
Para resumir numericamente dados qualitativos (por exemplo, se as letras forem classificadas
em "mais frequentes", de "frequência média" e "raras"), pode-se usar a moda. A moda é dada
pela categoria que possui o maior percentual de dados. No Português, a categoria da letra A é
a moda porque é a letra mais frequente neste idioma (A = 14.63%, E = 12.57% e O = 10.73%).
O gráfico de barras e o gráfico de setores (também conhecido como pizza) são os mais
utilizados para representar o resumo numérico de dados qualitativos.
1/5
Estatística - Conceitos básicos
Para resumir numericamente dados quantitativos é preciso escolher medidas de locação ("qual
é o tamanho dos números envolvidos?") e de dispersão ("quanta variação existe?") adequadas.
Existem três escolhas principais para a medida de locação, os chamados "3 Ms". Estas
medidas de locação estão ligadas a certas medidas de dispersão:
O histograma é um dos gráfico mais utilizado para representar o resumo numérico de dados
quantitativos.
A Variação Amostral
Vamos tomar como exemplo a análise da frequência de ocorrência das letras no Português.
Não será preciso contar todas as letras de todos os textos que já tenham sido escritos - basta
analisar uma amostra suficientemente grande para que as contagens reflitam a proporção
"global". Geralmente considera-se que cerca de 100 objetos seja uma amostra confiável.
Se forem contadas apenas as letras A, E, O, S e R de várias amostras de texto com 500 letras,
poderemos realizar uma série de cálculos importantes. Veja a tabela abaixo:
Apesar dos dados estarem "bem arrumadinhos" numa tabela, a primeira impressão que se tem
2/5
Estatística - Conceitos básicos
é que as letras contadas nos quatro textos possuem uma distribuição muito diferente. Para
testar se esta variação é significativa ou não, o que nos permite manter ou excluir
determinados resultados, existem várias medidas mostradas a seguir.
Média
A média aritmética é uma medida de locação usada para resumir dados quantitativos
aproximadamente simétricos. Para se obter a média aritmética de uma categoria basta somar
suas frequências e dividi-las pelo total de contagens. Por exemplo, no total foram contadas 299
letras A em 4 amostras diferentes. A média das letras A é:
f / n = 299 / 4 = 74.75
A média arimética nos diz qual o valor aproximado que devemos esperar quando fazemos a
contagem.
Variância
(81 - 74.75)2 + (67 - 74.75)2 + (83 - 74.75)2 + (68 - 74.75)2 / 4 - 1 = 6.252 + (-7.75)2 +
(-8.25)
2
+ (6.75)
2
A tabela a seguir mostra a variância (representada por s2) de todas as letras contadas: Letra
A 70.91
E 62.25
3/5
Estatística - Conceitos básicos
O 83.66
S 51.66
R 78.66
O variância nos diz quanto, em média, os valores encontrados estão se afastando do valor
esperado. Quanto menor a variância, mais próximos da média estão os dados. Como a
variância é um valor quadrático, isto significa que seu valor é o quadrado da média de
dispersão.
Desvio Padrão
Uma outra forma de sumarizar dados é em termos dos quantis ou percentis. Essas medidas
são particularmente úteis para dados não simétricos. A mediana (ou percentil 50) é o valor que
divide os dados ordenados ao meio, isto é, metade dos dados têm valores maiores do que a
mediana e a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis
inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e
três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para
resumir os dados juntamente com o mínimo e o máximo.
4/5
Estatística - Conceitos básicos
A mediana está exatamente entre o segundo e o terceiro valor, ou seja, entre 68 e 81. Neste
caso, a mediana será 68 + (81 - 68) x 0.5 = 68 + 13 x 0.5 = 68 + 6.5 = 74.5
O quartil inferior, chamado de Q1, indica o ponto abaixo do qual se encontram 1/4 dos valores
medidos e é calculado
Q1 está entre o primeiro e o segundo valor medido, ou seja, entre 67 e 68. Q1 = 67 + (68 - 67)
x 0.25 = 67 + 1 x 0.25 = 67 + 0.25 = 67.25.
O quartil superior, chamado de Q3, indica o ponto abaixo do qual se encontram 3/4 dos
valores medidos e é calculado
Q3 está entre o terceiro e o quarto valor medido, ou seja, entre 81 e 83. Q3 = 81 + (83 - 81) x
0.75 = 81 + 2 x 0.75 = 81 + 1.5 = 82.5.
A Moda
A moda é o valor que ocorre com maior frequência. Em algumas contagens, como no caso da
contagem da letras A, ocorre mais de um "pico". Neste caso, este conjunto de dados é
chamado de multimodal (as contagens da letra A parecem ter moda ao redor de 60 e ao redor
de 80). Nestes casos, é interessante separar amostras usando algum critério, por exemplo,
separar vogais de consoantes. No Português, as letras mais frequentes, em ordem
decrescente, são A, E, O, S, R, I, N, etc. A letra A é a mais frequente e é a moda do idioma. Se
considerarmos apenas as vogais, a letra A continua sendo a moda, mas se considerarmos
apenas as consoantes, a letra S será a moda.
5/5