Sei sulla pagina 1di 25

Distribucin de frecuencias

Agrupacin de datos en categoras mutuamente excluyentes que indican el nmero de observaciones en cada categora. Esto proporciona un valor aadido a la agrupacin de datos. La distribucin de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el nmero existente en cada clase. Estas agrupaciones de datos suelen estar agrupadas en forma de tablas. Es una ordenacin en forma de tabla de los datos estadsticos, asignando a cada dato su frecuencia correspondiente. Si se renen grandes cantidades de datos sueltos es til distribuirlos en clases o categoras y determinar el nmero de individuos que pertenecen a cada categora, a lo que se le llama frecuencia de clase. A una disposicin tabular de los datos por clases, con sus correspondientes frecuencias de clase, se le conoce como distribucin de frecuencia o tabla de frecuencias. Cuando se dispone de gran nmero de datos, es til el distribuirlos en clases o categoras y determinar el nmero de individuos pertenecientes a cada clase, que es la frecuencia de clase. Una ordenacin tabular de los datos en clases, reunidas las clases y con las frecuencias correspondientes a cada una, se conoce como una distribucin de frecuencias o tabla de frecuencias. La Tabla 1 es una distribucin de frecuencias de alturas (registradas con aproximacin de pulgada) de 100 estudiantes de la Universidad XYZ.

La primera clase o categora, por ejemplo, comprende las alturas de 60 a 62 pulgadas y viene indicada por el smbolo 60 - 62. Puesto que 5 estudiantes tienen una altura perteneciente a esta clase, la correspondiente frecuencia de clase es 5.

Frecuencias
Se llama frecuencia a la cantidad de veces que se repite un determinado valor de la variable. Se suelen representar con histogramas y con diagramas de Pareto. Frecuencia es una magnitud que mide el nmero de repeticiones por unidad de tiempo de cualquier fenmeno o suceso peridico. Para calcular la frecuencia de un suceso, se contabilizan un nmero de ocurrencias de este teniendo en cuenta un intervalo temporal, luego estas repeticiones se dividen por el tiempo transcurrido. Segn el SI (Sistema Internacional), la frecuencia se mide en hercios (Hz), en honor a Heinrich Rudolf Hertz. Un hercio es aquel suceso o fenmeno repetido una vez por segundo. As, dos hercios son dos sucesos (perodos) por segundo, etc. Esta unidad se llam originariamente ciclo por segundo (cps) y an se sigue utilizando. Otras unidades para indicar la frecuencia son revoluciones por minuto (rpm). Las pulsaciones del corazn y el tempo musical se miden en pulsos por minuto (bpm, del ingls beats per minute).

Un mtodo alternativo para calcular la frecuencia es medir el tiempo entre dos repeticiones (periodo) y luego calcular la frecuencia (f) recproca de esta manera:

Donde T es el periodo de la seal.

Frecuencia absoluta
Frecuencia absoluta (ni) de una variable estadstica Xi, es el nmero de veces que aparece en el estudio este valor. A mayor tamao de la muestra, aumentar el tamao de la frecuencia absoluta; es decir, la suma total de todas las frecuencias absolutas debe dar el total de la muestra estudiada (N). La frecuencia absoluta es el nmero de veces que aparece un determinado valor en un estudio estadstico. Se representa por fi. La suma de las frecuencias absolutas es igual al nmero total de datos, que se representa por N.

Para indicar resumidamente estas sumas se utiliza la letra griega (sigma mayscula) que se lee suma o sumatoria.

Ejemplo: Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas mximas: 32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29. En la primera columna de la tabla colocamos la variable ordenada de menor a mayor y en la segunda anotamos la frecuencia absoluta. xi 27 28 29 30 31 32 33 34 fi 1 2 6 7 8 3 3 1 31

Frecuencia relativa
Frecuencia relativa (fi), es el cociente entre la frecuencia absoluta y el tamao de la muestra (N). Es decir,

Siendo el fi para todo el conjunto i. Se presenta en una tabla o nube de puntos en una distribucin de frecuencias (ver fig.1 y (fig.2). Si multiplicamos la frecuencia relativa por 100 obtendremos el porcentaje o tanto por ciento (pi) que presentan esta caracterstica respecto al total de N, es decir el 100% del conjunto. La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el nmero total de datos. La frecuencia relativa se puede expresar en tantos por ciento y se representa por ni.

La suma de las frecuencias relativas es igual a 1. Ejemplo Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas mximas: 32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29. xi 27 28 29 30 31 fi 1 2 6 7 8 ni 0.032 0.065 0.194 0.226 0.258

32 33 34

3 3 1 31

0.097 0.097 0.032 1

Frecuencia porcentual
Es el porcentaje que representa una determinada variable en la serie de datos que estas analizando....por ejemplo si de una muestra de 10 observaciones y un resultado total de 100, un dato acapare 20 puntos de ese resultado, en consecuencia su frecuencia porcentual ser 20 que surge de (20/100)*100. La frecuencia porcentual es la frecuencia relativa ( hi ) expresada en forma porcentual. En otras palabras, es la frecuencia relativa ( hi ) multiplicada por 100.

Es el Producto de la Frecuencia Absoluta fi por 100% entre el total de datos n: as; Es la frecuencia relativa expresada en porcentajes (%) Pi = En nuestro ejemplo: Tabla: xi 0 1 2 3 4 5 6 7 fi 4 9 12 10 8 4 2 1 Fi 4 13 25 35 43 47 49 50 hi 0,08 0,18 0,24 0,20 0,16 0,08 0,04 0,02 Hi 0,08 0,26 0,50 0,70 0,86 0,94 0,98 1,00 fi% 8% 18 % 24 % 20 % 16 % 8% 4% 2% fi N 100

Frecuencia absoluta acumulada


Es la suma de los distintos valores de la frecuencia absoluta tomando como referencia un individuo dado. La ltima frecuencia absoluta acumulada es igual al n de casos:

N1 = n1 N2 = n1+ n2 Nn = n1 + n2 + . . . . . . + nn-1 + nn=n

Frecuencia relativa acumulada


Es el resultado de dividir cada frecuencia absoluta acumulada por el nmero total de datos, se la suele representar con la notacin: Fi De igual forma, tambin se puede definir a partir de la frecuencia relativa, como suma de los distintos valores de la frecuencia relativa, tomando como referencia un individuo dado. La ltima frecuencia relativa acumulada es igual a la unidad. La Frecuencia relativa acumulada (Fi), es el cociente entre la frecuencia absoluta acumulada y el nmero total de datos, N. Es decir,

Con la frecuencia relativa acumulada por 100 se obtiene el porcentaje acumulado (Pi)), que al igual que Fi deber de resultar al final el 100% de N. La representacin grfica de la distribucin de frecuencias acumuladas se denomina ojiva. En ella el eje de las abscisas corresponde a los lmites de clase y el de las ordenadas a los porcentajes acumulados.

Media
Una media o promedio es una medida de tendencia central que segn la Real Academia Espaola, resulta al efectuar una serie determinada de operaciones con un conjunto de nmeros y que, en determinadas condiciones, puede representar por s solo a todo el conjunto. Existen distintos tipos de medias, tales como la media geomtrica, la media ponderada y la media armnica aunque en el lenguaje comn, el trmino se refiere generalmente a la media aritmtica.

Media aritmtica
La media aritmtica es el valor obtenido al sumar todos los datos y dividir el resultado entre el nmero total de datos . Es el smbolo de la media aritmtica .

Ejemplo: xi [10, 20) [20, 30) [30,40) [40, 50) [50, 60 [60,70) [70, 80) 15 25 35 45 55 65 75 fi 1 8 10 9 8 4 2 42 xi fi 15 200 350 405 440 260 150 1 820

Mediana
Es el valor que ocupa el lugar estn ordenados de menor a mayor. La mediana se representa por M e . La mediana se puede hallar slo para variables cuantitativas. Clculo de la mediana 1 Ordenamos los datos de menor a mayor. 2 Si la serie tiene un nmero impar de medidas la mediana es la puntuacin central de la misma. 2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5 3 Si la serie tiene un nmero par de puntuaciones la mediana es la media entre las dos puntuaciones centrales. 7, 8, 9, 10, 11, 12Me= 9.5 Clculo de la mediana para datos agrupados La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas . central de todos los datos cuando stos

Es decir tenemos que buscar el intervalo en el que se encuentre

L i es el lmite inferior de la clase donde se encuentra la mediana.

es la semisuma de las frecuencias absolutas. F i- 1 es la frecuencia acumulada anterior a la clase mediana.

a i es la amplitud de la clase. La mediana es independiente de las amplitudes de los intervalos.

Ejemplo:Calcular la mediana de una distribucin estadstica que viene dada por la siguiente tabla: fi [60, 63) [63, 66) [66, 69) [69, 72) [72, 75) 5 18 42 27 8 100 Fi 5 23 65 92 100

100/2 = 50 Clase de la mediana: [66, 69)

Moda

Es una medida de tendencia central es el valor de la variable que tiene mayor frecuencia absoluta, la que ms se repite es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo. Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que tengan la misma frecuencia siendo esta mxima. Entonces tendremos una distribucin bimodal o polimodal segn el caso. Considerando distribuciones unimodales, el clculo de la moda (M o ) para datos agrupados en intervalos se obtiene mediante la frmula:

n j - n j-1 Mo = LI + ------------------------ * c i (n j - n j-1 ) + (n j - n j+1 ) Donde: LI Es el lmite inferior de la clase modal. n j - n j-1 Es la diferencia de la frecuencia absoluta de la clase modal menos la frecuencia del intervalo anterior. n j - n j+1 Es la diferencia de la frecuencia absoluta de la clase modal menos la frecuencia del intervalo posterior c i Es la amplitud del intervalo. Clase modal es el intervalo que tiene mayor frecuencia o frecuencia relativa.

Media Geomtrica

Es una medida de tendencia central. Dado dos nmeros y 1 e y 2 , llamaremos media geomtrica (G) de estos nmeros a la raz cuadrada del producto de los mismos. Cuando se tiene N observaciones (ms de dos datos): x 1 , x 2 ....x p y cada uno de ellos se repite n 1 , n 2 ......n p veces entonces, generalizando la primera expresin se tiene:

Solo se puede calcular si no hay observaciones negativas o valores cero. Es menos sensible que la media aritmtica a los valores extremos. Su valor es siempre menor o igual que la media aritmtica. Su uso ms frecuente es el de promediar porcentajes, tasas, nmeros ndices, entre otros, es decir en los casos que se supone que la variable presenta variaciones acumulativas.

Media Armnica

Es un valor que se obtiene como la inversa de la media de las inversas de las observaciones. Se le denota por H.

Donde: i representa el valor de la variable o en su caso la marca de clase. n i representa la frecuencia absoluta.

Media cuadrtica
La media cuadrtica es igual a la raz cuadrada de la suma de los cuadrados de los valores dividida entre el nmero de datos:

Esta media como medida de asociacin tiene aplicaciones tanto en ciencias biolgicas como en medicina. A veces la variable toma valores positivos y negativos, como ocurre, por ejemplo, en los errores de medida. En tal caso se puede estar interesado en obtener un promedio que no recoja los efectos del signo. Este problema se resuelve, mediante la denominada media cuadrtica. Consiste en elevar al cuadrado todas las observaciones (as los signos negativos desaparecen), en obtener despus su media aritmtica y en extraer, finalmente, la raz cuadrada de dicha media para volver a la unidad de medida original.

Fractil O Cuantil
Es el valor que se obtiene al fraccionar el conjunto de datos en partes o fracciones iguales. Los ms conocidos son: mediana, cuartiles, deciles y percentiles.

Rango Intercuartil
El rango intercuartlico es la diferencia entre el tercer y el primer cuartil. Nos da una franja en la que se encuentra el 50% de la poblacin.

Mide qu tan lejos de la mediana debemos ir en cualquiera de las dos direcciones (izquierda o derecha) antes de recorrer la mitad de los valores del conjunto de datos. Al estudiar el rango, vimos que era muy influenciable por los valores extremos; para eliminar la influencia de los extremos en estadstica se suele analizar la situacin del intermedio de la distribucin y a esto se refiere el rengo intercuartlico que es la diferencia entre el tercer cuartil Q3 y el primero Q1.

Rango intercuartil = Q = Q3 Q1

Desviacin Cuartlica
Mide el intervalo promedio de un cuarto de los datos [Q3-Q1)/2] Si la distribucin es perfectamente simtrica, los dos cuartiles Q1 y Q3 equidistan de la mediana y la mitad de la distancia entre los cuartiles representa la distancia promedio entre ellos y la mediana. Si en una distribucin simtrica se mide una distancia igual a la desviacin cuartlica a ambos lados de un punto ubicado en el centro de los cuartiles, el 50% de los valores estarn incluidos dentro de esos lmites y el valor del punto medio coincide con la mediana. La ventaja de la desviacin cuartlica es que evita los valores extremos utilizando nicamente la mitad intermedia de los datos. Ejemplo: Si el tercer cuartil = 24 y el primer cuartil = 10, cul es la desviacin cuartlica? La amplitud intercuartlica es 24 - 10 = 14; por lo tanto, la desviacin cuartlica es 14/2 = 7. Es la mitad del recorrido intercuartlico Desviacin cuartlica.

RSQ= Q3-Q1 2

Rango Interpercentil
Mide la dispersin del 80% de los datos centrales y se obtiene de la diferencia entre el decil 9 y el decil 1, evitando as los puntos extremos.

Para poder hallar el RIP (rango interpercentilico), primero se deben hallar los percentiles 1 y 99. i= posicin percentil P n= tamao de la muestra Si i es no entero: Redondearlo al entero mayor Si i es entero: Promedio de las posiciones i e (i +1) Demostracin: Wall-Mart realiz una investigacin acerca de un nuevo producto que se desea comercializar en sus almacenes de Estados Unidos. Se hizo el mismo estudio en Canad y se obtuvo un rango interpercentil de 45. El departamento de mercadotecnia espera encontrar un rango interpercentil ms bajo en Estados Unidos. La esperanza del departamento se hizo realidad?

Datos: 34 35 38 42 42 45 46 49 56 58 60 62 62 63 65 70 73 75

Solucin:

Desviacion Percentilica
Desviacin percentlica 10-90. Se llama desviacin percentlica 10-90 o recorrido semipercentlico 10-90 de una distribucin y se designa por DP10-90, como la mitad de la diferencia entre los percentiles noventa y diez, a saber: DP10-90 =P90 - P10

RSP = P90-P10
2
Desviacin Estandar
Mide el nivel de dispersin de los resultados. Refleja qu tan homogneos (si la mayora de los estudiantes respondi de manera similar) o heterogneos (si hay estudiantes que respondieron muy bien, otros mal y otros regular) son los datos. Se espera que la desviacin estndar sea baja (cercana a 0). Es la raz cuadrada de la variancia (es decir de la media del cuadrado de las desviaciones) y representa lo que podramos denominar un promedio de las distancias que separan a todos los valores en la distribucin, respecto a su media. Esta medida permite identificar cuntas veces el promedio de la distancia se ubica cada valor respecto a su media.

La Desviacin de la Media
La desviacin de una puntuacin es su distancia desde la media de la distribucin y se representa con una x minscula. De manera que para calcular la desviacin de una puntuacin respecto a la media de la distribucin, se resta el valor de la media del valor observado. x = (X X). Las puntuaciones que se encuentran sobre la media en una ordenacin poseen un valor positivo, mientras que aquellas bajo la media lo tienen negativo. Para determinar la desviacin desde la media (DM) se suman los valores absolutos de las xs correspondientes a cada caso y se divide entre el total de casos. GRUPO A x GRUPO B x 75 75 25 = 50 35 35 25 = 10 50 50 25 = 25 30 30 25 = 5 35 35 25 = 10 28 28 25 = 3 24 24 25 = 1 26 26 25 = 1 16 16 25 = -9 25 25 25 = 0 12 12 25 = -13 24 24 25 = -1 11 11 25 = -14 22 22 25 = -3 10 10 25 = -15 20 20 25 = -5 10 10 25 = -15 15 15 25 = -10 7 7 25 = -18 Total = 225 Total = 250

Para el grupo A la desviacin de la media resulta de sumar los valores absolutos de x = 175 y dividirlo entre 10 que son los casos (N) dando como resultado DM = 17.5. La misma medida para el grupo B los valores absolutos de x suman 28 y los casos (N) son 9 dando como resultado DM = 3.11.

Varianza
Se trata de la suma de las desviaciones al cuadrado, consideradas desde la media, de las puntuaciones individuales, dividida por N 1. La varianza se representa por una letra s al cuadrado. Las desviaciones son sometidas al cuadrado para eliminar los signos, lo cual se justifica dado que lo importante es la cantidad de la desviacin y no la direccin de la misma. GRUPO A (X X) = x x x GRUPO B (X X ) = x 75 75 25 = 50 2 500 35 35 25 = 10 100 50 50 25 = 25 625 30 30 25 = 5 25 35 35 25 = 10 100 28 28 25 = 3 9 24 24 25 = 1 1 26 26 25 = 1 1 16 16 25 = -9 81 25 25 25 = 0 12 12 25 = -13 169 24 24 25 = -1 1 11 11 25 = -14 196 22 22 25 = -3 9 10 10 25 = -15 225 20 20 25 = -5 25 10 10 25 = -15 225 15 15 25 = -10 100 7 7 25 = -18 324 Total = 225 x =270 Total = 250 x = 4 446

La varianza para el grupo A resulta de dividir la suma de los cuadrados de x (S x) entre (N 1), es decir entre (10 1) lo cual es 9 y da como resultado 494. La misma operacin, con el grupo B, conduce a dividir 270 entre 8 lo cual da como resultado 33.75. Cuando se trabaja con datos agrupados en intervalos de clase se identifica el punto medio de cada intervalo (Xi) segn aparece en la columna 3 del ejemplo y se multiplica por la frecuencia en cada intervalo (fi) que son los valores de la columna 2 dando como resultado la columna 4 (Xi fi). Adems se eleva al cuadrado el valor de los puntos medios de cada intervalo (Xi) y se multiplica por la frecuencia en cada intervalo (fi) lo cual resulta en nuestro ejemplo en la columna 5. Para calcular la varianza de la distribucin se procede de la siguiente manera: se eleva al cuadrado la suma de la columna 4 (Xi fi) y se divide entre el total de casos (total de la columna 2). Una vez hecha esta operacin su resultado se resta de total que resulta en la columna 5 (Suma de Xi al cuadrado por fi) y la diferencia se divide entre el nmero de casos menos uno. Dando como resultado la varianza.

Coeficiente de Variacin
Cuando se quiere comparar el grado de dispersin de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variacin de Pearson que se define como el cociente entre la desviacin tpica y el valor absoluto de la media aritmtica. El coeficiente de variacion representa el nmero de veces que la desviacin tpica contiene a la media aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la representatividad de la media.

Medidas de Asimetra
Definicin Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmtica). La asimetra presenta tres estados diferentes, cada uno de los cuales define de forma concisa como estn distribuidos los datos respecto al eje de asimetra. Se dice que la asimetra es positiva cuando la mayora de los datos se encuentran por encima del valor de la media aritmtica, la curva es Simtrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetra negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media.

El Coeficiente de asimetra, se representa mediante la ecuacin matemtica

Coeficiente de asimetra de Fisher En teora de la probabilidad y estadstica, la medida de asimetra ms utilizada parte del uso del tercer momento estndar. La razn de esto es que nos interesa mantener el signo de las desviaciones con respecto a la media, para obtener si son mayores las que ocurren a la derecha de la media que las de la izquierda. Sin embargo, no es buena idea tomar el momento estndar con respecto a la media de orden 1 (Ya que una simple suma de todas las desviaciones siempre es cero!). Por ello, lo ms sencillo es tomar las desviaciones al cubo. El coeficiente de asimetra de Fisher, representado por 1, se define como:

Donde 3 es el tercer momento en torno a la media y es la desviacin estndar. Si 1 = 0, la distribucin es simtrica. Si 1 > 0, la distribucin es asimtrica positiva o a la derecha. Si 1 < 0, la distribucin es asimtrica negativa o a la izquierda. Utilidad La asimetra resulta til en muchos campos. Muchos modelos simplistas asumen una distribucin normal, esto es, simtrico en torno a la media. La distribucin normal tiene una asimetra cero. Pero en realidad, los valores no son nunca perfectamente simtricos y la asimetra de la distribucin proporciona una idea sobre si las desviaciones de la media son positivas o negativas. Una asimetra positiva implica que hay ms valores distintos a la derecha de la media. Las medidas de asimetra, sobre todo el coeficiente de asimetra de Fisher, junto con las medidas de apuntamiento o curtosis se utilizan para contrastar si se puede aceptar que una distribucin estadstica sigue la distribucin normal. Esto es necesario para realizar numerosos contrastes estadsticos en la teora de inferencia estadstica.

Coeficiente de Sesgo
Anlisis del Sesgo. El coeficiente de SESGO determina el grado de asimetra (alargamiento de la distribucin hacia la izquierda o hacia la derecha). Para determinar el sesgo de una distribucin de frecuencias se utiliza el:

o o o

Si el coeficiente de sesgo tiene un valor positivo se dice que la distribucin es SESGADA a DERECHA o que tiene SESGO POSITIVO. Si el coeficiente de sesgo tiene un valor negativo se dice que la distribucin es SESGADA a IZQUIERDA o que tiene SESGO NEGATIVO. Si el coeficiente de sesgo tiene un valor 0 se dice que la distribucin es INSESGADA o que tiene SESGO 0.

Medidas de Apuntamiento o Curtosis


Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones segn su grado de curtosis: Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal). Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable. Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.

El coeficiente de Curtosis

Anlisis de la Curtosis

El coeficiente de CURTOSIS determina el grado de alargamiento de la distribucin hacia arriba o hacia abajo. Para determinar la curtosis de una distribucin de frecuencias se utiliza el:

o Si el coeficiente de curtosis es mayor que 3 se dice que la distribucin es LEPTOCRTICA. o Si el coeficiente de curtosis es menor a 3 se dice que la distribucin es PLATICRTICA o Si el coeficiente de curtosis es igual a 3 se dice que la distribucin es MESOCRTICA.

Mesocrtica

Leptocrtica

Platicrtica.

Regresin y Correlacin
Regresin y Correlacin La regresin y la correlacin son dos tcnicas estrechamente relacionadas y comprenden una forma de estimacin. En forma ms especifica el anlisis de correlacin y regresin comprende el anlisis de los datos mustrales para saber que es y como se relacionan entre si dos o mas variables en una poblacin. El anlisis de correlacin produce un nmero que resume el grado de la correlacin entre dos variables; y el anlisis de regresin da lugar a una ecuacin matemtica que describe dicha relacin. El anlisis de correlacin generalmente resulta til para un trabajo de exploracin cuando un investigador o analista trata de determinar que variables son potenciales importantes, el inters radica bsicamente en la fuerza de la relacin. La correlacin mide la fuerza de una entre variables; la regresin da lugar a una ecuacin que describe dicha relacin en trminos matemticos. Los datos necesarios para anlisis de regresin y correlacin provienen de observaciones de variables relacionadas. Regresin lineal La regresin lineal simple comprende el intento de desarrollar una lnea recta o ecuacin matemtica lineal que describe la reaccin entre dos variables. La regresin puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo. La finalidad de una ecuacin de regresin seria estimar los valores de una variable con base en los valores conocidos de la otra. Otra forma de emplear una ecuacin de regresin es para explicar los valores de una variable en trmino de otra. Es decir se puede intuir una relacin de causa y efecto entre dos variables. El anlisis de regresin nicamente indica qu relacin matemtica podra haber, de existir una. Ni con regresin ni con la correlacin se pude establecer si una variable tiene causa ciertos valores de otra variable.

Regresin lineal de X.

Ecuacin Lineal Dos caractersticas importantes de una ecuacin lineal

la independencia de la recta la localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma

y = a + bx
En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b seala su pendiente. La variable y es la que se habr de predecir, y x es la variable predictora. Construyendo el sistema de ecuaciones lineales.

Anlisis

de Regresin

La regresin estadstica o regresin a la media es la tendencia de una medicin extrema a presentarse ms cercana a la media en una segunda medicin. La regresin se utiliza para predecir una medida basndonos en el conocimiento de otra. Utiliza un modelo lineal, por ejemplo la longitud de alambre en un carrete puede predecirse a partir del peso del carrete. Regresin lineal Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una funcin simple (lineal) de X que nos permita aproximar Y mediante: = a + bX a (ordenada en el origen, constante) b (pendiente de la recta)

A la cantidad e=Y- se le denomina residuo o error residual. As, en el ejemplo de Pearson: = 85 cm + 0,5X Donde es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre.

Mtodos de Mnimos cuadrados


Mnimos cuadrados es una tcnica de anlisis numrico encuadrada dentro de la optimizacin matemtica, en la que, dados un conjunto de pares (o ternas, etc), se intenta encontrar la funcin que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mnimo error cuadrtico. En su forma ms simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos generados por la funcin y los correspondientes en los datos. Especficamente, se llama mnimos cuadrados promedio (LMS) cuando el nmero de datos medidos es 1 y se usa el mtodo de descenso por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el residuo cuadrado esperado, con el mnimo de operaciones (por iteracin), pero requiere un gran nmero de iteraciones para converger. Desde un punto de vista estadstico, un requisito implcito para que funcione el mtodo de mnimos cuadrados es que los errores de cada medida estn distribuidos de forma aleatoria. El teorema prueba que los estimadores mnimos cuadrticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribucin normal. Tambin es importante que los datos recogidos estn bien escogidos, para que permitan visibilidad en las variables que han de ser resueltas (para dar ms peso a un dato en particular, vase mnimos cuadrados ponderados).

La tcnica de mnimos cuadrados se usa comnmente en el ajuste de curvas. Muchos otros problemas de optimizacin pueden expresarse tambin en forma de mnimos cuadrados, minimizando la energa o maximizando la entropa.

Solucin del problema de los mnimos cuadrados La aproximacin mnimo cuadrado tiene solucin general para el caso de un problema de aproximacin lineal en sus coeficientes cjcualesquiera sean las funciones base fj(x) antes expuestas. Por lineal se entiende f(x) es una combinacin lineal de dichas funciones base. Para hallar la expresin de la frmula general, es posible o bien minimizar el error cuadrtico arriba expuesto, para lo cual se hara uso del clculo multivariable (se tratara de un problema de optimizacin en cj), o alternativamente hacer uso del lgebra lineal en la llamada deduccin geomtrica. Para los Modelos estticos uniecuacionales, el mtodo de mnimos cuadrados no ha sido superado, a pesar de diversos intentos para ello, desde principios del Siglo XIX. Se puede demostrar que, en su gnero, es el que proporciona la mejor aproximacin.

Anlisis de Correlacin
Es el conjunto de tcnicas estadsticas empleado para medir la intensidad de la asociacin entre dos variables. El principal objetivo del anlisis de correlacin consiste en determinar que tan intensa es la relacin entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersin. Diagrama de Dispersin: es aquel grafico que representa la relacin entre dos variables. Variable Dependiente: es la variable que se predice o calcula. Cuya representacin es Y Variable Independiente: es la variable que proporciona las bases para el calculo. Cuya representacin es: X1, X2, X3. Coeficiente de Correlacin: describe la intensidad de la relacin entre dos conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la relacin lineal entre dos variables. El valor del coeficiente de correlacin puede tomar valores desde menos uno hasta uno, indicando que mientras ms cercano a uno sea el valor del coeficiente de correlacin, en cualquier direccin, ms fuerte ser la asociacin lineal entre las dos variables. Mientras ms cercano a cero sea el coeficiente de correlacin indicar que ms dbil es la asociacin entre ambas variables. Si es igual a cero se concluir que no existe relacin lineal alguna entre ambas variables. Anlisis de regresin: Es la tcnica empleada para desarrollar la ecuacin y dar las estimaciones. Ecuacin de Regresin: es una ecuacin que define la relacin lineal entre dos variables. Ecuacin de regresin Lineal: Y = a + Bx Ecuacin de regresin Lineal Mltiple: Y = a + b1X1 + b2X2 + b3X3

Principio de Mnimos Cuadrados: Es la tcnica empleada para obtener la ecuacin de regresin, minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de Y y los valores pronosticados Y.

y=a+bx

El error tpico de estima

El error tpico de estimacin es la desviacin tpica de la variable aleatoria constituida por los valores de la media de todas las muestras que potencialmente podramos sacar. Es una medida de la dispersin de los estimadores respecto de su media.

Ciencia
La ciencia (del latn scientia 'conocimiento') es el conjunto de conocimientos sistemticamente estructurados, y susceptibles de ser articulados unos con otros La obtencin del conocimiento mediante la observacin de patrones regulares, de razonamientos y de experimentacin en mbitos especficos, a partir de los cuales se generan preguntas, se construyen hiptesis, se deducen principios y se elaboran leyes generales y esquemas metdicamente organizados.1 La ciencia consolidada se constituye como tal, superada la fase de investigacin, como resultado, cuando adquiere la consideracin de saber vlidamente justificado por la comunidad cientfica correspondiente y suele considerarse as a travs de las publicaciones especializadas. Es entonces cuando pasa a una fase de enseanza en los Centros de formacin y de divulgacin adquiriendo, entonces, toda su eficacia cultural y social. La ciencia: Utiliza diferentes mtodos y tcnicas para la adquisicin y organizacin de conocimientos sobre la estructura de un conjunto de hechos suficientemente objetivos y accesibles a varios observadores. Se basa en un criterio de verdad y una correccin permanente.

Criterios aceptados por la comunidad cientfica competente. Procura la generacin de ms conocimiento objetivo en forma de predicciones concretas, cuantitativas y comprobables referidas a hechos observables pasados, presentes y futuros respecto a algn sistema concreto. Procura su puesta en prctica de los conocimientos en sus aplicaciones tecnolgicas, los peritos o expertos. Procura la divulgacin de sus investigaciones, por publicaciones especializadas y Centros de Enseanza, fundamentalmente las Universidades. Vigila los mtodos de divulgacin y enseanza de los contenidos consolidados.

Potrebbero piacerti anche