Trabajo Estadistica Parte Teorica

TRABAJO ESTAADISTICA PARTE TEORICA
PUNTO 1.
 estadística bidimensional: En el análisis estadístico es conveniente a veces contrastar los datos procedentes de
dos caracteres estudiados sobre un mismo individuo. En este sentido se plantea la consideración de variables
estadísticas bidimensionales, así como la detección de posibles relaciones entre los dos caracteres investigados.
Definición 1.1. Una variable estadística bidimensional es el conjunto (X, Y) de valores que pueden tomar dos
caracteres diferentes X e Y medidos sobre cada uno de los individuos de una población o muestra. Los caracteres
X e Y se denominan caracteres o variables marginales y pueden ser ambos cuantitativos, ambos cualitativos o uno
de cada tipo; a su vez, los caracteres cuantitativos puede ser variables estadísticas tanto discretas como continuas.
 FRECUENCIA TOTAL: se refiere al total de las frecuencias absolutas para todos los eventos iguales o anteriores
que un cierto valor, en una lista ordenada de eventos.
 FRECUENCIA ABSOLUTA BIDIMENSIONAL: es el número de veces que aparece cada par de datos (xi, yi) de la
variable bidimensional.
 frecuencia relativa bidimensional: es el cociente de la frecuencia absoluta conjunta de cada par (xi, yi) y el
número total de pares de datos.
 tabla de doble entrada: Una tabla de doble entrada o cuadro de doble entrada, también denominadas de
contingencias, son tablas de datos que hacen referencia dos variables. En la cabecera de las filas establecemos las
categorías o valores variables mientras que en la columna principal se añaden las otras variables. En la confluencia
entre la primera fila y la primera columna encontramos los datos que corresponden a ambas variables. Una tabla
de doble entrada nos ofrece información estadística de dos eventos relacionados entre sí para contrastar los
diferentes valores que obtenemos. Los cuadros de doble entrada nos permiten organizar la información en
columnas horizontales y verticales concentrado en un mismo lugar toda la información obtenida a partir de una
lectura.
PUNTO 2.
Las distribuciones marginales son las distribuciones unidimensionales que nos informan del número de observaciones
para cada valor de una de las variables, (prescindiendo de la información sobre los valores de las demás variables).
En el caso bidimensional hay dos (una para la x y otra para la y), en el caso multidimensional hay tantas como variables.
A partir de la tabla de correlación pueden construirse las distribuciones marginales, asignando a cada valor de la variable
considerada su frecuencia marginal.
En el caso de dimensión mayor de dos, y supuestos los datos en forma de base datos matricial, habrá que considerar
únicamente una de las variables (una columna) y a partir del listado de observaciones, se podrá construir la tabla de
frecuencias de la distribución marginal.
Las distribuciones marginales son distribuciones de frecuencias unidimensionales como las ya estudiadas y pueden
analizarse de la manera habitual (media, varianza, asimetría, curtosis, etc.).
PUNTO 3.
Las distribuciones condicionadas expresan como se distribuyen, según una de las dos variables, el conjunto de
observaciones que cumplen una condición. Esta condición viene expresada por un valor o conjunto de valores que
presenta la otra variable. Es decir, la distribución condicionada de X cuando y toma el valor y o el conjunto de valores ir O
la distribución condicionada de Y cuando x toma el valor xc o el conjunto de valores xr.
PUNTO 4.
PUNTO 4.1
Gráficos de mosaico
Los gráficos de mosaico o diagramas de Marimekko son usados para mostrar la relación entre dos variables discretas, ya
sean factores o cadenas de texto. Este tipo de grafico recibe su nombre porque consiste en una cuadricula, en la que cada
rectángulo representa el número de casos que corresponden a un cruce específico de variables. Entre más casos se
encuentren en ese cruce, más grande será el rectángulo. Para obtener un gráfico de mosaico, damos como vectores de
factor o cadena de texto como argumentos x y y a la función plot().
PUNTO 4.2
Un diagrama de barras, también conocido como gráfico de barras o diagrama de columnas, es una forma de representar
gráficamente un conjunto de datos o valores, y está conformado por barras rectangulares de longitudes proporcionales a
los valores representados. Los gráficos de barras son usados para comparar dos o más valores. Las barras pueden
orientarse horizontal o verticalmente.
PUNTO 4.3
un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es
proporcional a la frecuencia de los valores representados. Sirven para obtener una "primera vista" general, o panorama,
de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud
o el peso). De esta manera ofrece una visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la
muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean
infinitos o no) que pueda adquirir la característica. Así pues, podemos evidenciar comportamientos, observar el grado de
homogeneidad, acuerdo o concisión entre los valores de todas las partes que componen la población o la muestra, o, en
contraposición, poder observar el grado de variabilidad, y por ende, la dispersión de todos los valores que toman las
partes, también es posible no evidenciar ninguna tendencia y obtener que cada miembro de la población toma por su lado
y adquiere un valor de la característica aleatoriamente sin mostrar ninguna preferencia o tendencia, entre otras cosas.
PUNTO 4.4
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de diagrama matemático que utiliza
las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Se emplea cuando una
o varias variables está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma
sistemática por el experimentador, se le denomina parámetro de control o variable independiente y habitualmente se
representa a lo largo del eje horizontal (eje de las abscisas). La variable medida o dependiente usualmente se representa
a lo largo del eje vertical (eje de las ordenadas). Si no existe una variable dependiente, cualquier variable se puede
representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos
variables.
PUNTO 5
Dependencia estadística LINEAL
(existe una relación aproximada) Existen caracteres que ni son independientes, ni se da entre ellos una relación de
dependencia funcional, pero si se percibe una cierta relación de dependencia entre ambos; se trata de una dependencia
estadística
Cuando los caracteres son de tipo cuantitativo, el estudio de la dependencia estadística se conoce como el problema de "
regresión ", y el análisis del grado de dependencia que existe entre las variables se conoce como el problema de
correlación.
PUNTO 5.1
la covarianza es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias. Es el
dato básico para determinar si existe una dependencia entre ambas variables y además es el dato necesario para estimar
otros parámetros básicos, como el coeficiente de correlación lineal o la recta de regresión.
PROPIEDADES:
1.- Expresión alternativa: Cov(X,Y)=E[X.Y]-E[X].E[Y]
2.- Si X e Y son variables aleatorias independientes, su covarianza es cero.
Pero si la covarianza es cero no quiere decir que sean independientes.
3.- Si X e Y son variables aleatorias con esperanzas E[X] y E[Y] y se definen las funciones U = a1X + b1 y V = a2Y + b2
entonces cov(U,V) = a1.a2cov(X,Y)
4.- Si X e Y son variables aleatorias con varianzas Var(X) y var(Y) entonces:
var(X±Y) = Var(X) + var(Y) ± 2cov(X,Y).
PUNTO 5.2
el coeficiente de correlación de Pearson es una medida lineal entre dos variables aleatorias cuantitativas. A diferencia de
la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse
para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas.
PROPIEDADES
I) número sin dimensiones entre -1 y 1.
ii) si las variables son independientes r=0. La inversa no es necesariamente cierta, aunque si las variables son normales
bivariantes sí.
iii) si las variables estuvieran relacionadas linealmente r=1
Un contraste que interesa realizar en un modelo II es H0: r=0. Como
este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque también hay tablas basadas en que
una cierta transformación (de Fisher) de r se distribuye aproximadamente como una normal.
PUNTO 6.1
La recta de regresión
Llamamos linea de regresión a la curva que mejor se ajusta
a nube de puntos, es una curva ideal en torno a la que se
distribuyen los puntos de la nube.
Se utiliza para predecir la variable dependiente (Y) a partir
de la independiente (X).
La diferencia entre el valor real (yi) y el teórico (yi*) se
llama residuo.
En nuestro caso esta linea es una recta que se calcula

imponiendo dos condiciones:
 Debe pasar por el punto (x,y), centro de gravedad

de la distribución.
 La suma de los cuadrados de los residuos debe ser
mínima.
Con esto obtenemos la ecuación de la
RECTA de REGRESIÓN de Y sobre X:

La pendiente de esta recta es el llamado
COEFICIENTE de REGRESIÓN=
PUNTO 6.2
En el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la variable dependiente
observados y los valores que predecimos a partir de nuestra recta de regresión.
PUNTO 6.3
Se llama coeficiente de regresión a la pendiente de la recta de regresión:
El signo de ambos coincidirá con el de la covarianza, indicándonos la tendencia (directa o inversa a la covariación).Es
interesante hacer notar que b.b'= r2
PROPIEDADES
PENDIENTE DE REGRESION: La pendiente y la intersección definen la relación lineal entre dos variables, y se pueden utilizar
para estimar una tasa de cambio promedio. Mientras mayor sea la magnitud de la pendiente, más inclinada será la línea
y mayor será la tasa de cambio.
PROPIEDADES

Trabajo Estadistica Parte Teorica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Trabajo Estadistica Parte Teorica

Caricato da

Copyright:

Formati disponibili

TRABAJO ESTAADISTICA PARTE TEORICA

Dependencia estadística LINEAL

1.- Expresión alternativa: Cov(X,Y)=E[X.Y]-E[X].E[Y]

2.- Si X e Y son variables aleatorias independientes, su covarianza es cero.

Pero si la covarianza es cero no quiere decir que sean independientes.

4.- Si X e Y son variables aleatorias con varianzas Var(X) y var(Y) entonces:

var(X±Y) = Var(X) + var(Y) ± 2cov(X,Y).

I) número sin dimensiones entre -1 y 1.

iii) si las variables estuvieran relacionadas linealmente r=1

Un contraste que interesa realizar en un modelo II es H0: r=0. Como

En nuestro caso esta linea es una recta que se calcula

 Debe pasar por el punto (x,y), centro de gravedad

Con esto obtenemos la ecuación de la

RECTA de REGRESIÓN de Y sobre X:

Se llama coeficiente de regresión a la pendiente de la recta de regresión:

Potrebbero piacerti anche