Sei sulla pagina 1di 11

HERRAMIENTAS COMPUTACIONALES.

ALUMNOS:
Norma Anglica Trujillo Jurez
Fernando Luis Mrquez Portillo

MATRICULA: es1410915689
MATRICULA: es1410913422

LENGUAJE R.
Las representaciones graficas dentro de la estadstica, resultan muy prcticas ya que son una
fotografa de la informacin que a simple vista no se podra identificar tan fcilmente. Existen
diferentes graficas que van en varias formas de agrupar la informacin y de cmo se puede
manipular.
En wikipedia encontramos la siguiente definicin:
Un grfico o representacin grfica es un tipo de representacin de datos,
generalmente numricos, mediante recursos grficos (lneas, vectores, superficies o smbolos),
para que se manifieste visualmente la relacin matemtica o correlacin estadstica que guardan
entre s. Tambin es el nombre de un conjunto de puntos que se plasman en coordenadas
cartesianas y sirven para analizar el comportamiento de un proceso o un conjunto de elementos o
signos que permiten la interpretacin de un fenmeno. La representacin grfica permite
establecer valores que no se han obtenido experimentalmente sino mediante
la interpolacin (lectura entre puntos) y la extrapolacin (valores fuera del intervalo
experimental).
Los grficos nos permiten a, simple vista, hacer un anlisis de datos aun los muy complejos e
interpretarlos, determinar su comportamiento, analizarlos de manera ms fcil, de igual manera
facilita el sacar conclusiones, implican un ahorro significativo de tiempo, como son:

Variabilidad
Escala
Patrones
Tendencias de los datos

Elementos de una grfica.


i.
ii.
iii.
iv.
v.
vi.

Ttulo principal.
Ttulo secundario (opcional)
Descripcin del grfico.
Regin de datos y smbolos (grfico)
Escalas en los ejes
Pie del grfico.

Errores y mejores prcticas al elaborar grficas.


a.
b.
c.
d.

Tener outliers por errores de captura


Utilice un par de lneas para cada variable.
Coloque marcas fuera de la regin de datos
Resaltar la presentacin de datos, que ocupe la mayor rea posible.

HERRAMIENTAS COMPUTACIONALES.
ALUMNOS:
Norma Anglica Trujillo Jurez
MATRICULA: es1410915689
Fernando Luis Mrquez Portillo MATRICULA: es1410913422
e. Sobreponer datos.
f. Hacer que los datos sobresalgan.
g. Sobreponer grficos.
h. Presentar muchos nmeros en un espacio reducido.
i. No poner ttulo.
j. No indicar escalas.
Grficas en R.

I.

Arbol de tallo y hoja - stem()

Este grfico fue propuesto por Tukey (1977) y a pesar de no ser un grfico para presentacin
definitiva se utiliza a la vez que el analista recoge la informacin ve la distribucin de los mismos.
Estos grficos son fciles de realizar a mano y se usan como una forma rpida y no pulida de mirar
los datos.
Tomamos como ejemplo un horario de trenes confeccionado a partir de un dptico de la lnea
Castelldefels-Barcelona/Sants recogido en la estacin de Renfe. Originalmente el horario ocupa
una tabla de 10 filas y 9 columnas ms una columna "viuda" con el tren de las 22:38. Un total
de 91 campos con formato hh.mm cada uno, 455caracteres.
Dptico original Trayecto Castelldefels -> Barcelona-Sants

Se representa la hora a la izquierda de la barra de separacin | y losminutos de la salida de cada


tren a la derecha. La frecuencia de los trenes se deduce fcilmente de la longitud de las filas y es,
adems, muy fcil ver en qu minutos de cada hora pasan tpicamente los mismos.

HERRAMIENTAS COMPUTACIONALES.
ALUMNOS:
Norma Anglica Trujillo Jurez
Fernando Luis Mrquez Portillo

MATRICULA: es1410915689
MATRICULA: es1410913422

Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se puede
reducir an ms el tamao del grfico, sin perder informacin y ganando en claridad.
Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf reducido

Al final tenemos 59 campos de 2 dgitos, 118 caracteres ms los separadores, es decir 4 veces
menos dgitos que con el horario original, menos espacio y ms claridad.
Esto nos da idea de que una disposicin apropiada de los datos puede ser doblemente
informativa y que la representacin grfica puede contribuir enormemente a la percepcin de
patrones y a la comprensin de la naturaleza de los fenmenos.

II.

Boxplot o caja de Tukey - boxplot()

Un Diagrama de caja es un grfico, basado en cuartiles, mediante el cual se visualiza un conjunto


de datos. Est compuesto por un rectngulo, la "caja", y dos brazos, los "bigotes".
Es un grfico simple, ya que se realiza bsicamente con cinco nmeros, pero poderoso. Se observa
de una forma clara la distribucin de los datos y sus principales caractersticas. Permite compara
diversos conjuntos de datos simultneamente. Como herramienta visual se puede utilizar para
ilustrar los datos, para estudiar simetra, para estudiar las colas, y supuestos sobre la distribucin,
tambin se puede usar para comparar diferentes poblaciones.

HERRAMIENTAS COMPUTACIONALES.
ALUMNOS:
Norma Anglica Trujillo Jurez
Fernando Luis Mrquez Portillo

MATRICULA: es1410915689
MATRICULA: es1410913422

Ordenar los datos y obtener el valor mnimo, el mximo, los cuartiles Q1, Q2 y Q3 y el Rango
Inter Cuartilico (RIC)
En el ejemplo, para trazar la caja:
a.

Valor 7: es el Q1 (25% de los datos)

b.

Valor 8.5: es el Q2 o mediana (el 50% de los datos)

c.

Valor 9: es el Q3 (75% de los datos)

d.

Rango Inter Cuartilico RIC (Q3-Q1)

Los bigotes, las lneas que se extienden desde la caja, se extienden hasta los valores mximo y
mnimo de la la serie o hasta 1.5 veces el RIC.
Cuando los datos se extienden ms all de esto, significa que hay valores atpicos en la serie y
entonces hay que calcular los lmites superior e inferior, Li y Ls.
Para ello, se consideran atpicos los valores son aquellos inferiores a Q1-1.5*RIC o
superiores a Q3+1.5*RIC.
En el ejemplo:

inferior: 7-1.5*2=4

superior: 9+1.5*2=12
Ahora se buscan los ltimos valores que NO son atpicos, que sern los extremos de los
bigotes.
En el ejemplo: 4 y 10
Marcar como atpicos todos los datos que estn fuera del intervalo (Li, Ls).
En el ejemplo: 0.5 y 2.5
Adems, se pueden considerar valores extremadamente atpicos aquellos
que exceden Q1-3*RIC o Q3+3*RIC.
De modo que, en el ejemplo:

inferior: 7-3*2=1
superior: 9+3*2=15

HERRAMIENTAS COMPUTACIONALES.
ALUMNOS:
Norma Anglica Trujillo Jurez
Fernando Luis Mrquez Portillo

III.

MATRICULA: es1410915689
MATRICULA: es1410913422

Histograma hist().

En estadstica, un histograma es una representacin grfica de una variable en forma de barras,


donde la superficie de cada barra es proporcional a la frecuencia de los valores representados, ya
sea en forma diferencial o acumulada. Sirven para obtener una "primera vista" general, o
panorama, de la distribucin de la poblacin, o la muestra, respecto a una caracterstica,
cuantitativa y continua, de la misma y que es de inters para el observador (como la longitud o la
masa).
De esta manera ofrece una visin en grupo permitiendo observar una preferencia, o tendencia,
por parte de la muestra o poblacin por ubicarse hacia una determinada regin de valores dentro
del espectro de valores posibles (sean infinitos o no) que pueda adquirir la caracterstica.

Realizar histogramas de esta manera tiene las siguientes ventajas


1. Es til para apreciar la forma de la distribucin de los datos, si se escoge adecuadamente el
nmero de clases y su amplitud.
2. Se puede presentar como un grfico definitivo en un reporte.
3. Se puede utilizar para comparar dos o ms muestras o poblaciones.
4. Se puede refinar para crear grficos ms especializados, por ejemplo la pirmide poblacional.
Desventajas
1. Las observaciones individuales se pierden.

HERRAMIENTAS COMPUTACIONALES.
ALUMNOS:
Norma Anglica Trujillo Jurez
MATRICULA: es1410915689
Fernando Luis Mrquez Portillo MATRICULA: es1410913422
2. La seleccin del nmero de clases y su amplitud que adecuadamente representen la distribucin
puede ser complicado.
Un histograma con muy pocas clases agrupa demasiadas observaciones y uno con muchas deja
muy pocas en cada clase. Ninguno de los dos extremos es adecuado.

Figura 2.4: Se muestra la distribucin del tiempo utilizado por los atletas masculinos clasificados
en el grupo elite en la media maratn de CONAVI. El histograma A tiene solo 2 barras. El grfico B,
con 4 barras, y el C, con 8 barras, muestra ms claramente la asimetra (este es el que la mayora
de los programas produce por defecto, ya que la regla de Sturges, para este conjunto de datos
aproxima a 8 barras). Si consideramos ms barras por ejemplo 16, como tenemos en D, se refina
ms la informacin y empezamos a notar multimodalidad.

IV.

Grfica de dispersin plot().

Un diagrama de dispersin es un tipo de diagrama matemtico que utiliza las coordenadas


cartesianas para mostrar los valores de dos variables para un conjunto de datos.
Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que
determina la posicin en el eje horizontal y el valor de la otra variable determinado por la posicin
en el eje vertical.

Es tal vez el ms antiguo de los grficos multivariables. Est limitado a la presentacin de dos
variables, aunque se pueden realizar modificaciones de tal forma que nos permita incluir ms. En
R obtenemos este grfico mediante la funcin plot:

HERRAMIENTAS COMPUTACIONALES.
ALUMNOS:
Norma Anglica Trujillo Jurez
Fernando Luis Mrquez Portillo

MATRICULA: es1410915689
MATRICULA: es1410913422

V. Grfica de puntos - dotchart(), stripchart()


Un grfico de puntos o diagrama de puntos es una estadstica grfica que consta de puntos de
datos trazados en una escala bastante simple, utilizando habitualmente lleno en crculos. Hay dos
versiones comunes, sin embargo, muy diferentes, de la tabla de puntos.

VI. Grfica circular o pie chart - pie()


Los grficos de pastel (de sectores) son una forma fcil para visualizar la descomposicin en
porcentajes de un total. Son tiles para analizar encuestas, estadsticas y manejar dinero e
informacin. Y son una excelente muestra visual para explicar datos a otras personas, ya sea que
ests haciendo un proyecto escolar, una presentacin de trabajo o mostrando cifras de ventas
para tus clientes.

VII. Grfica de barras - barplot()


Un grfico de barras, tambin conocido como grfico de columnas, es una forma de representar
grficamente un conjunto de datos o valores, y est conformado por barras
rectangulares de longitudes proporcionales a los valores representados. Los grficos de barras son

HERRAMIENTAS COMPUTACIONALES.
ALUMNOS:
Norma Anglica Trujillo Jurez
MATRICULA: es1410915689
Fernando Luis Mrquez Portillo MATRICULA: es1410913422
usados para comparar dos o ms valores. Las barras pueden orientarse verticalmente u
horizontalmente.
Este diagrama de ejemplo est basado en los resultados de la Eleccin del Parlamento Europeo en
el 2004 y en el de 1999. La tabla siguiente lista el nmero de asientos asignadas a cada partido. Los
resultados de 1999 han sido multiplicados por 1.16933, para compensar el cambio en el nmero
de asientos entre estos aos.

VIII. Grfica de columnas de matrices - matplot()


Las matrices de dispersin proporcionan un mtodo simple de presentar las relaciones entre pares
de variables. Consiste en una matriz donde cada entrada presenta un grfico de dispersin
sencillo.
Grfica las columnas de una matriz contra las columnas de otra.
> x=matrix(1:9,3,3)
> y=matrix(10:18,3,3)
> matplot(x,y)

HERRAMIENTAS COMPUTACIONALES.
ALUMNOS:
Norma Anglica Trujillo Jurez
Fernando Luis Mrquez Portillo

MATRICULA: es1410915689
MATRICULA: es1410913422

IX. Grfica Quantil-Quantil - qqnorm(), qqplot()


En estadstica, un grfico Q-Q ("Q" viene de cuantil) es un mtodo grfico para el diagnstico de
diferencias entre la distribucin de probabilidad de una poblacin de la que se ha extrado
una muestra aleatoria y una distribucin usada para la comparacin. Una forma bsica de grfico
surge cuando la distribucin para la comparacin es una distribucin terica.

X. Adicin de elementos a las grficas - lines(), points(), abline()


<lines()
Esta funcin permite graficar segmentos de lneas rectas en un grfico previo

HERRAMIENTAS COMPUTACIONALES.
ALUMNOS:
Norma Anglica Trujillo Jurez
Fernando Luis Mrquez Portillo

MATRICULA: es1410915689
MATRICULA: es1410913422

points()
Es una funcin para dibujar una secuencia de puntos en las coordenadas especificadas.
Los puntos agregados estn en verde

Conclusin.
La presentacin de datos estadsticos por medio de grficos es considerada una tarea importante
en el proceso de comunicacin de los datos. El software R nos ayuda para que los datos
estadsticos, observaciones o funciones de una o ms variables, podamos elaborarlos con gran
calidad.

Referencias.
https://mariellalimn.wordpress.com/tag/representacion-grafica-en-estadistica-lenguaje-r/
http://es.wikipedia.org/wiki/Gr%C3%A1fica

HERRAMIENTAS COMPUTACIONALES.
ALUMNOS:
Norma Anglica Trujillo Jurez
MATRICULA: es1410915689
Fernando Luis Mrquez Portillo MATRICULA: es1410913422
http://www.estadisticaparatodos.es/taller/graficas/tallos_hojas.html
http://es.wikipedia.org/wiki/Diagrama_de_caja
http://en.wikipedia.org/wiki/Dot_plot_(statistics)
http://es.wikihow.com/hacer-un-grafico-circular-%28gr%C3%A1fico-de-pay%29
http://es.wikipedia.org/wiki/Diagrama_de_barras
http://es.wikipedia.org/wiki/Gr%C3%A1fico_Q-Q#Representaci.C3.B3n_gr.C3.A1fica
http://es.wikipedia.org/wiki/Histograma

Potrebbero piacerti anche