Sei sulla pagina 1di 10

UNIVERSIDAD POLITECNICA DE EL SALVADOR

FACULTAD DE INGENIERIA Y ARQUITECTURA

ESCUELA DE INGENIERIA EN CIENCIAS DE LA COMPUTACION FORMACION BASADA EN COMPETENCIAS R PARA ESTADISTICA

FORMACION BASADA EN COMPETENCIAS R PARA ESTADISTICA Guía Práctica de Aprendizaje No 1 “Instrucción al uso
Guía Práctica de Aprendizaje No 1 “Instrucción al uso de R, primeros comandos para análisis
Guía Práctica de Aprendizaje No 1
“Instrucción al uso de R, primeros comandos para análisis de
series simples”
Tema de referencia: Introducción a los conceptos estadísticos: población, muestra variables Discretas y continuas,
Tema de referencia: Introducción a los conceptos estadísticos: población, muestra
variables Discretas y continuas, series simples y agrupadas en clases y frecuencias.
Competencias a formar: a) Interpreta la información obtenida de una serie simple b) Emite criterios
Competencias a formar: a) Interpreta la información obtenida de una serie simple
b) Emite criterios personales frente a la información obtenida de una serie simple.
MISION DE LA UNIVERSIDAD FORMAR PROFESIONALES COM ALTO SENTIDO CRITICO Y ETICO CON CAPACIDAD DE
MISION DE LA UNIVERSIDAD
FORMAR PROFESIONALES COM ALTO SENTIDO CRITICO Y ETICO CON
CAPACIDAD DE AUTOFORMACIÓN Y APTOS PARA RESOLVER
PROBLEMAS MEDIANTE SOLUCIONES TÉCNICO CIENTIFICA Y
ADECUADAS AL CONTEXTO SOCIAL

1. INTRODUCCIÓN

R es un sistema para análisis estadísticos y gráficos creado por Ross Ihaka y Robert Gentleman. R tiene una naturaleza doble de programa y lenguaje de programación y es considerado como un dialecto del lenguaje S creado por los Laboratorios AT&T Bell.R se distribuye gratuitamente bajo los

términos de la GNU General Public Licence; su desarrollo y distribución son llevados a cabo por varios estadísticos conocidos como el Grupo Nuclear de Desarrollo de R. R está disponible en varias formas: el código fuente está escrito principalmente en C (y algunas rutinas en Fortran), esencialmente para máquinas Unix y Linux, o como archivos binarios precompilados para Windows, Linux (Debian, Mandrake, RedHat, SuSe), Macintosh y Alpha Unix. Los archivos necesarios para instalar R, ya sea desde las fuentes o binarios precompilados, se distribuyen desde el sitio de internet Comprehensive R Archive Network (CRAN) junto con las instrucciones de instalación. Para las diferentes

), los binarios están disponibles generalmente para las

distribuciones de Linux (Debian,

versiones más actualizadas de éstas y de R; visite el sitio CRAN si es necesario. R posee muchas funciones para análisis estadísticos y gráficos; estos últimos pueden ser visualizados de manera inmediata en su propia ventana y ser guardados en varios formatos (jpg, png, bmp, ps, pdf, emf,

pictex, xfig; los formatos disponibles dependen del sistema operativo). Los resultados de análisis estadísticos se muestran en la pantalla, y algunos resultados intermedios (como valores P-,

coeficientes de regresión, residuales,

se pueden guardar, exportar a un archivo, o ser utilizados

en análisis posteriores. El lenguaje R permite al usuario, por ejemplo, programar bucles («loops» en inglés) para analizar conjuntos sucesivos de datos. También es posible combinar en un solo programa diferentes funciones estadísticas para realizar análisis más complejos. Usuarios de R tienen a su disponibilidad un gran número de programas escritos para S y disponibles.

un gran número de programas escritos para S y disponibles. ) 2. OBJETIVO GENERAL. El objetivo

)

2. OBJETIVO GENERAL.

El objetivo de esta práctica es iniciar a los alumnos en el uso del

R. así como adquirir soltura con el manejo de los comandos de R.

lenguaje de

programación

3. OBJETIVO DE RENDIMEINTO.

Utilizar R para llevar a cabo la descripción de un conjunto de datos así como hacer conjeturas sobre una o vararías poblaciones.

4. MARCO TEORICO.

Concepto de Estadística de Estadística Descriptiva e Inferencia Estadística.

La estadística actual se puede definir de muchas formas, por ejemplo “conjunto de métodos que permiten recolectar presentar y analizar información” o “análisis científico de datos basados en fenómenos naturales” (Sokal & Rholf, 1969). Sin embargo una definición útil en el contexto de su aplicación en las ciencias es:

La Estadística: Es una ciencia que estudia las características de un conjunto de casos para hallar en ellos regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar predicciones.

La Estadística: Tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la toma de decisiones.

La

estadística

tiene

desarrollo histórico:

aspectos

claramente

diferentes

que

se

correlacionan

con

el

I) Estadística Descriptiva: cuyo fin es describir datos.

II) Estadística Matemática: que constituye la base teórica de toda la estadística.

III) Inferencia Estadística: que tiene dos sub-capítulos con objetivos diferentes:

a) Estimación: cuyo fin es aproximar el valor de ciertos parámetros

b) Docimasia o prueba de Hipótesis: cuyo objetivo es probar hipótesis.

Población: Es el conjunto total de individuos, objetos o medidas que poseen algunas características comunes observables en un lugar y en un momento determinado. Cuando se vaya a llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales al seleccionarse la población bajo estudio. Entre éstas tenemos:

Homogeneidad - Que todos los miembros de la población tengan las mismas características según las variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si se fuera a investigar la incidencia de la drogadicción entre jóvenes mujeres adolescentes, entonces hay que definir claramente las edades que comprenden la adolescencia y cuando se seleccione la población asegurarse de que todas las personas entrevistadas sean de la edad determinada y del sexo femenino. (La adolescencia se define operacionalmente como el periodo comprendido de edad que fluctúa entre 12 y 21 años.)

Muestra - la muestra es un subconjunto fielmente representativo de la población. Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán representativo se quiera sea el estudio de la población.

Aleatoria: Cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser incluido.

Estratificada: cuando se subdivide en estratos o subgrupos según las variables o características que se pretenden investigar. Cada estrato debe corresponder proporcionalmente a la población.

Sistemática:

Cuando se establece un patrón o criterio al seleccionar la muestra.

Datos Discretos o Continuos

Cuando se trabaja en una muestra de cierta población la información recolectada puede ser catalogada de dos maneras: Datos Cualitativos y Cuantitativos. Los primeros se refieren a categorías o atributos que pueden clasificarse según un criterio o cualidad. Ejemplo: Sexo, Color de Auto, Tipo de Sangre, Estado civil, categoría de un profesor, etc. Los segundos se refieren a información numérica, como cuanto o cuantos. Ejemplo: Masa, estatura, Presión Sanguínea, duración de un espécimen, etc.

Algunos datos numéricos pueden ser clasificados como cuantitativos o cualitativos según su uso. Por ejemplo, la estatura de una persona se mide en centímetros, pies, metros y es entonces una medida cuantitativa. Pero si se mide como Bajo, Medio y Alto, se convierte en una medida cualitativa.

Los datos cuantitativos pueden ser clasificados como Discretos y Continuos.

Los datos Discretos están relacionados principalmente con conteos, Los datos Continuos se obtienen principalmente de mediciones. En el primer caso los resultados conforman un conjunto discreto (finito o numerable), en el segundo caso el conjunto de posibles resultados está conformado por un intervalo real.

Escalas de Medición

Llamaremos medición al proceso de atribuir números a las variables. El conjunto de reglas o modelos desarrollados para la asignación de números a las variables es lo que se denomina escala. La clasificación de las escalas más usada es la propuesta por Stevens (1946) que divide las escalas en: nominales, ordinales, de intervalo y de razón.

Escala nominal: nos permite identificar sujetos como "iguales" o "diferentes". Usando una escala nominal podemos decidir si un sujeto es igual o diferente a otro, pero no podemos establecer relaciones de orden respecto a esa característica, ni relaciones de cantidad ni de diferencia. Por ejemplo: si medimos el color de los ojos podemos establecer la siguiente escala:

A- azul, V - verde, M - marrón y N- negro. No podemos ordenar los sujetos de mayor a menor o viceversa, simplemente podemos asegurar si dos sujetos tienen el mismo o distinto color de ojos. Otros ejemplos: nacionalidad, sexo, profesión. A este tipo de variables medidas con escala nominal se les puede asignar a cada categoría cualquier tipo de símbolos. En el ejemplo hemos asignado letras pero podíamos haber optado por números: 1- azul, 2 - verde, 3 - marrón y 4 - negro.

Escala ordinal: Esta escala no sólo permite la identificación y diferenciación de los sujetos sino que además permite establecer relaciones del tipo "mayor que" o "menor que". Es decir, de los sujetos se puede decir cual presenta una mayor o menor magnitud de la característica medida, los objetos se pueden ordenar. Ejemplo: nivel de estudios se puede asignar 1 a estudios primarios, 2 a estudios secundarios, 3 a estudios universitarios. Podemos ordenar a los sujetos según el nivel de estudios, el valor 3 es mayor que el 2 y el 1. Aunque no podemos afirmar que la diferencia existente entre el 2 y el 1 sea la misma que la que existe entre el 3 y el 2. Ni que el que tenga nivel 3 tenga 3 veces más de nivel de estudios que el que tiene nivel 1. Otros ejemplos de escala ordinal: posición relativa en la clase, escala de dureza de los minerales.

Escala de intervalo: Con esta escala, además de poder identificar un objeto y establecer relaciones del tipo mayor que y menor que, también podemos hacer afirmaciones acerca de las diferencias en la cantidad del atributo de unos y otros objetos. Es decir, disponemos de una unidad de medida, aunque en este caso el cero sea un punto arbitrario en la escala. Es decir, no indica ausencia total de la cantidad de atributo. Un ejemplo típico es el calendario, podemos afirmar que ha transcurrido el mismo tiempo entre 1960 y 1966 que entre 1980 y 1986 porque contamos con una unidad de medida llamada año. Pero no podemos afirmar que hasta el año 1000 haya pasado el doble de tiempo que hasta el año 500, porque el valor cero no representa el comienzo del tiempo sino que, en nuestro calendario se eligió el año del nacimiento de Cristo como año 1. Otros ejemplos: la medición de las temperaturas en grados Celcius la escala de los test de inteligencia.

Escala de razón: También se llama de proporción o de cociente. Además de las características de las otras tres escalas, contamos con una unidad de medida con cero absoluto, es decir, que significa ausencia del atributo o característica medida. Por ejemplo, la longitud, podemos afirmar que un objeto que mide 10 cm. tiene el doble de longitud que uno que mide 5 cm. Otros ejemplos: peso, duración de un suceso, temperatura en grados Kelvin (que sí tiene cero absoluto).

5. FUENTES DE INFORMACION

Tanto el programa como manuales están disponibles en la dirección

6. MATERIAL Y EQUIPO A UTILIZAR

EDstica%20con%20R.pdf 6. MATERIAL Y EQUIPO A UTILIZAR Computadora Personal. Guía de Practica de laboratorio. 7.

Computadora Personal. Guía de Practica de laboratorio.

7. DESCRIPCION E INDICACIONES PARA LA PRÁCTICA

¿Como abrimos R?

Inicio

de Practica de laboratorio. 7. DESCRIPCION E INDICACIONES PARA LA PRÁCTICA ¿Como abrimos R? Inicio Programas

Programas

de Practica de laboratorio. 7. DESCRIPCION E INDICACIONES PARA LA PRÁCTICA ¿Como abrimos R? Inicio Programas

R

de Practica de laboratorio. 7. DESCRIPCION E INDICACIONES PARA LA PRÁCTICA ¿Como abrimos R? Inicio Programas

R 2.1.1

¿Cómo introducimos datos? Para introducir una serie simple lo hacemos con el siguiente comando Por

¿Cómo introducimos datos?

Para introducir una serie simple lo hacemos con el siguiente comando

Por ejemplo

En un curso de 40 alumnos, se desea estudiar el comportamiento de la variable estatura, registrándose los siguientes valores:

1,52

1,64

1,54

1,64

1,73

1,55

1,56

1,57

1,58

1,58

1,59

1,53

1,60

1,60

1,61

1,61

1,65

1,63

1,79

1,63

1,62

1,60

1,64

1,54

1,65

1,62

1,66

1,76

1,70

1,69

1,71

1,72

1,72

1,55

1,73

1,73

1,75

1,67

1,78

1,63

Lo Introducimos en R de la siguientes manera:

x<-c(1.52,1.64,1.54,1.64,1.73,1.55,1.56,1.57,1.58,1.58,1.59,1.53,1.60,1.60,1.61,

1.61,1.65,1.63,1.79,1.63,1.62,1.60,1.64,1.54,1.65,1.62,1.66,1.76,1.70,1.69,1.71,

1.72,1.72,1.55,1.73,1.73,1.75,1.67,1.78,1.63)

, 1.54 , 1.65 , 1.62 , 1.66 , 1.76 , 1.70 , 1.69 , 1.71,

Veamos algunos comandos

1) sum(x)

Suma de los elementos de x

sum(x)=65.62

2) prod(x)

Producto de los elementos de x

prod(x)= 382168273

3) max(x)

Valor máximo en el objeto x

max(x)=1.79

4) min(x)

Valor mínimo en el objeto x

Min(x)=1.59

5) sort(x)

Ordena los elementos de x en orden ascendente

sort(x)

1.52

1.53 1.54 1.54 1.55 1.55 1.56 1.57 1.58 1.58 1.59 1.60 1.60 1.60 1.61

1.61

1.62 1.62 1.63 1.63 1.63 1.64 1.64 1.64 1.65 1.65 1.66 1.67 1.69 1.70

1.71

1.72 1.72 1.73 1.73 1.73 1.75 1.76 1.78 1.79

6) rev(sort(x))

Ordena los elementos de x en orden descendente

rev(sort(x))

1.79

1.78 1.76 1.75 1.73 1.73 1.73 1.72 1.72 1.71 1.70 1.69 1.67 1.66 1.65

1.65

1.64 1.64 1.64 1.63 1.63 1.63 1.62 1.62 1.61 1.61 1.60 1.60 1.60 1.59

1.58

1.58 1.57 1.56 1.55 1.55 1.54 1.54 1.53 1.52

Como vamos hasta acá muy fácil verdad!!! Veamos otros comandos 7) which.max(x) which.max(x)= 19 Ojo.

Como vamos hasta acá muy fácil verdad!!!

Veamos otros comandos

vamos hasta acá muy fácil verdad!!! Veamos otros comandos 7) which.max(x) which.max(x)= 19 Ojo. D evuelve

7) which.max(x)

which.max(x)= 19

Ojo.

Devuelve el índice del elemento máximo de x

Si vemos la serie simple inicial sin ordenar y buscamos la posición 19 veremos que esta justamente el máximo de la serie el cual ya calculamos con el comando max(x) que era justamente 1.79

8) which.min(x)

which.min(x)= 1

9) range(x)

Range(x)= 1.52 1.79

Devuelve el índice del elemento mínimo de x

Rango de x o c(min(x), max(x))

Básicamente nos da el intervalo de la serie simple.

10) length(x)

Número de elementos en x

Length(x)=40

40 es el número de datos de la serie

11) round(x, n)

Redondea los elementos de x a n cifras decimales

Round(x,1)

1.5

1.6 1.5 1.6 1.7 1.6 1.6 1.6 1.6 1.6 1.6 1.5 1.6 1.6 1.6 1.6 1.6 1.6 1.8

1.6

1.6 1.6 1.6 1.5 1.6 1.6 1.7 1.8 1.7 1.7 1.7 1.7 1.7 1.6 1.7 1.7 1.8 1.7

1.8

1.6

8. DESARROLLO DE LA PRACTICA

1.7 1.7 1.8 1.7 1.8 1.6 8. DESARROLLO DE LA PRACTICA Practiquemos ahora lo expuesto obteniendo

Practiquemos ahora lo expuesto obteniendo la información de la siguiente serie de datos

60.2121, 43.3534, 51.2123, 46.6133, 32.5674, 41.8234, 45.9756, 60.6424, 32.3234, 31.7411, 39.4323, 41.2312, 60.2545, 49.0234, 40.5552, 58.3867, 42.7435, 61.4345, 26.1202, 53.3121, 58.7656, 46.4234, 39.1232, 63.9222, 51.5756, 53.3423, 41.3426, 54.1119, 55.4342, 60.5452, 47.6563, 39.7768, 46.8544, 64.7864, 57.6565, 39.6651, 39.0901, 44.53458, 65.3453, 69.5457, 50.4090, 54.2009, 39.4423, 46.656, 55.8564, 53.6345, 61.8432, 44.3654, 48.554, 53.9434, 61.4434, 38.1423, 47.8323

Se solicita

1) Ordenar los datos en forma ascendente y descendente 2) Calcular el máximo y el mínimo de la serie 3) Determinar el rango de la serie 4) Observar cual es el datos que mas se repite por simple inspección 5) Determinar la suma de los datos de la serie 6) Identificar el producto de todos los elementos de la serie 7) Redondear la serie a dos desimantes y repetir desde 1 hasta 5

9. CUESTIONARIO

Trabajo Práctico Utilizando R

Estas son las notas obtenidas por los 100 candidatos que se presentaron a un concurso:

3.8

5.1

3.2

6.5

2.5

2.8

3.4

1.2

2.9

4.3

7.1

6.2

5.0

3.7

8.0

2.4

1.9

4.7

8.1

5.3

1.6

6.2

5.0

3.7

4.0

1.7

7.5

9.4

6.0

2.5

5.5

3.8

4.6

1.6

7.2

6.4

6.1

3.3

5.9

2.1

1.3

9.2

3.7

4.3

5.8

5.2

8.8

2.7

7.4

6.6

6.3

2.8

3.6

1.9

5.6

8.4

3.8

6.0

4.2

5.0

9.8

5.1

6.2

3.0

1.7

4.3

4.7

5.4

5.8

2.6

1.2

4.2

3.4

6.8

7.7

4.5

6.0

3.1

7.2

2.3

1.8

2.2

7.0

3.4

5.0

5.9

2.0

6.8

5.5

4.9

3.3

5.2

1.4

4.0

3.8

5.4

5.0

1.1

4.1

7.6

a) ¿Cuál es la nota mínima?

b) ¿Cual es la nota máxima?

c) Ordenar las notas de mayor a menor

d) ¿Cuál es el rango de estas notas?

e) ¿Cuál es el valor de la suma de esta serie de datos?

f) Investigar un comando en R que me permita saber la nota que deja el 25% de la serie por debajo de ella.

g) Investigar un comando en R que me permita saber la nota que deja el 50% de la serie por debajo de ella.

h) Investigar un comando que me calcule en R la media de dicha serie simple.

Fecha de entrega: Próximo laboratorio