Sei sulla pagina 1di 8

11/5/2018

Robert F. Soruco
R es un lenguaje de programación
interpretado, de distribución libre, bajo
Licencia GNU, y se mantiene en un
ambiente para el cómputo estadístico y
gráfico.

 El sistema R esta dividido en dos partes conceptuales:  R cuenta con una muy buena ayuda en el uso de funciones

 1) El sistema base de R, que es el que puedes bajar de


CRAN3 ; y,
 2) en todo lo demás. La funcionalidad de R consta de
paquetes modulares.
 El sistema base de R contiene el paquete básico que se
requiere para su ejecución y la mayoría de las
funciones fundamentales. Los otros paquetes
contenidos en la “base” del sistema incluye a utils, stats,
datasets, graphics, grDevices, grid, tools, parallel,
compiler, splines, tcltk, stats4.

1
11/5/2018

 El uso de la función c() para crear vectores


Para esto se utiliza la función c() como se muestra a continuación.

La función c() sirve para concatenar varios elementos del mismo tipo.

2
11/5/2018

 Suponga un archivo tipo texto “IntVec.txt” que contiene enteros


 Suponga un archivo tipo texto “UnVec.txt” que contiene:

La función inversa, en este caso, de la función scan()

 permite generar un vector entero a partir de una secuencia  Identificando los tipos de datos
creciente o decreciente de enteros, cuyos extremos se indican,
tal como se muestra en seguida:

3
11/5/2018

x<-seq(-10,10)
> x [1] -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 [15] 4 5 6 7 8 9 10
> plot(x,x*x,xlim=c(-10,10),ylim=c(-2,10))

4
11/5/2018

 Empecemos con una muestra de resultados del


lanzamiento de un dado 25 veces, los resultados
obtenidos son:

 {1,2,5,3,6,4,2,1,2,4,1,5,3,2,4,1,6,2,3,1,6,2,4,2,1}.

 Utilizamos la función “table” para calcular la frecuencia


absoluta de cada valor de la variable.
 Para el cálculo de la frecuencia relativa dividimos table
entre la longitud del conjunto de datos (“length”).
 Para calcular el total de una variable utilizamos
“addmargins” y para calcular la frecuencia acumulada
utilizamos “cumsum”.

Robert F. Soruco

RobertSoruco@gmail.com

5
11/5/2018

 RODBC se puede usar para conectar con muchos tipos de base


 Hay varios paquetes que permiten conectar R a gestores de de datos. PostgreSQL MySQL, Microsft SQL Server, IBM DB2,
bases de datos, en la misma o en otra máquina diferente: son SQLite para nombrar los mas comunes.
RPgSQL (para PostgreSQL), ROracle (para Oracle), RMySQL
(para MySQL) y RODBC (para cualquier origen de datos
ODBC).
library(RODBC)
canal_bd <- odbcDriverConnect('driver={SQL Server};
server=mi_maquina;
database=mi_base_de_datos;
trusted_connection=true')
> install.packages("RSQLite") resultado <- sqlQuery(canal_bd, 'SELECT * FROM mi_bd')
> library(RODBC) odbcClose(canal_bd)
> canal1<-odbcConnectAccess("D:\\neptuno2")
> clientes<-sqlQuery(canal1,"select * from clientes")

RobertSoruco@gmail.com RobertSoruco@gmail.com

 DBI (Database Interface), una respuesta nativa a R para


funcionalidad similar a otros conectores, como el ODBC (de
Microsoft), JDBC (de Oracle), el DBI de Perl y el DB-API de
Python.
 Estos incluyen RMySQL (para MySQL y MariaDB), RPostgreSQL,
RSQlite y RSQLServer (para Microsoft SQL Server).

Esto requiere que el controlador esté


instalado por aparte
(install.packages("RSQLite")).
RobertSoruco@gmail.com RobertSoruco@gmail.com

6
11/5/2018

En el archivo “datos.txt”, se tiene el registro de 100 observaciones sobre Para ver la relación entre cada par de variables
la edad, peso y grasa en la sangre

>colesterol <- read.table("d:\\datos.txt", header = TRUE)

> names(colesterol)
[1] "peso" "edad" "grasas"

Para cuantificar el grado de relación lineal, calculamos la matriz de


coeficientes de correlación:

RobertSoruco@gmail.com RobertSoruco@gmail.com

El comando básico es lm (linear models).


El primer argumento de este comando es una fórmula y ~ x
en la que se especifica cuál es la variable respuesta o dependiente (\( y \))  Los parámetros de la ecuación de la recta de mínimos
y cuál es la variable independiente (\( x \)). cuadrados que relaciona la cantidad de grasas en la sangre en
El segundo argumento, llamado data especifica cuál es función del peso vienen dados por la columna ´Estimate´ de la
el fichero en el que se encuentran las variables. tabla ´Coefficients´ de la salida anterior

Y = 103,21 + 5,30X

RobertSoruco@gmail.com RobertSoruco@gmail.com

7
11/5/2018

 Nube de puntos (comando plot) con la recta de mínimos


cuadrados (comando abline aplicado al objeto generado por lm)  Para predecir la
cantidad de
> plot(colesterol$edad, colesterol$grasas, colesterol en
xlab = "Edad", ylab = "Grasas") individuo de 30 años,
> abline(regresion) usaremos la recta de
mínimos cuadrados.
Para esto se usa el
comando “predict”

RobertSoruco@gmail.com RobertSoruco@gmail.com

para un individuo de 30 años, predecimos


una cantidad de grasas de 262.48

RobertSoruco@gmail.com

Potrebbero piacerti anche