Data Science Course 1

DATA SCIENCE COURSE
- Jupyter Notebook
o Sitio web que funciona con JSON en donde se practica programación en diferentes
lenguajes en una máquina virtual.
 https://jupyter.org/
o According to Dr. White, his students, who are mostly aspiring data scientists,
need to learn many tools such as Python, UNIX commands, pandas, and
Jupyter notebook.
 https://pandas.pydata.org/
Python Data Analysis Library
 pandas is an open source, BSD-licensed library providing high-

performance, easy-to-use data structures and data analysis tools
for the Python programming language.
NORMAN WHITE (Clinical professor of IOMS at New York University) Big Data definition:
- Datos suficientemente largos que tengan el suficiente volumen y velocidad que no puedan
ser manejados y analizados con los sistemas de base de datos tradicionales.
o Para el profesor inició con Google, cuando la empresa comenzó a tratar de
descifrar su algoritmo de como rankear sus páginas.
¿QUÉ ES HADOOP?
¿CÓMO FUNCIONA HADOOP?
- Lo que se innovó con Google fue la capacidad de poder dividir en pedazos pequeños un
archivo o una gran cantidad de datos, para procesarlos de forma separada en cientos y
ahora miles de computadoras, lo que se conoce como ‘map’ o ‘mapper process’; después
de procesar los pedazos del archivo, se reúne de nuevo y reduce el contenido.
¿QUÉ HACE DIFERENTE A LA CIENCIA DE DATOS DE LOS TEMAS TRADICIONALES COMO LA

ESTADÍSTICA?
- Alrededor de la ciencia de datos giran temas que tienen mucho tiempo de uso, como la
estadística y probabilidad, algebra lineal y matricial y bases de datos, pero aplicados todos
en un conjunto, sumando la tecnología de la computación, hace diferencia con las técnicas
tradicionales en relación a las nuevas técnicas y algoritmos para logros potenciales.
CLASES DE TECLEADO
https://www.typingclub.com/
LECTURA
COURSE TEXTBOOK ‘Getting Started with Data Science’

Estabishing Data Mining Goals
Es necesario establecer los objetivos que se quieren lograr con el análisis de datos, por ello es
imprescindible realizarse las preguntas correctas. Si el dinero se tuviera ilimitado, podría
derrocharse en infinidad de preguntas y objetivos, pero aquí es necesario tener en cuenta el ‘costo
– beneficio’ y medir las ganancias de dichos objetivos.
La calidad del análisis depende profundamente de la calidad de los datos.
Selecting Data
Identificar los tipos de datos requeridos y las fuentes de donde sacar dichos datos podría parecer
algo vano, pero hay información que no existe o no podemos conseguir, por lo que necesitamos
crear un plan de recolección de datos, así que debemos considerarlos en el costo del análisis.
Processing Data
El análisis de los datos es un paso importante (lo menciona en el texto pero creo que es gracioso
por ser demasiado obvio y por eso lo escribo), considerando los muchos errores que pueda tener
una base de datos. Así mismo es necesario identificar los errores, poder sorteralos, considerar el
vacío del proceso sistematizado y medir los errores resultantes.
Transforming Data
Es necesario determinar el formato apropiado como se almacenaran los datos. Por ejemplo, el
almacenar ‘datos personales de renta’ con todas sus propiedades, es diferente a almacenar datos
de ingreso con todas sus propiedades. Los tipos de datos, variables utilizadas y nivel de importancia
de los datos pueden ser diferentes en cada caso.
Algoritmo de reducción de datos: Principal Component Analysis
Stroring Data
Al transformar y almacenar los datos, surgen nuevos datos, variables y estructuras para enriquecer
la base de datos y agilizar la consulta, las modificaciones y el análisis.
Mining Data
Después de procesar, almacenar y transformar los datos, viene el ‘Data Mining’. Este paso incluye
los métodos de análisis (paramétricos y no paramétricos) y los algoritmos de machine-learning.
Un buen punto de inicio del Data Mining es la visualización de los datos. Múltiples puntos de vista
usando diferentes programas de visualización de datos puede ayudar para entender las
correlaciones escondidas en los datos.
Evaluating Mining Results
Hacer una evaluación formal de los resultados. Por ejemplo: ¿qué tan efectivo y eficiente es un
algoritmo para procesar los datos? (in-sample forecast), compartir los resultados con los
stakeholder o partes interesadas para la retroalimentación.
El análisis de datos y la evaluación de resultados resulta de un proceso iterativo para aumentar los
resultados generados a la luz de la retroalimentación.
Neural Networks and Deep Learning
¿WHAT IS A NEURAL NETWORK?
- Un algoritmo que tiene entradas, diferentes nodos de procesos que transforman las
entradas, agregan nuevas y, después de varios niveles, generan salidas.
¿CÓMO TRABAJAN LAS REDES NEURONALES?
- Tratan de imitar mímicamente cómo funcionan las complejas redes neuronales cerebrales
reales.
- DEEP LEARNING es el uso de métodos de Redes Neuronales “con esteroides”, utilizados
con más niveles y más procesos, con apoyo de las tecnologías computacionales. Se utilizan
cientos de procesadores para asimilar el conjunto de datos.
- Se utiliza para procesamiento de imágenes (reconocimiento visual y dígitos, clasificación de
imágenes, p. ej.), análisis de texto (generación de texto, p. ej.),
¿CÓMO SE PUEDE INICIAR A UTILIZAR LAS REDES NEURONALES?
- Iniciar aprendiendo álgebra lineal,
¿PARA INICIAR COMO DATA SCIENTIST?
- Estadística, distribuciones estadísticas, probabilidad, álgebra, base de datos, todas estas

cosas. Si la intención es entrar dentro de un equipo de científicos de datos, lo necesario es,
por lo menos, saber programar y conocer como ‘piensa’ la computadora y alguna otra área
anterior.
- Self-Learning: persona autodidacta.
WHAT ARE SOME APPLICATIONS OF MACHINE LEARNING?
- Clasificación de contenido
- Análisis de clusters
- Resolución de problemas de mercado
- Market Basket Analysis/Análisis de afinidad/Análisis de cesta de compra: técnica de
modelado basada en la teoría de que si tu compras un cierto grupo de artículos, tu estas
más (o menos) cercano a tomar la decisión de comprar otro grupo de artículos.
o El análisis de afinidad es una técnica de análisis de datos y minería de datos que
descubre relaciones co-ocurrentes entre actividades hechas por individuos,
grupos, o en general un objeto identificador en un contexto de ciencia
computacional. Wikipedia
- Árbol de decisiones (https://www.lucidchart.com/pages/es/que-es-un-diagrama-de-arbol-
de-decision)
- Análisis Bayesianos
- Análisis ingenuo (naive) de Bayes
- Análisis predictivo
o No es necesario saber exactamente como funcionan, pero si es necesario saber
qué significan
DO YOU THINK THAT REFRIGRERATORS AND KETTLES WILL BE TALKING SOON?
- Todos los dispositivos en casa conectados a la red pueden generar datos (termostato,
cámara, refrigeradores, etc.)
WHAT IS THE NEW APPLICATION OF THE ‘INTERNET OF THINGS’?
- Peer to Peer networks

- ZigBee (dispositivo utilizado para comunicar los dispositivos en casa y su batería puede
durar hasta dos años; puede utilizarse para generar redes de trabajo en espacios
pequeños como edificios o conjunto de oficinas)
CHAPTER 7 – WHY TALL PARENTS DON’T HAVE EVEN TALLER CHILDREN
LECTURA
THE REPORT STRUCTURE
- La estructura del reporte depende de la cantidad de información que se agregará al

documento, puede ir desde pocas páginas hasta más de 100 páginas.
o Un reporte breve presenta un resumen de los descubrimientos clave
o Un reporte amplio presenta detalles relevantes del trabajo, métodos de
investigación, fuentes de información, descubrimientos intermedios con los
resultados principales.
o Es necesario realizar un borrador (draft)
- La estructura y la amplitud del documento depende del propósito del documento
o Reportes breves: atraer la atención del público
o Reportes detallados: revisión crítica del tema con comentarios y análisis extensos
- Formato ‘estándar’: portada (cover page), tabla de contenidos (índice), resumen (abstract,
executive summary), contenidos detallados, agradecimientos, referencias, y apéndices o
anexos (si es que se necesitan).
o Aplenty: abundancia
o Gap: brecha

Data Science Course 1

Caricato da

Informazioni sul documento

Descrizione originale:

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Data Science Course 1

Caricato da

Copyright:

Formati disponibili

DATA SCIENCE COURSE

Python Data Analysis Library

 pandas is an open source, BSD-licensed library providing high-

¿CÓMO FUNCIONA HADOOP?

¿QUÉ HACE DIFERENTE A LA CIENCIA DE DATOS DE LOS TEMAS TRADICIONALES COMO LA

COURSE TEXTBOOK ‘Getting Started with Data Science’

La calidad del análisis depende profundamente de la calidad de los datos.

Algoritmo de reducción de datos: Principal Component Analysis

Evaluating Mining Results

Neural Networks and Deep Learning

¿WHAT IS A NEURAL NETWORK?

¿CÓMO TRABAJAN LAS REDES NEURONALES?

¿CÓMO SE PUEDE INICIAR A UTILIZAR LAS REDES NEURONALES?

- Iniciar aprendiendo álgebra lineal,

¿PARA INICIAR COMO DATA SCIENTIST?

- Estadística, distribuciones estadísticas, probabilidad, álgebra, base de datos, todas estas

WHAT ARE SOME APPLICATIONS OF MACHINE LEARNING?

DO YOU THINK THAT REFRIGRERATORS AND KETTLES WILL BE TALKING SOON?

WHAT IS THE NEW APPLICATION OF THE ‘INTERNET OF THINGS’?

- Peer to Peer networks

CHAPTER 7 – WHY TALL PARENTS DON’T HAVE EVEN TALLER CHILDREN

THE REPORT STRUCTURE

- La estructura del reporte depende de la cantidad de información que se agregará al

Potrebbero piacerti anche