Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INTRODUCCIÓN A LA INFORMÁTICA
La Informática es el conjunto de conocimientos científicos y técnicas que hacen posible el
tratamiento automático de la información por medio de computadoras.
HISTORIA:
19th century Ada Lovelace (1815 – 1852)
20th century Alan Turing (1912 - 1954) 1940s - first generation of SW / US-ENIAC
1970s – Unix / IBM (Commercial SW) 1980s - Home Personal Computers ̶ Bill
Gates (Microsoft/Windows) ̶ Steve Jobs (Apple/Machintosh) 1990s – Linux (Open
Source SW), WWW (Internet), 2G mobile phones
21st century 2000s – 3G mobile phones, iPhone 2010s – 4G mobile phones,
Smartphones, Social Networks, Internet of Things, Big Data, Inteligencia Artificial
De los datos se obtiene información, y de estos, conocimiento. El big data es una colección de
datos inmanejable a través de las herramientas de gestión y procesamiento tradicionales. Su
Volumen, Diversidad y Complejidad requiere el desarrollo de una nueva arquitectura de
procesamiento, algoritmos y técnicas de visualización y análisis. Consta de las ocho uves:
Validez.
Volumen.
Volatibilidad.
Veracidad.
Variedad.
Variabilidad.
Velocidad.
Valor.
INTERNET es la red de redes y consta de protocolos, estándares, enlaces y RedIRIS (proveedor
para universidades y centros educativos). Primero, solo constaba de ARPAnet; posteriormente,
era una interconexión de redes; después, hubo una proliferación de redes y, finalmente, se
produjo su comercialización. La comunicación mediante internet se realiza mediante 5 pasos:
1. Aplicación (mensajes o flujos continuos).
2. Transporte (segmentos).
3. Interred (datagramas IP).
4. Subred (tramas de subred).
5. Físico.
APRENDIZAJE AUTOMÁTICO:
Es el área de la AI que diseña algoritmos capaces de generalizar comportamientos y reconocer
patrones a partir de ejemplos. Se basa en la inducción y siempre hay un grado de error puesto
que la generalización no es siempre perfecta. Se usa, por ejemplo, etiquetado automático de
fotografías.
Aborda problemas como la clasificación (binaria o multiclase), prediciendo la clasificación de
objetos sobre un conjunto de clases prefijadas.
Hay varios tipos de algoritmos de aprendizaje automático, siendo los más importantes el
supervisado y el no supervisado.
NO SUPERVISADO: se basa en el agrupamiento. Soluciona los problemas mediante la
regresión, el ranking. Un ejemplo sería el árbol de decisión, formado por ndoos-
respuesta y nodos-decisión. El aprendizaje automático consta de un entrenamiento y
un test; y se evalúa con medidas de error en estos pasos.
TECNOLOGÍAS DE BÚSQUEDA:
LA WEB:
En cualquier link de una página web, podemos encontrar cuatro partes:
Protocolo: http/https
Servidor: en.wikipedia.org
Ruta al recurso: wiki/South_Wales
Fragmento en la página web: History
En cualquier comunicación, hay un cliente que solicita y un servidor que responde.
Todos los ordenadores en Internet tienen una dirección IP, que identifica a cada máquina y
permite que los mensajes lleguen a su destino.
En el enrutamiento, el mensaje va dando saltos hasta llegar a sud estino, similar a las cartas
por correo ordinario: Buzón – Sucursal Local – Avión – Destinatario.
RECUPERACIÓN DE INFORMACIÓN:
RI es encontrar material (usualmente docs) de naturaleza no estructurada (usualmente texto)
que satisfaga una necesidad de información en grandes colecciones almacenadas en
computadoras. Esta información puede ser no estructurada, semi-estructurada o indexado.
Además hay consultas libres y ranking por relevancia.
Por otro lado, la recuperación de datos es estructurada o mediante indexación por campos,
con un lenguaje de consulta cerrado y sin ranking.
La RI se aplica para búsqueda de anuncios, expertos, multimedia, emails...
LA WEB Y SEARCH ENGINES:
En la web existen motores de busqueda tipo Google, caracterizados por:
Dinamismo.
Duplicidad.
Autoridad/credibilidad.
Análisis y texto de los enlaces.
Su historia podría datarse desde 1990 con Archie Query Form hasta 2009 con Bing.
COMPONENTES BÁSICOS DE UN SISTEMA DE RI:
RASTREO:
Su modo de operación se caracteriza por:
1. Iniciar conj. De páginas semillas.
2. Tomar URL, recuperar y parsear la página, extraer URls de la página y añadir URLs
a la cola.
Sus retos serían la escalabilidad, páginas spam, spider traps, duplicidad, ratio de revisita
variable…
INDEXADO:
Es fundamental para hacer la información accesible. Puede ser manual (un humano asigna
términos de indexación por una terminología y hay poca escalabilidad) o automática (realizado
por ordenadores usualmente a full-text; usado para ponderación de términos, análisis de
enlaces, o recopilación de información).
Para indexar hay un proceso de preprocesamiento de la información, obtener el contexto, y
procesar el lenguaje natural (necesaria alta precisión).
BÚSQUEDA:
Se puede realizar mediante el emparejamiento exacto, donde hay dificultad de comprensión
de las conectivas booleanas, es difícil controlar el tamaño del conjunto de salida y hay
estimación binaria de la relevancia.
En el ranking hay consulta en lenguaje natural libre, ponderación de términos y funciones de
ranking como modelos probabilísticos.
Un ejemplo sería Page Rank, donde hay un sistema democrático de la votación y es una
medida objetiva de la importancia.
Para mejorar la búsqueda es necesario una realimentación de relevancia y una selección de
términos y expansión de consultas.
En el agrupamiento, hay grupos no predefinidos y se descubren las clases de ejemplos.
En el filtrado, hay un flujo de docs y un perfil de interés; además, se realiza de forma
adaptativa.
En la generación automática de resúmenes, hay unos grados de reducción, informativos y
bien formados, que está orientado a consulta.
RETOS:
Para ver los retos que hay que afrontar, veremos los temas comunes:
Buscar modos de crear colas, modelos de interacción…
Ayudar a usuarios para llevar información a gente inexperta, analfabeta o
discapacitada.
Incorporar lo que pasa alrededor del usuario para afectar en el resultado de la cola.
Llevar la RI a tipos complejos de datos con resultados más complejos.
Considerar información que no es sólo texto y que no ha sido explorada a fondo por
RI.
Temas que requieren evaluación en el contexto de retos nuevos.