Aproximación práctica a la Ciencia de Datos y Big Data: heramientas KNIME, R, Hadoop y Mahout
Ciencia de Datos (Data Science) es el área emergente de trabajo relacionada con la preparación, análisis, visualización, gestión y mantenimiento de grandes colecciones de datos para la obtención de conocimiento que genere ventajas de negocio. Actualmente, en cualquier empresa la cantidad de datos almacenada crece continuamente, es heterogénea y no estructurada: proviene de los sistemas de información de la empresa, web, redes sociales, sensores, imágenes de satélite, GPS, datos financieros de mercado, etc. Se utiliza el término Big Data cuando el volumen, diversidad y complejidad de los datos requiere una nueva arquitectura y técnicas para gestionar, analizar y extraer valor y conocimiento oculto.
El objetivo del curso es formar al alumno en Ciencia de Datos y Big Data desde un punto de vista eminentemente práctico. Se estudiarán las herramientas de código abierto, KNIME, Hadoop y Mahout, y el lenguaje R junto con paquetes del repositorio CRAN para la visualización, análisis de datos y extracción de conocimiento con R. Se realizarán ejercicios prácticos aplicando las herramientas a bases de datos reales para extraer y visualizar información útil, tales como los problemas planteados en el repositorio de KAGGLE.
Con este curso se pretende contribuir a dar respuesta a la demanda actual y futura de profesionales formados en Ciencia de Datos y Big Data. Se estima que la conversión de datos en información útil generará un mercado de 132.000 millones de dólares en 2015 y que se crearán más de 4.4 millones de empleos a nivel mundial. España necesitará para 2015 más de 60.000 profesionales con formación en Ciencia de Datos y Big Data.
Documentación
Introducción
Bloque I: KNIME Descargar todo
- Introducción a KNIME
- Análisis predictivo con KNIME
- Análisis descriptivo con KNIME
- Resolución de casos prácticos con KNIME
- Material Adicional
Bloque II: Visualización y programación en R Descargar todo
- Introducción a R
- Visualización de datos con R
- Introducción al análisis reproducible con R
- Introducción a las series temporales con R
- Resolución de casos prácticos con R
- Material Adicional
Bloque III: Big Data Descargar todo
- Introducción a Big Data
- Entorno de procesamiento Hadoop
- Resolución de casos prácticos con Hadoop
- Biblioteca Mahout
- Resolución de casos prácticos con Mahout
Bloque IV: Experiencia práctica en Ciencia de Datos
- Experiencia práctica en Ciencia de Datos: La Competición de KAGGLE como plataforma para la adquisición de experiencia profesional