Diplomado en Big Data y Data Science

Dirigido a profesionales del área informática o afín que requieran utilizar herramientas computacionales y estadísticas para procesar y analizar grandes volúmenes de datos.

Objetivos


Contenidos

Módulo 1: Datos como fuente de valor

a) Introducción y contexto

               i. Sociedad de la Información y calidad de vida  

               ii. La nueva era de la máquina

               iii. Desafíos

b) Generación de soluciones basadas en datos

               i. De problemas de negocios a tareas de minería de datos

               ii. El proceso de análisis de datos

               iii. Procesos ágiles de análisis de datos

c) Aspectos sociales del Big Data

               i. Privacidad

               ii. Ética

               iii. Seguridad

d) Modelos de Negocios Basados en Datos

               i. Conceptos generales

               ii. Propuestas de valor

               iii. Frameworks de Modelos de Negocios Basados en Datos

Módulo 2: Big Data

a) Introducción

i. Procesamiento de grandes volúmenes de datos.
ii. Modelos distribuidos de procesamiento de datos.
iii. Proveedores de servicio: cloud, hosting, ecosistemas.

b) El ecosistema Hadoop. 

i. Distribución de datos (HDFS), tolerancia a fallas y balance de carga.
ii. MapReduce.
iii. Pig, Hive.
iv. Spark.

c) Procesamiento de Flujos de Datos

i. Arquitectura.
ii. Procesamiento distribuido de flujos de datos. Spark.
iii. Streaming estructurado.

Módulo 3: Data Science

a) Análisis de Datos

i. Estadística Descriptiva e Inferencia
ii. Análisis exploratorio de datos
iii. Identificación de relaciones entre variables
iv. Técnicas de Análisis Cuantitativo
v. Visualización de datos 

b) Reconocimiento de Patrones y Machine Learning

i. Aprendiendo de los datos
ii. Clasificación, Predicción y Agrupamiento
iii. Modelos Lineales
iv. Árboles de Clasificación
v. Redes Neuronales Artificiales
vi. Máquinas de Soporte Vectorial
vii. Algoritmo de K-medias

c) Machine Learning para Big Data

i. Clasificación, Agrupamiento y Reducción de dimensionalidad
ii. Apache Spark
iii. Machine Learning Library en Spark
iv. Enfoques Paralelos y Distribuídos en Machine Learning


Relatores

Wenceslao Palma

Dr. en Informática, Universidad de Nantes, Francia. Docente e investigador de la Escuela de Ingeniería Informática PUCV en el área de Big Data.

Héctor Allende-Cid

Dr. en Ingeniería Informática, Universidad Técnica Federico Santa María, Chile. Docente e investigador de la Escuela de Ingeniería Informática PUCV en el área de Data Science.

Rodrigo Alfaro

Dr. (c) en Ingeniería Informática, Universidad Técnica Federico Santa María, Chile. Docente e investigador de la Escuela de Ingeniería Informática PUCV en el área de Data Science. Co-founder de Analitic, empresa dedicada a la recolección, clasificación y análisis de Big Data.

Charlas invitadas

Se contará con expositores invitados para temas específicos.


Metodología

Clases expositivas, actividades de laboratorio.

Duración

81 horas.

Planificación de clases

3,4,10,11,24 y 25 de Septiembre.

1,2,8,9,15,16,22,23,29 y 30 de Octubre.

5,6,12,13,19,20,26 y 27 de Noviembre.

3,4 y 10 de Diciembre.

Horario de clases

Las clases se dictan en dos sesiones semanales de 3 hrs c/u, en los siguientes horarios:
Viernes de 19:00 hrs. a 22:15 hrs y Sábado de 10:00 hrs. a 13:15 hrs.

Evaluación

Al final de cada módulo cada relator realizará una evaluación final que será calificada en el rango 1,0 a 7,0.

Asistencia

Se exige un mínimo de asistencia de 75% respecto de las 81 horas programadas.

Arancel

$1.700.000.

Descuentos:

$1.400.000 público general, si la inscripción se realiza antes del 6 de agosto de 2021.

$1.400.000 ex-alumnos y funcionarios PUCV.

Folleto

Inscripciones y contacto

Email: bigdata@pucv.cl
Director: Dr. Wenceslao Palma
[ wenceslao.palma@pucv.cl ]