Aplicaciones de los árboles y bosques aleatorioss (random forest) a la investigación básica y clínica

Matrícula 580,00 €
Coordinación Emilio Sánchez-Cantalejo Ramírez y José Antonio Guerrero
Horas Totales 30 Fechas previstas Granada, 28-29 de septiembre y 9-10 de octubre de 2017
Código 311305
Fecha límite para la inscripción 02/09/2017

Dirigido a

Profesionales interesados en conocer una de las herramientas más utilizadas de la Ciencia de Datos

Plazas financiadas por el SAS para sus profesionales (consultar procedimiento en ESTE ENLACE)

 

Requisitos

Tener conocimientos de regresión multivariante. Poseer unas mínimas habilidades con el programa R Imprescindible disponer de acceso a Internet y una cuenta personal de correo electrónico asi como tener habilidades para el uso de programas informáticos básicos (Office) a nivel de usuario

 

Objetivo General

Introducir a los asistentes en la utilización de los árboles (trees) y los bosques aleatorios (random forests) en la investigación en salud.

 

Objetivos Específicos

Al finalizar el curso los asistentes:

1. Conocerán el paradigma sobre el que se basa la Ciencia de Datos.
2. Sabrán evaluar la bondad de ajuste de un modelo sin asumir ninguna hipótesis sobre la distribución de los datos.
3. Conocerán el problema de la robustez de los modelos: Equilibrio sesgo – varianza. Muestreo con reemplazamiento (bootstrapping) y agregación (bagging).
4. Podrán construir un árbol CART, representarlo gráficamente e interpretar el resultado.
5. Podrán ajustar un modelo de árboles Random Forest a un conjunto de datos, evaluar la bondad del ajuste y realizar predicciones para un nuevo conjunto de datos.
6. Utilizarán Random Forest para diferentes tipos de problemas: clasificación, regresión y supervivencia.
7. Aprenderán algunas de las aplicaciones adicionales de Random Forest para evaluar la importancia relativa de variables, medidas de similitud, clustering o detección de observaciones anómalas.

 

Contenidos

- Introducción: De la Estadística Clásica Multivariable al Big Data y Aprendizaje Automático.
- La generalización de los resultados: Sobreajuste. La validación cruzada como alternativa al contraste de hipótesis.
- Árboles de clasificación y regresión (CART).
- La estabilidad de los modelos: Equilibrio sesgo - varianza. Muestreo con reemplazamiento (bootstrapping) y agregación (bagging).
- Random Forest para problemas de clasificación.
- Random Forest para problemas de regresión.
- Random Forest para problemas de análisis de supervivencia.
- Algunas aplicaciones de Random Forest: cálculo de importancia relativa de variables, cálculo de medidas de similitud, clustering, detección de outliers.
- Introducción a técnicas de gradient boosting aplicadas a árboles

 

Metodología

El curso tendrá un carácter eminentemente práctico en el que se analizarán bases de datos reales. Se desarrollará en dos fases que comprenden una parte presencial y otra virtual. Las sesiones presenciales se realizarán en dos partes, una al inicio del curso y otra al finalizar.
Durante la fase no presencial los asistentes realizarán un ejercicio práctico que será discutido en la segunda fase presencial del curso.

El software a utilizar será R y algunos paquetes específicos

 

Más información

Al final del curso los asistentes estarán capacitados para:
- Evaluar críticamente artículos científicos donde se utilicen los árboles y los random forests
- Aplicar estos métodos de Ciencia de Datos en sus proyectos de investigación

El sistema de evaluación se compone de:

- Evaluación de la satisfacción: se llevará a cabo a través del Cuestionario de Evaluación de la Calidad Docente de la Escuela Andaluza de Salud Pública.
- Evaluación de la asistencia: registrada mediante control de firmas.
- Evaluación del aprendizaje: La evaluación se hará en función de la participación en el aula así como de la realización de los ejercicios propuestos

Para la obtención del certificado es obligatoria la asistencia al menos al 90% de las horas presenciales del curso y la realización de los trabajos prácticos en el aula.