Empezando con clusterización


Detalles
En esta sesión comenzaremos a explorar cómo de potentes son los métodos de clusterización para solucionar múltiples problemas y lo haremos a través de varios ejemplos.
Lo aprenderemos de la mano de Elena Rivas Ruzafa (https://www.linkedin.com/in/elena-rivas-ruzafa/) , Head of Engineering - Digital Products que durante la sesión nos guiará y aprenderemos mediante ejemplos.
Dentro del machine learning, la clusterización se enmarca dentro del aprendizaje no supervisado, es decir, esos algoritmos para los que solo disponemos de un conjunto de datos de entrada que no están etiquetados y sobre los que obtendremos información sin conocer de antemano cuál será la respuesta correcta. Esta situación se da muy a menudo y provocará que la forma en la que hemos de testear los resultados sea muy particular. También veremos que la creación de visualizaciones de datos y la generación de gráficos, se convertirá en una parte esencial de la exploración de dichos resultados.
Lo que obtendremos tras el proceso de clusterizacióon será una segmentación de los datos en grupos similares que serán lo que conocemos como “clústeres”. Aunque es un problema de clasificación no debemos confundir clusterización con clasificación. Ambos son métodos de identificación de patrones, pero mientras el primero pertenece al aprendizaje no supervisado, el segundo, más conocido, pertenece al aprendizaje supervisado. También trataremos de explicar estas diferencias.
Además de resolver algunos casos prácticos durante la sesión, veremos cómo estos métodos pueden solucionar diferentes problemas en múltiples ámbitos (en medicina para el diagnóstico de enfermedades, en redes sociales para encontrar grupos de comportamiento similares, en finanzas para generar estrategias dirigidas a los diferentes grupos de clientes...)
Todo esto lo haremos en el entorno de programación R en el que existen múltiples paquetes que implementan algoritmos de clustering y funciones para visualizar sus resultados. Durante la sesión trabajaremos con algunos de los más interesantes.
Estas son las librerías que usaremos, para que vayáis instalándolas. Las dos últimas son las específicas de clustering:
library(tidyverse)
library(gridExtra)
library(dplyr)
library(reshape2)
library(ggmap)
library(factoextra) # clustering algorithms & visualization
library(cluster) # clustering algorithms
Aquí están los materiales! https://github.com/rladies/meetup-presentations_madrid/blob/master/README.md#2021-06-17---taller-online

Patrocinadores
Empezando con clusterización