Analisis Exploratorio de Conjuntos de Datos Abiertos de CDMX con SPARK
Detalles
Anuncian en CDMX yacimientos del nuevo petroleo!!!
Hoy los datos es el nuevo petroleo, y cuando se tiene un yacimiento, que el mundo de datos se llama Conjunto de Datos (DataSet), lo que sigue es poner su refinería, que el que el mundo de datos se llama Laboratorio de Datos (DataLab).
En fechas recientes, la Jefa de Gobierno, Claudia Sheinbaum, presentó el portal de datos abiertos de la Ciudad de México.
https://datos.cdmx.gob.mx/pages/home/
Esto es un SUPER YACIMIENTO, del nuevo petroleo!!!
Todos los que estamos en la industria del nuevo petroleo, valoramos esta noticia y solo falta arrancar las refinerías para convertirlos en productos del mercado de la innovación y la inteligencia artificial.
El sábado 26 de enero 2019 organizamos un taller para el Análisis Exploratorio de Datos (Data Exploratory Analysis) utilizando estas fuentes de información.
Se ofrece un taller para el Análisis Exploratorio de Datos abiertos de la CDMX.
Paso1: se insertan los conjuntos de datos en MongoDB utilizando la representación GeoJSON que nos permite conservar los aspectos geo-referenciados.
Paso 2: Se extraen los conjuntos de datos de MongoDB para procesamiento con Spark y generación de una estructura Parquet
Paso 3: Se realiza el Análisis Exploratorio de los Datos (Data Exploratory Analysis) en un ambiente Jupyter con Python, con las metodologias del Gobierno de Datos (DataGovernance) de saXsa complementando con las mejores practicas del marco de referencia DAMA .
Paso 4: Se definen objetivos de negocio para la integración de todos los aspectos de la CDMX que se encuentran representados en los Conjuntos de Datos, para realizar los cruces con SparkSQL y la analítica descriptiva e inferencial de la Ciencia de Datos (Data Science) y Aprendizaje Automatizado (Machine Learning) con SparkML
Paso 5: Los resultados obtenidos con coordenadas geo-espaciales se muestran en mapas generados con herramientas de GeoPandas, Bokeh y DASH
El taller se lleva a cabo de 9 am a 3pm
Inversión: 3,000 pesos + i.v.a.
Se ofrece una maquina virtual con: Sistema operativo Centos, ambiente Ananconda, Python, MongoDB, Jupyter, Spark, Bokeh y Dash
En el yacimiento de la CDMX tenemos:
Carpetas de investigación PGJ de la Ciudad de México (681,549 registros)
Uso de suelo (1,215,189 registros)
Rutas y corredores del transporte público concesionado (2,311 registros)
Reportes de siniestros viales – C5 (764,304 registros)
Sistema Informático para la Gestión de Anuncios (2,353 registros)
Atlas de riesgo, para cada aspecto una Base. Tenemos los aspectos: Sísmico, Inundaciones, Fracturamiento, Granizo, Índice de Vulerabilidad Social, Tormentas Eléctricas, Susceptibilidad por Laderas, Temperaturas Mínimas, Precipitación, Nevadas, Temperaturas Máximas
En el taller analizamos todas estos Conjuntos de Datos y los interrelacionamos ("cruces transversales") para generar una vista 360 de la CDMX incorporando los resultados en Mapas Interactivos utillizando las mejores practicas tanto de las HERRAMIENTAS (Jupyter, Python, Spark), como de las metologias (Gobierno de Datos powered by saXsa) y las mejores practicas del marco de referencia DAMA
No se quede sin INSTRUMENTAR SU REFINERIA DE DATOS utilizando estos grandes YACIMIENTOS DEL NUEVO PETROLEO
NO MAS HUACHICOLEROS DE DATOS!!!
El taller se lleva a cabo de 9 am a 3pm
Inversión: 3,000 pesos + i.v.a.
Se ofrece una maquina virtual con: Sistema operativo Centos, ambiente Ananconda, Python, MongoDB, Jupyter, Spark, Bokeh y Dash
informes
cel 55 46559333
Atte
Dr Gabriel GUERRERO
