Próximo Meetup

Caso negocio según Concurso Kaggle 2016. Max ventas, min regreso productos BIMBO
Caso negocio según Concurso Kaggle 2016. Maximizar ventas, minimizar devolución de productos BIMBO ¿Como realizar el Análisis Exploratorio de Datos de BIMBO con Jupyter, Python, SparkSQL? Miercoles 18 de julio de 5 pm a 8 pm Inversión: 1,000 + iva No se lo pierdan Dr. Gabriel GUERRERO [masked] info cel (55)[masked] ¿Cómo analizar datos de los procesos productivos, para aportar valor a la empresa? TEMARIO 1. Recibir datos, con Jupyter/Pandas 2. Preparación para su inserción en Apache SparkSQL y generación de formato Parquet 3. Realizar un EDA (Exploratory Data Analysis) para preparación previa a formato matricial (“tensores”) 4. Entrega de datos “tensorizados” (formato matricial) a los algoritmos de ML (Machine Learning), DL (DeepLearning) o cualquiera otro tipo del mundo de la Ciencia de Datos y la Inteligencia Artificial. En casi todas las pláticas de Ciencia de Datos, se comenta que la etapa del Análisis Exploratorio de Datos (EDA) para preparación previa antes de entregar los datos preparados a los algoritmos, es donde se invierte el mayor tiempo, esfuerzo y personal; varios participantes comentan que en ocasiones esta etapa representa del 50 al 70% del proyecto. Hoy los algoritmos ya se encuentra previamente programados en los instrumentos como SparkML, TensorFlow, Keras, y bibliotecas como scikit-learn, entre otras. Hoy los expertos aseveran que la dificultad no es la aplicación del algoritmo, sino la preparación de los datos de negocio a las formas y tipos que requieren los algoritmos. Lo mas interesante de las reuniones de Ciencia de Datos, es precisamente los espacios de convivencia en donde se generan grupos de personas que intercambian sus experiencias, sinsabores, amarguras y éxitos. Y en estas platicas se comenta como los datos de un problema particular se prepararon y transformaron a formato matricial (“tensores”). Estas platicas son las que “VALEN ORO MOLIDO”, ya que son las mejores practicas que a un desarrollador ya le funcionaron y que seguramente al otro desarrollador que tiene problemas similares, también le funcionaran. Esta es la mejor forma de abordar una problemática, …, hacer casi lo mismo que otros realizaron y que tuvieron resultados exitosos!!! En resumen, como siempre dicen las abuelitas, …, si ya sirve no lo compongas, …, úsalo!!! Hoy tenemos los desarrolladores de Ciencia de Datos una fuente de inspiración, con todo tipo de casos de negocio de la vida real, con datos en abundancia!! https://www.kaggle.com/ Con esta filosofía, en saXsa iniciamos un ciclo de talleres Casos de negocio de la vida real, según Kaggle!! y arrancamos con el caso BIMBO En estos talleres se analizan concursos de Kaggle que han propuesto grandes grupos corporativos como retos a la comunidad de desarrolladores Kaggle y que han logrado soluciones extraordinarias, que ademas se encuentran con datos de negocio abundantes ofrecidos por los mismos corporativos. Empezaremos con el caso de negocio de predicción numérica: Maximizar las ventas y minimizar las devoluciones de productos del corporativo BIMBO, según el concurso Kaggle del año 2016 Este caso de negocio es muy ilustrativo del proceso EDA en donde se tienen las siguientes condiciones: Los productos se envían desde las instalaciones de almacenamiento a las tiendas La semana siguiente, productos no vendidos son devueltos Objetivo: Predecir envío de productos a tiendas Datos de negocios ofrecidos por BIMBO en formato csv ● train. 3,0 Gb ; Líneas: 74,180,465 ● test. 240 Mb ; Líneas: 6,999,252 ● sample_submission. 66 Mb ; Líneas: 6,999,252 ● cliente_tabla. 21 Mb ; Líneas: 935,363 ● producto_tabla. 107 Kb ; Lineas: 2,593 ● town_state. 29 Kb ; Líneas: 790 ¿Como realizar el Análisis Exploratorio de Datos con Jupyter, Python, SparkSQL? Miercoles 18 de julio de 5 pm a 8 pm Inversión: 1,000 + iva No se lo pierdan Dr. Gabriel GUERRERO [masked] info cel (55)[masked]

Debe indicarse una ubicación

Lo que hacemos

Grupo para compartir experiencias, exitos y mejores practicas y hacer sinergia en la conjuncion de aplicaciones de Apache Spark, Berkeley Data Analytics Stack (BDAS), uso de Aprendizaje Automatizado (Machine Learning, ML) utilizando Scala con mecanismos como Kafka y Akka. Es un lugar para convertirse en una Catapulta para la Promocion y Uso de las mejores practicas de las mejores practicas de la Ciencia de Datos Bienvenidos todos los entusiastas promotores de estas tecnicas del Mundo de la Ciencia de los Grandes Volumenes de Datos

Members (3.003)

Photos (503)