What we're about

Grupo para compartir experiencias, éxitos, mejores prácticas y hacer sinergia en la conjuncion de aplicaciones de Apache Spark, uso de Aprendizaje Automatizado (Machine Learning, ML), Inteligencia Artificial con Jupyter, Python, TensorFlow y Keras.

Es un lugar que deseamos convertir en una Catapulta para la Promocion y Uso de la Ciencia de Datos y las Matemáticas.

Bienvenidos todos los entusiastas promotores de estas técnicas del Mundo de la Ciencia de los Grandes Volumenes de Datos y la Inteligencia Artificial

Upcoming events (4)

Ciencia de Datos, Machine Learning en Spark, Jupyter, TensorFlow con Python

Ciencia de Datos, Machine Learning en Spark, Jupyter, TensorFlow con Python miércoles 19 de junio 2019 De 10 am 3 pm Objetivo Talleres teórico/prácticos, que proporcionan capacidades teóricas, técnicas y prácticas para la gestión, manejo y explotación del Big Data La Ciencia de Datos con Machine Learning para la generación de aplicaciones en 3 ambientes: usando Python en arquitectura Vertical (solo python), Horizontal (Con SparkML) y TensorFlow Se proporciona una máquina virtual, con una instalación básica de las herramientas expuestas en éste, así como lecturas complementarias, que permitan a los participantes llevar a cabo prácticas y ejercicios en pseudo-clúster Big Data INVERSIÓN: 2,500 + i.v.a. Pregunte por descuentos hasta 25% por asistencia a varios módulos, si el pago se realiza 2 dias antes del evento detalles: https://www.meetup.com/saxsaBigDataMexico/events/261656760/ Atentamente Dr Gabriel GUERRERO [masked] info cel (55)[masked] TEMARIO Introduccion a conceptos del Aprendizaje Automatizado (ML Machine Learning) Repaso de bibliotecas Python Numpy y Pandas Uso de bibliotecas de ML en Python con Jupyter Uso de ambiente PySpark, uso de Jupyter con Spark y Python Módulo de Spark ML con Python con algoritmos como: Algoritmo de Regresión Lineal Algoritmo de Regresión Logística Algoritmo de KNN Algoritmo de K-means Uso de ambiente TensorFlow con Python para los mismos algoritmos Regresion Lineal, Logistica, KNN y K-means Showroom de Aplicaciones Productivas Ejecución de aplicaciones del Aprendizaje Automatizado en un ambiente Apache Spark, y manejo herramientas Python, Jupyter, Hadoop y la biblioteca SparkML Le prometieron un Lago de Datos (Data Lake) y le entregaron un Pantano de Datos (Data swamp), ... nosotros lo convertiremos en Catarata de Datos (Data Fall) Un pantano de datos es un lago de datos deteriorado que es inaccesible para los usuarios previstos o proporciona poco valor, ..., ¿se identifica con esto? Si le vendieron la solución para interactuar con el lago de datos, con herramientas novedosas como Apache Pig, Apache Hive y otras que ya para que mencionarlas, ... , lamento desilusionarlo porque va hacia el Pantano de Datos, y tal vez ya se encuentra inmerso y ahora quiere monetizar sus datos, pero no sabe ¿cómo? Pero no se preocupe en cualquiera de las situaciones que se encuentre casi en el Pantano de Datos o desesperado por no saber como generar valor con sus datos que NO SE MUEVEN, HAY SOLUCION, generando una Catarata de Datos (Data Fall) para que como en las cataratas del Niagara en Canada o Cataratas de Iguazú en Brasil, sus datos generen energía. El curso del agua (datos), en nuestro caso, el flujo o movimiento de los datos, es utilizado para la producción de energía (monetizar sus datos). Un enfoque necesario para monetizar sus datos, es la aplicacion de Modelos del Aprendizaje Automatizado En este taller utilizamos Python, Jupyter primero en un equipo y enseguida estos mismos algoritmos utilizando la arquitectura de cómputo distribuido y tolerante a fallas SparkML No se lo pierda Atentamente Dr Gabriel GUERRERO [masked] info cel (55)[masked]

CNN (Convolutive Neural Nets) con TensorFlow, DeepLearning con Python

TensorFlow, DeepLearning y manejo de imágenes con CNN (Convolutive Neural Nets) jueves 20 de junio 2019, De 10 am a 3pm Objetivo Uso de TensorFlow como una maquina de calculo en paralelo aplicado a problemas de clasificacion de imagenes con metodologias de CNN Se proporciona una máquina virtual esta contiene: Linux Centos, Anaconda, Python, Jupyter, TensorFlow, Keras, y lecturas complementarias, que permitan a los participantes llevar a cabo prácticas y ejercicios El participante aprenderá los principales conceptos de IA. Generación de aplicaciones con Redes Neuronales Convolutivas (CNN), TensorFlow y Keras, para reconocer objetos en una imagen, entre otras. Se requiere conocimientos basicos de Python Detalles Inicio de TensorFlow, ¿Por qué?, ¿De donde surge?, ¿En donde se utiliza hoy? ¿Como realizo una aplicacion con TensorFlow? Mi primer cuaderno Jupyter con TensorFlow con Python en ambiente Jupyter Algunos elementos de Inteligencia Artificial y DeepLearning Uso de TensorFlow en CNN en CPU y en GPU Ejemplos: deteccion numeros manuscritos, prediccion numerica de valores, clasificacion de imagenes con TensorFlow y Keras Uso de TensorFlow como maquina de calculo paralelo Demostraciones de aplicaciones productivas con TensorFlow y Keras INVERSIÓN: 2,500 + i.v.a. Pregunte por descuentos hasta 25% por asistencia a varios módulos, si el pago se realiza 2 dias antes del evento detalles: https://www.meetup.com/saxsaBigDataMexico/events/261656760/ Atentamente Dr Gabriel GUERRERO [masked] info cel (55)[masked] ¿Por qué TensorFlow? Hoy en día el uso de algoritmos de Aprendizaje Automatizado (Machine Learning) no esta en duda como una herramienta que tiene aplicaciones en una inmensa diversidad de áreas del conocimiento como Visión por Computadoras (Computer Vision), Reconocimiento del Lenguaje y Voz (Speech recognition), Traducción de Idiomas (Language Translations), y en aspectos de la salud como detección de enfermedades por imagenologia. ¿Cómo ha sido posible esta gran aventura de sinergia del mundo de las matemáticas, tecnología de equipos de informática, algoritmos, sistemas operativos y aplicaciones? Esta gran aventura se debe a la conjunción de varios mundos como: Generación a gran escala de Datos (BigData), Herramientas físicas (hardware) como los CPU con una gran cantidad de núcleos de procesamiento en un mismo equipo (Multi Cores), y mas recientemente el surgimiento de arquitecturas de Cómputo Paralelo Gráfico (GPU Graphic Processing Unit) Algoritmos de Minería de Datos, Aprendizaje Automatizado (Machine Learning), Inteligencia Artificial con un gran soporte de matemáticas y sus mecanismos para la descripción formal de problemas y su planteamiento. En los algoritmos cada día mas, se incorporan conceptos y estructuras matemáticas que durante siglos solo se utilizaban en complejos modelos de astronomía y física. Sin embargo, hoy hablamos de matrices y tensores de forma natural en la Inteligencia Artificial. Herramientas lógicas (software) como el sistema operativo Linux y sus versiones de uso empresarial como Centos y RedHatEnterprise, de lenguajes programación para manejo de colecciones (DataSets) con gran facilidad como Scala, y de lenguajes con una gran facilidad de expresión y una inmensa cantidad de bibliotecas como Python. En el mundo de herramientas lógicas (software), también se cuenta con ambientes amigables para la elaboración y diseño de aplicaciones basadas en un contexto de Web, como Jupyter con sus cuadernos interactivos. Estos aspectos hoy también cuentan con “máquinas lógicas de cálculo en paralelo”, como TensorFlow, que puede pensarse como el equivalente de los precursores como las máquinas de cálculo en la historia. En equipos CPU, TensorFlow utiliza bibliotecas de matrices y vectores característicos en esta plataforma tradicional y en GPU, usa bibliotecas CUDA, que optimiza operaciones matriciales en paralelo.

Taller Nivel 0: Ciencia de Datos, BigData, Hadoop, Spark, Jupyter con Python

Taller Nivel 0: Ciencia de Datos, BigData, Hadoop, Spark, Jupyter con Python Sábado 22 de junio 2019 De 10 am 3 pm Este es un taller de fundamentos al desarrollo y creacion de aplicaciones de BigData con herramientas y mejores practicas como uso de ambientes de almacenamiento distribuido Hadoop HDFS, del procesamiento tolerante a fallas Spark en un ambiente interactivo Jupyter con el lenguaje Python Estos instrumentos son los pilares de cualquier otra rama como Aprendizaje Automatizado (Machine Learning), Redes Neuronales Convolutivas (CNN), Redes Neuronales Recurrentes (RNN, como LSTM), Aprendizaje Profundo (Deep Learning), Inteligencia Artificial (Artificial Intelligence) con herramientas como TensorFlow y Keras. Se proporciona una máquina virtual, con una instalación de las herramientas y lecturas complementarias, que permiten a los participantes llevar a cabo prácticas en pseudo-clúster Big Data INVERSIÓN: 1,500 + i.v.a. Pregunte por descuentos por asistencia a varios módulos Atentamente Dr Gabriel GUERRERO [masked] info cel (55)[masked] TEMARIO Introducción a Ciencia de Datos y Big Data Introducción a Hadoop HDFS Introduccion a Python Introducción a Apache Spark con Python Uso de cuadernos Jupyter Notebook con Python Uso básico de Spark SQL Uso de Datos Abiertos de INEGI (DENUE) y CDMX Showroom de Aplicaciones Productivas Descripción Práctica 1. El taller inicia instalando en cada equipo la máquina virtual con todos los sistemas (Hadoop HDFS, Spark, LivyServer, Anaconda, Python, Jupyter), asi como los ejercicios resueltos del taller, con el objetivo de NO TECLEAR nada, todo se ofrece al participante para que concentre su atencion en los conceptos y metodologias. Práctica 2. Enseguida se inician los servicios HDFS para realizar practicas: "Subir" archivos ajustando parametros como talla de bloque y factor de replicacion. Práctica 3. Despues se realizan practicas de "Bajar" archivos del sistema HDFS a la maquina linux" Práctica 4. Se inician servicios Spark y se realizan practicas de "Subir" archivos a Spark desde HDFS y desde la maquina Linux, para generar un RDD con los datos en RAM Práctica 5. Una vez que se tiene el RDD en RAM en Spark se realiza un Analisis Exploratorio de Datos (EDA, Exploratory Data Analysis) utilizando Python y el concepto de DataFrame en un ambiente Jupyter. Se introduce la estructura de almacenamiento permanente PARQUET Práctica 6. Se definen con enunciados SQL del mundo relacional estandar las transformaciones y acciones que se desean realizar, pero con una arquitectura distribuida utilizando SparkSQL Práctica 7. Una vez terminada la ejecucion del enunciado SQL en RAM, se almacena en una estructura permanente en Hadoop HDFS y/o en el sistema de archivos Linux. El formato del almacenamiento en LINUX puede ser CSV, PARQUET En todos los ejercicios se utilizan fuentes de informacion de datos abiertos como INEGI (DENUE) y de la CDMX INEGI http://www.beta.inegi.org.mx/app/descarga/?ti=6# CDMX https://datos.cdmx.gob.mx/pages/home/ Se proporciona una máquina virtual por módulo, con una instalación de las herramientas y lecturas complementarias, que permiten a los participantes llevar a cabo prácticas en pseudo-clúster Big Data I Atentamente Dr Gabriel GUERRERO [masked] info cel (55)[masked]

Automatización de procesos de Big Data con Spark Streaming

Automatización de procesos de Big Data con Spark Streaming Objetivo Talleres teórico/prácticos, que proporcionan capacidades teóricas, técnicas y prácticas para la gestión, manejo y explotación del Big Data La Ciencia de Datos con Machine Learning y Deep Learning para la generación de aplicaciones de Inteligencia Artificial Se proporciona una máquina virtual por módulo, con una instalación básica de las herramientas expuestas en éste, así como lecturas complementarias, que permitan a los participantes llevar a cabo prácticas y ejercicios en pseudo-clúster Big Data INVERSIÓN por módulo: 2,500 + i.v.a. Pregunte por descuentos por asistencia a varios módulos Atentamente Dr Gabriel GUERRERO [masked] info cel (55)[masked] Automatización de procesos de Big Data con Spark Streaming Se ofrecen conocimientos de HDFS Hadoop y Apache Spark con Python, manejo y procesamiento de torrentes de datos en tiempo real, con Spark Streaming y Apache Kafka. Pregunte por descuentos por asistencia a varios módulos Atentamente Dr Gabriel GUERRERO [masked] info cel (55)[masked]

Photos (525)