Spark, Ciencia Datos, Inteligencia Artificial y Matemáticas

What we’re about

Grupo para compartir experiencias, éxitos, mejores prácticas y hacer sinergia en la conjunción de aplicaciones de Apache Spark, uso de Aprendizaje Automatizado (Machine Learning, ML), Inteligencia Artificial con Jupyter, Python, TensorFlow y Keras.

Es un lugar que deseamos convertir en una Catapulta para la Promoción y Uso de la Ciencia de Datos y las Matemáticas.

Bienvenidos todos los entusiastas promotores de estas técnicas del Mundo de la Ciencia de los Grandes Volúmenes de Datos y la Inteligencia Artificial

Upcoming events (4+)

See all

Fri, Apr 26, 2024, 8:00 PM CSTViernes 03 mayo 8 PM, Alfombra Roja Curso IAGenerativa Aprender Haciendo saXsa
Needs location
Gran inicio Curso IAGenerativa Aprender Haciendo saXsa

Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm

Casos prácticos de Inteligencia Artificial Generativa.

Generación de un SISTEMA DE BÚSQUEDA SEMÁNTICA,

Herramientas: Marco de Trabajo LangChain, biblioteca PyMuPDF, Vectorizador BGE (Beijing General Embedding), Modelo LangChain ParentDocumentRetreiver y otros

Caso real utilizando el Diario Oficial de la Federación D.O.F.

Duración Taller: 4 horas en 2 sesiones, 2 horas x sesión
Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm
Cuota recuperación: 1600 pesos + i.v.a. (enviar constancia para factura)

A todos aquellos que quieran aportar solidariamente una contribución, lo pueden hacer en Pago PayPal
PayPal.me/saxsa2000

Se envía material de los códigos de cuadernos Python previo al curso

Dr. Gabriel Guerrero

saxsa2000 (at) gmail.com

Hace tiempo entendí la importancia de aprender tratando de poner a prueba siempre en situaciones reales lo aprendido.

En nuestro caso mostraremos los modelos y herramientas de la Inteligencia Artificial utilizando documentos PDF que diariamente ofrece el Gobierno Federal en el sitio del D.O.F

https://www.dof.gob.mx/

Hace tiempo entendí la importancia de aprender de otros que previamente ya recorrieron el camino.

Hoy en las redes especializadas se cuenta con un gran número de expertos que nos comparten sus enseñanzas y ejemplos de Inteligencia Artificial y que por medio de videos cortos en YouTube nos comparten sus enseñanzas.

En nuestro curso les compartiremos los códigos de cuadernos Python, así como una gran lista de videos que ofrecen ejemplos de aplicación con datos reales de los modelos de Inteligencia Artificial

Análisis y Sistema de Búsqueda Semántica con Documentos Jurídicos, en particular usando el D.O.F., Diario Oficial de la Federación.

Temas:
Lectura de PDF Generado de un día del DOF usando el marco de trabajo LangChain y biblioteca PyMuPDF

Análisis Exploratorio de las componente del DOF con la extracción del TEXTO TXT, TABLAS E IMAGENES.

Se analiza cada tabla y genera un archivo CSV y un archivo XLSX con el contenido de la tabla. Se integran todas las tablas en un ZIP por formato CSV y en un ZIP por formato XLSX

Se analiza cada imagen y genera un archivo grafico con el formato de origen de la imagen. Se integran todas las imágenes en un ZIP

Se analiza cada página del DOF y segmenta en pedazos (chunks) utilizando el marco de trabajo LangChain y los Splitters por caracteres

Se selecciona un vectorizador (embeddings) para generar los vectores de los segmentos (chunks)

Se integran todos los vectores de los segmentos en una BDVectorial Chroma

Se realiza un servicio de BUSQUEDA SEMANTICA utilizando los Modelos de LangChain

Se afina el servicio de BUSQUEDA SEMANTICA utilizando el modelo LangChain ParentDocument Retreiver para ofrece busquedas con mayor certidumbre

Duración Taller: 4 horas en 2 sesiones, 2 horas x sesión
Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm
Cuota recuperación: 1600 pesos + i.v.a.

Hemos grabado un Ciclo de Videos en nuestro canal YouTube saXsa, que les compartimos, en particular los adelantos del curso

Avances ejercicio 1 Curso
(https://youtu.be/iWAVOUlOtR4)
Uso de biblioteca "requests" para extracción automática del PDF del sitio

Avances ejercicio 2 Curso
(https://youtu.be/PCEPk3cXRCQ)
Uso de biblioteca PyMuPDF para análisis PDF y extracción TXT, Tablas e Imágenes. Se almacenan las tablas en formato CSV y XLSX
Se genera un ZIP por concepto de todos las partes extraídas

Avances ejercicio 3 Curso

Uso de marco de trabajo (framework) LangChain para segmentacion del TXT del documento por páginas.

Enseguida segmentacion de cada TXT de Pagina en pedazos PADRE (Parent Chunks) y Segmentación en cada Pedazo PADRE en pedazos HIJO usando metodo RecursiveCharacterTextSplitter de LangChain

Avances ejercicio 4 Curso

Uso de vectorizador (embedding) BGE M3-Embedding,
Multi-Idiomas, Multi-Funcional, Multi-Granular
Uso de BDVectorial Chroma para almacenar los vectores
Uso del Metodo ParentDocumentRetreiver de LangChain para búsqueda semántica

Avances ejercicio 5 Curso

Creación del servicio de BÚSQUEDA SEMÁNTICA

Canal YouTube saXsa

[https://www.youtube.com/@saxsabigdata1400/videos]
(Canal YouTube saXsa)

Duración Taller: 4 horas en 2 sesiones, 2 horas x sesión
Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm
Cuota recuperación: 1600 pesos + i.v.a. (enviar constancia para factura)

A todos aquellos que quieran aportar solidariamente una contribución, lo pueden hacer en Pago PayPal
PayPal.me/saxsa2000

Dr. Gabriel Guerrero

saxsa2000 (at) gmail.com
1 attendee
Fri, Apr 26, 2024, 8:00 PM CSTViernes 03 mayo 8 PM, Alfombra Roja Curso IAGenerativa Aprender Haciendo saXsa
Needs location
Gran inicio Curso IAGenerativa Aprender Haciendo saXsa

Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm

Casos prácticos

Generación de un SISTEMA DE BÚSQUEDA SEMÁNTICA,

Herramientas: Marco de Trabajo LangChain, biblioteca PyMuPDF, Vectorizador BGE (Beijing General Embedding), Modelo LangChain ParentDocumentRetreiver y otros

Caso real utilizando el Diario Oficial de la Federación D.O.F.

Duración Taller: 4 horas en 2 sesiones, 2 horas x sesión
Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm
Cuota recuperación: 1600 pesos + i.v.a. (enviar constancia para factura)

A todos aquellos que quieran aportar solidariamente una contribución, lo pueden hacer en Pago PayPal

PayPal.me/saxsa2000

Dr. Gabriel Guerrero

saxsa2000 (at) gmail.com

Hace tiempo entendí la importancia de aprender tratando de poner a prueba siempre en situaciones reales lo aprendido.

En nuestro caso mostraremos los modelos y herramientas de la Inteligencia Artificial utilizando documentos PDF que diariamente ofrece el Gobierno Federal en el sitio del D.O.F

https://www.dof.gob.mx/

Hace tiempo entendí la importancia de aprender de otros que previamente ya recorrieron el camino.

Hoy en las redes especializadas se cuenta con un gran número de expertos que nos comparten sus enseñanzas y ejemplos de Inteligencia Artificial y que por medio de videos cortos en YouTube nos comparten sus enseñanzas.

En nuestro curso les compartiremos los códigos de cuadernos Python, así como una gran lista de videos que ofrecen ejemplos de aplicación con datos reales de los modelos de Inteligencia Artificial

Análisis y Sistema de Búsqueda Semántica con Documentos Jurídicos, en particular usando el D.O.F., Diario Oficial de la Federación.

Temas:
Lectura de PDF Generado de un día del DOF usando el marco de trabajo LangChain y biblioteca PyMuPDF

Análisis Exploratorio de las componente del DOF con la extracción del TEXTO TXT, TABLAS E IMAGENES.

Se analiza cada tabla y genera un archivo CSV y un archivo XLSX con el contenido de la tabla. Se integran todas las tablas en un ZIP por formato CSV y en un ZIP por formato XLSX

Se analiza cada imagen y genera un archivo grafico con el formato de origen de la imagen. Se integran todas las imágenes en un ZIP

Se analiza cada página del DOF y segmenta en pedazos (chunks) utilizando el marco de trabajo LangChain y los Splitters por caracteres

Se selecciona un vectorizador (embeddings) para generar los vectores de los segmentos (chunks)

Se integran todos los vectores de los segmentos en una BDVectorial Chroma

Se realiza un servicio de BUSQUEDA SEMANTICA utilizando los Modelos de LangChain

Se afina el servicio de BUSQUEDA SEMANTICA utilizando el modelo LangChain ParentDocument Retreiver para ofrece busquedas con mayor certidumbre

Duración Taller: 4 horas en 2 sesiones, 2 horas x sesión
Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm
Cuota recuperación: 1600 pesos + i.v.a.

Hemos grabado un Ciclo de Videos en nuestro canal YouTube saXsa, que les compartimos, en particular los adelantos del curso

PlayList de 5 videos de las sesiones que compatiremos con todos el codigo

Inscribanse y les enviamos el ZIP con los cuadernos y PDF de ejecucion de los ejercicios

https://www.youtube.com/playlist?list=PL7y7BluT-I_5pj8294RNPugKCG2o5yJR9

Avances ejercicio 1 Curso

Uso de biblioteca "requests" para extracción automática del PDF del sitio

Avances ejercicio 2 Curso

Uso de biblioteca PyMuPDF para análisis PDF y extracción TXT, Tablas e Imágenes. Se almacenan las tablas en formato CSV y XLSX
Se genera un ZIP por concepto de todos las partes extraídas

Avances ejercicio 3 Curso

Uso de marco de trabajo (framework) LangChain para segmentacion del TXT del documento por páginas.

Enseguida segmentacion de cada TXT de Pagina en pedazos PADRE (Parent Chunks) y Segmentación en cada Pedazo PADRE en pedazos HIJO usando metodo RecursiveCharacterTextSplitter de LangChain

PlayList de 5 videos de las sesiones que compatiremos con todos el codigo
Inscribanse y les enviamos el ZIP con los cuadernos y PDF de ejecucion de los ejercicios
https://www.youtube.com/playlist?list=PL7y7BluT-I_5pj8294RNPugKCG2o5yJR9

Canal YouTube saXsa

[https://www.youtube.com/@saxsabigdata1400/videos]
(Canal YouTube saXsa)

Duración Taller: 4 horas en 2 sesiones, 2 horas x sesión
Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm
Cuota recuperación: 1600 pesos + i.v.a. (enviar constancia para factura)

A todos aquellos que quieran aportar solidariamente una contribución, lo pueden hacer en Pago PayPal
PayPal.me/saxsa2000

Dr. Gabriel Guerrero

saxsa2000 (at) gmail.com
1 attendee
Sat, Apr 27, 2024, 8:00 PM CSTViernes 03 mayo 8 PM, Alfombra Roja Curso IAGenerativa Aprender Haciendo saXsa
Needs location
Gran inicio Curso IAGenerativa Aprender Haciendo saXsa

Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm

Casos prácticos de Inteligencia Artificial Generativa.

Generación de un SISTEMA DE BÚSQUEDA SEMÁNTICA,

Herramientas: Marco de Trabajo LangChain, biblioteca PyMuPDF, Vectorizador BGE (Beijing General Embedding), Modelo LangChain ParentDocumentRetreiver y otros

Caso real utilizando el Diario Oficial de la Federación D.O.F.

Duración Taller: 4 horas en 2 sesiones, 2 horas x sesión
Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm
Cuota recuperación: 1600 pesos + i.v.a. (enviar constancia para factura)

A todos aquellos que quieran aportar solidariamente una contribución, lo pueden hacer en Pago PayPal
PayPal.me/saxsa2000

Se envía material de los códigos de cuadernos Python previo al curso

Dr. Gabriel Guerrero

saxsa2000 (at) gmail.com

Hace tiempo entendí la importancia de aprender tratando de poner a prueba siempre en situaciones reales lo aprendido.

En nuestro caso mostraremos los modelos y herramientas de la Inteligencia Artificial utilizando documentos PDF que diariamente ofrece el Gobierno Federal en el sitio del D.O.F

https://www.dof.gob.mx/

Hace tiempo entendí la importancia de aprender de otros que previamente ya recorrieron el camino.

Hoy en las redes especializadas se cuenta con un gran número de expertos que nos comparten sus enseñanzas y ejemplos de Inteligencia Artificial y que por medio de videos cortos en YouTube nos comparten sus enseñanzas.

En nuestro curso les compartiremos los códigos de cuadernos Python, así como una gran lista de videos que ofrecen ejemplos de aplicación con datos reales de los modelos de Inteligencia Artificial

Análisis y Sistema de Búsqueda Semántica con Documentos Jurídicos, en particular usando el D.O.F., Diario Oficial de la Federación.

Temas:
Lectura de PDF Generado de un día del DOF usando el marco de trabajo LangChain y biblioteca PyMuPDF

Análisis Exploratorio de las componente del DOF con la extracción del TEXTO TXT, TABLAS E IMAGENES.

Se analiza cada tabla y genera un archivo CSV y un archivo XLSX con el contenido de la tabla. Se integran todas las tablas en un ZIP por formato CSV y en un ZIP por formato XLSX

Se analiza cada imagen y genera un archivo grafico con el formato de origen de la imagen. Se integran todas las imágenes en un ZIP

Se analiza cada página del DOF y segmenta en pedazos (chunks) utilizando el marco de trabajo LangChain y los Splitters por caracteres

Se selecciona un vectorizador (embeddings) para generar los vectores de los segmentos (chunks)

Se integran todos los vectores de los segmentos en una BDVectorial Chroma

Se realiza un servicio de BUSQUEDA SEMANTICA utilizando los Modelos de LangChain

Se afina el servicio de BUSQUEDA SEMANTICA utilizando el modelo LangChain ParentDocument Retreiver para ofrece busquedas con mayor certidumbre

Duración Taller: 4 horas en 2 sesiones, 2 horas x sesión
Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm
Cuota recuperación: 1600 pesos + i.v.a.

Hemos grabado un Ciclo de Videos en nuestro canal YouTube saXsa, que les compartimos, en particular los adelantos del curso

Avances ejercicio 1 Curso
(https://youtu.be/iWAVOUlOtR4)
Uso de biblioteca "requests" para extracción automática del PDF del sitio

Avances ejercicio 2 Curso
(https://youtu.be/PCEPk3cXRCQ)
Uso de biblioteca PyMuPDF para análisis PDF y extracción TXT, Tablas e Imágenes. Se almacenan las tablas en formato CSV y XLSX
Se genera un ZIP por concepto de todos las partes extraídas

Avances ejercicio 3 Curso

Uso de marco de trabajo (framework) LangChain para segmentacion del TXT del documento por páginas.

Enseguida segmentacion de cada TXT de Pagina en pedazos PADRE (Parent Chunks) y Segmentación en cada Pedazo PADRE en pedazos HIJO usando metodo RecursiveCharacterTextSplitter de LangChain

Avances ejercicio 4 Curso

Uso de vectorizador (embedding) BGE M3-Embedding,
Multi-Idiomas, Multi-Funcional, Multi-Granular
Uso de BDVectorial Chroma para almacenar los vectores
Uso del Metodo ParentDocumentRetreiver de LangChain para búsqueda semántica

Avances ejercicio 5 Curso

Creación del servicio de BÚSQUEDA SEMÁNTICA

Canal YouTube saXsa

[https://www.youtube.com/@saxsabigdata1400/videos]
(Canal YouTube saXsa)

Duración Taller: 4 horas en 2 sesiones, 2 horas x sesión
Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm
Cuota recuperación: 1600 pesos + i.v.a. (enviar constancia para factura)

A todos aquellos que quieran aportar solidariamente una contribución, lo pueden hacer en Pago PayPal
PayPal.me/saxsa2000

Dr. Gabriel Guerrero

saxsa2000 (at) gmail.com
3 attendees
Thu, May 2, 2024, 7:00 PM CST¿Cómo generar sistemas productivos en Inteligencia Artificial Generativa?
Needs location
A todas y todos

Recientemente en una plática con "buscadores de negocios usando Inteligencia Artificial Generativa", me cuestionaban que me estoy tardando mucho en ofrecer alguna solución vendible.

Hoy gracias al impulso innovador de ChatGPT, a todos se les hace fácil pedir sistemas al estilo de un sistema de Preguntas y Respuestas y/o Chat, como BARD de google o ChatGPT de Open AI

¿Por qué me estoy tardando tanto en ofrecer UNA SOLUCIÓN EMPRESARIAL?

Hoy generar Videos y pequeños ejemplos escolares de los modelos y herramientas de la Inteligencia Artificial Generativa, está al alcance de cualquier YouTuber. Tenemos y ofrecemos talleres para compartir todos estas maravillas!!!

*Nosotros en nuestro canal tenemos cientos de videos (*245 videos) de las "últimas joyas de la Inteligencia Artificial Generativa, BigData, Ciencia de Datos y Matemáticas."

PERO ESTO NO ES LO QUE SE NECESITA EN UNA APLICACIÓN PRODUCTIVA DE GRANDES VOLÚMENES DE DOCUMENTOS!!!

En una aplicación productiva, se necesitan modelos y bibliotecas ESTABLES

En una aplicación productiva, se necesitan herramientas que puedan gobernar grandes volúmenes

En una aplicación productiva, se necesitan herramientas que puedan ser AJUSTADAS y MEJORADAS por los desarrolladores de la empresa, para evitar estar ATADOS a los propietarios de la tecnología, ..... USAR CÓDIGO ABIERTO que no es lo mismo que GRATUITO, ... es codigo que se puede cambiar y que tal vez se pague por la ASESORIA y CAPACITACION de los creadores, ... pero no por LICENCIAMIENTO

Hoy un tema importante en Inteligencia Artificial Generativa son los VECTORIZADORES (EMBEDDINGS), .... ¿cuál seleccionar?

Hoy un tema importante en Inteligencia Artificial Generativa son los LLMs, .... ¿cuál seleccionar?

Por esto las frases que les comparto de un sabio, Andrew Ng, que envía boletines frecuentemente me parecen excelentes y las comparto porque toca temas de LLMs:

En nuestro proximo taller, les mostrare las herramientas que considero son adecuadas para crear

UNA APLICACIÓN PRODUCTIVA DE GRANDES VOLÚMENES DE DOCUMENTOS!!!

Duración Taller: 4 horas en 2 sesiones, 2 horas x sesión
Fecha: Viernes 03 de mayo y Viernes 10 de mayo 2024 , 8pm - 10pm

Cuota recuperación: 1600 pesos + i.v.a.

xxxxxxxxxxxxx
At the time of this writing, the open source Mixtral-8x7b-Instruct is competitive with GPT-3.5-Turbo, which holds 11th place.

Meta has played a major role in shaping the strategic landscape by emphasizing open source.

Unlike its big-tech peers, it makes money by showing ads to users, and does not operate a cloud business that sells LLM API calls.

Meta has a strong incentive to support relatively open platforms that it can build upon and aren’t controlled by any one party. This is why releasing Llama as open source makes a lot of sense for its business (as does its strong support for PyTorch as a counterweight to Google’s TensorFlow)

The resulting open source offerings are great for the AI community and diffusion of knowledge!

Finally, competition among companies that offer LLMs is great for everyone who builds applications! With so much investment, by both big companies and startups, in improving LLMs and offering them as open source or API calls, that many of the best business opportunities continue to lie in building applications on top of LLMs.
6 attendees+1