Past Meetup

Data Science Meetup Hamburg | Topic-Modeling | Real Time Databases

This Meetup is past

158 people went

Location image of event venue

Details

=== Doors open @ 18:30 ===

=== Networking ===

=== Small intro ===

=== Talk 1 (in english)===

Daniel Pape ( Senior Data Scientist/Engineer at codecentric AG) on "Ordnung im Blog: Strukturierung umfangreicher Datenmengen durch Topic-Modeling "

Der enorme Zuwachs an Text als wesentliches Kommunikationsmittel unserer Gesellschaft erfordert Methoden, die riesige Textmengen erkundbar machen. Zur besseren Verwaltung und Organisation der stetig wachsenden Sammlung von Dokumenten ist die Einteilung in Themenblöcke hilfreich, aber meist von Hand zu aufwendig. Eine automatisierte Bestimmung von Topics bzw. Themen bezweckt das sogenannte "Topic Modeling" aus dem Bereich NLP (Verarbeitung natürlicher Sprachen).

Der Vortrag gibt eine praxisorientierte Einführung in die Strukturierung von Textdokumenten. Am Beispiel von rund 700 Blogartikeln zeigen wir, wie sich mit Hilfe von Methoden der linearen Algebra und Wahrscheinlichkeitstheor­ie (NMF und LDA) sinnvolle Gruppierungen in Topics finden lassen und wie diese beurteilt werden können. Dies ermöglicht weitergehende Analysen, wie der zeitlichen Veränderung von Topics oder die Ermittlung von Trends."

=== Break & Networking ===

=== Talk 2 ===

Wolfram Wingerath (Baqend) on "Real-Time Databases Explained: Why Meteor, RethinkDB, Parse and Firebase Don't Scale"

Users have come to expect reactivity from mobile and web applications, i.e. they assume that changes made by other users become visible immediately. However, developers have a hard time building reactive applications on top of traditional pull-oriented databases, because they are ill-equipped to push new information to the client. Real-time databases promise salvation as they are naturally push-oriented. But how do they work and how do they scale? In this talk, we dissect the real-time query features of Meteor, RethinkDB, Parse and Firebase to uncover scaling limitations inherent to their respective designs. We further discuss and categorize related information systems and share our lessons learned in building a real-time database without any bottlenecks.

=== Networking ===

=== Closing 21:00 ===

=== (optional) cocktail session ===