addressalign-toparrow-leftarrow-rightbackbellblockcalendarcameraccwcheckchevron-downchevron-leftchevron-rightchevron-small-downchevron-small-leftchevron-small-rightchevron-small-upchevron-upcircle-with-checkcircle-with-crosscircle-with-pluscrossdots-three-verticaleditemptyheartexporteye-with-lineeyefacebookfolderfullheartglobegmailgooglegroupshelp-with-circleimageimagesinstagramlinklocation-pinm-swarmSearchmailmessagesminusmoremuplabelShape 3 + Rectangle 1ShapeoutlookpersonJoin Group on CardStartprice-ribbonShapeShapeShapeShapeImported LayersImported LayersImported Layersshieldstartickettrashtriangle-downtriangle-uptwitteruserwarningyahoo

Big Data Day

Kai Wähner  „Fast Data und Stream Processing im Zeitalter von Hadoop, R, Spark und anderen modernen Technologien“

Ramon Wartala  „Clustering von Nachrichten mit Hilfe von Sparks MLLib“

Holger Keibel  „Zuverlässige Entity-Erkennung und Entity-Identifikation durch Kontextanalysen“

Christian Stamm „Kleine Schritte, große Daten. Wie agile Entwicklung und Lambda-Architektur perfekt zusammenpassen“

--------------------------------------------------------------------------------------


Fast Data und Stream Processing im Zeitalter von Hadoop, R, Spark und anderen modernen Technologien


"Big Data" ist aktuell ein großer Hype. Große Mengen von historischen Daten werden in Hadoop gespeichert. Business Intelligence Tools und Statistical Computing werden verwendet, um aus diesen Daten neue Erkenntnisse zu ziehen und Patterns zu finden, beispielsweise für zukünftige Promotionen, Cross-Selling oder Betrugserkennung. Nun stellt sich die Frage, wie diese Erkenntnisse aus historischen Daten in Echtzeit in neue Transaktionen eingebunden werden können?

"Fast Data" mittels Stream Processing ist eine Lösungsmöglichkeit, um Patterns - die aus historischen Daten gewonnen wurden - in Echtzeit in zukünftige Transaktionen einzubetten. Dieser Vortrag erläutert an Hand mehrerer Real World Success Stories die Konzepte hinter Stream Processing, den Zusammenhang zu Hadoop, und wie statistische Modelle aus R, Spark oder anderen Schnittstellen in die Echtzeitverarbeitung eingebunden werden können. Ein kurzer Überblick über verfügbare Open Source Frameworks und kommerzielle Produkte zeigt mögliche Alternativen für die Umsetzung von Stream Processing, u.a. Apache Storm, Spark Streaming, IBM InfoSphere Streams oder TIBCO Streambase. Ein Live-Demo zeigt, wie neben der automatischen Verarbeitung mittels Stream Processing  ein Live Datamart eingesetzt werden kann, um mittels einer Web UI und Push Events in Echtzeit menschliche Interaktionen zu ermöglichen.

Referent:

Kai Wähner ist als Technical Lead bei TIBCO tätig. Seine Schwerpunkte liegen in den Bereichen Integration, Big Data, Analytics, SOA, Microservices, BPM, Cloud Computing, Java EE and Enterprise Architecture Management. Außerdem ist er Autor von Fachartikeln, hält Vorträge auf internationalen IT-Konferenzen (z.B. JavaOne, ApacheCon, OOP) und berichtet in seinem Blog (www.kai-waehner.de/blog) über Erfahrungen mit neuen Technologien. Feedback gerne per Email ([masked]), Twitter (@KaiWaehner) oder sozialem Netzwerk (Xing, LinkedIn).

--------------------------------------------------------------------------------------

Clustering von Nachrichten mit Hilfe von Sparks MLLib

Spark bietet ein mächtiges Framework zur verteilten Analyse von Daten In-Memory. Die Spark-eigenen MLLib enthält dabei eine Reihe von Algorithmen rund um das Thema Machine Learning. Gezeigten werden soll die Extraktion von so genannten Feature-Vektoren anhand von Nachrichtentexten und die Clusteranalyse zu Themen-Gruppen mit Hilfe eines parallelen K-Means-Algorithmus. Dabei soll der einfache Umgang mit dem Framework demonstriert werden.

Referent:

Ramon Wartala, geboren 1972 in Göttingen, ist Diplom-Informatiker und arbeitet als Director Technology für die Online-Marketing-Agentur Performance Media Deutschland GmbH in Hamburg. Er ist seit über 15 Jahren freier Autor und Speaker zum Thema Software Entwicklung und Data Mining. Neben seiner Vorliebe für funktionale Programmiersprachen wie Ruby, Scala und JavaScript beschäftigt er sich mit Datenbank-Anwendungen und dort vor allem mit solchen, die mit Hilfe des Hadoop- und Spark-Frameworks realisiert werden.

--------------------------------------------------------------------------------------

"Zuverlässige Entity-Erkennung und Entity-Identifikation durch Kontextanalysen"

Big-Data-Analysen setzen strukturierte Daten voraus. Mit Textmining-Verfahren (Extraktion, Klassifikation, semantische Analysen usw.) können aus unstrukturierten textuellen Daten strukturierte Daten gewonnen werden. Von besonderem Interesse sind dabei Entitäten (Personen, Orte, Organisationen, Produkte usw.): die Kernelemente, über die ein Text redet. Bei der Entitäten-Erkennung  werden die Namen von Entitäten in einem Inputtext aufgespürt und klassifiziert. Mit der Entitäten-Identifikation wird darüber hinaus festgestellt, welche konkrete Entität damit gemeint ist. Beispiel: Bei der Erkennung wird in einem Text ein Name "Peter Müller" gefunden und erkannt, dass dieser Name eine Person bezeichnet. Die Identifikation stellt fest, welcher konkrete Mensch namens "Peter Müller" im Text gemeint ist.

Die Identifikation wird dadurch erschwert, dass dieselbe Entität mehrere Bezeichnungen besitzen kann (Quasi-Synonyme, z.B. "Hamburger Michel" ="Hauptkirche Sankt Michaelis" = "St.-Michaelis-Kirche" = ...), und dieselbe Bezeichnung kann verschiedene Entitäten meinen (mehrdeutige Begriffe, z.B. "Córdoba" für eine Stadt in Spanien vs. Argentinien vs. Mexiko). Es wird ein Textmining-System (Canoo Find-it ) vorgeführt, das grundsätzlich mit diesen Herausforderungen umgehen kann. Dazu verwendet es geeignete Wissensquellen (Entitäten-DBs) und analysiert den Inputtext inhaltlich.

Mit diesen Analysen können die Entitäten in allem textuellen Material auf konsistente Weise erschlossen werden und stehen anschließend für ein Spektrum von Big-Data-Analysen zur Verfügung. In diesem Vortrag sollen verschiedene Beispiele skizziert werden.

Referent:

Holger Keibel, Jahrgang 1972, ist als Diplom-Mathematiker und promovierter Sprachwissenschaftler zum Textmining gekommen. Nachdem er einige Jahre in diesem Themenfeld geforscht hat, ist er seit 2010 beim Schweizer Software-Unternehmen Canoo Engineering AG als Head of Language Technology verantwortlich für Produkte und Kundenprojekte im Bereich Sprachtechnologie.

--------------------------------------------------------------------------------------

Kleine Schritte, große Daten. Wie agile Entwicklung und Lambda-Architektur perfekt zusammenpassen


Menschen, die sich im Internet bewegen, sind zunehmend damit überfordert, ein immer größeres Angebot erfassen und die für sich passenden Inhalte finden zu müssen. Für Anbieter von Inhalten liegt die Herausforderung daher darin, dem einzelnen Kunden ein jeweils möglichst relevantes Angebot vorzulegen. Dies kann nur durch eine algorithmische Auswahl der Inhalte gelingen. Viele solche Algorithmen, wie etwa das Collaborative Filtering, arbeiten auf historischen Daten. Da große Datenmengen verarbeitet werden müssen, kommt es zu langen Laufzeiten. Oft ist aber der aktuelle Kontext entscheidend um zu definieren, welche Inhalte mehr oder weniger relevant für den Kunden sind. Algorithmen, die Ergebnisse nahezu in Echtzeit zur Verfügung stellen, müssen mit einem Bruchteil der Daten auskommen und bieten entsprechend nur eine wesentliche geringere Genauigkeit.

Die Lambda-Architektur ermöglicht ein Zusammenspiel beider Klassen von Algorithmen. Gleichzeitig bietet sie eine Entkoppelung der betrieblichen Risiken von Berechnungsplattform einerseits und Auspielung der Inhalte andererseits.

In meinem Vortrag möchte ich nicht auf die verschiedenen Algorithmen, sondern auf die Eignung der Lambda-Architektur für die Entwicklung in kleinen, agilen Schritten (Babysteps) eingehen. Ich berichte aus unserer Erfahrung in einem kleinen Team, welches eine Lambda-Architektur etabliert hat und dabei bereits nach 2 Wochen einen Mehrwert im produktiven Einsatz geliefert hat. Wir entwickeln diese seit nun fast einem Jahr weiter und haben ein datenzentriertes und hochmodulares System geschaffen. In diesem beschränkt sich technische Schuld auf kleine, einzeln bearbeitbare Komponenten, so dass wir zuversichtlich sind, auch in Zukunft zuverlässig und schnell neue Funktionalität bereitstellen zu können.

Referent:

Christian Stamm ist Diplom-Informatiker, Software-Entwickler und Tech-Lead bei OTTO. Seit einigen Jahren entwickelt er große Internetanwendungen. In den letzten 4 Jahren hat er an der Neuentwicklung von otto.de mitgearbeitet. Innerhalb und außerhalb von OTTO evangelisiert er für Techniken (wie BDD) und Technologien (wie Clojure). Seit Anfang 2015 leitet er ein Team, welches Personalisierungslösungen entwickelt. Dabei setzt er auf verschiedene Sprachen wie Clojure, Python und Scala, moderne Frameworks wie Apache Spark und auf die Lambda Architektur.






Join or login to comment.

  • Uwe S.

    Die Folien von Kai Wähner findet ihr bei den Dateien...

    September 22, 2015

Our Sponsors

People in this
Meetup are also in:

Sign up

Meetup members, Log in

By clicking "Sign up" or "Sign up using Facebook", you confirm that you accept our Terms of Service & Privacy Policy