Data Science Model Performance in Productie.


Details
(this meetup is in Dutch)
Dit is de tweede meetup van een reeks meetups waarin we je meenemen door het hele landschap van big data engineering en infra architectuur. De meetups zijn losstaand te volgen, maar passen daarnaast ook in een doorlopend verhaal.
In de vorige meetup hebben we data science modellen in productie gezet. Deze modellen werken nog op small data in plaats van big data. Het doel is natuurlijk om deze ook op big data te kunnen toepassen. Daarom gaan we na de zomervakantie van start met stream processing op big data. Maar voordat we die kant op gaan, dienen we eerst een grondige basis te leggen qua monitoring, logging, en tracing van de gebeurtenissen in ons productie systeem. Dit zorgt ervoor dat we ten alle tijde op de hoogte zijn van mogelijke performance issues, en fouten kunnen herleiden tot individuele gevallen.
Dit leidt ons tot het onderwerp van deze meetup: Operationeel monitoren van een big data omgeving. En hier nog specifieker: het monitoren van data science modellen in productie.
Schema:
17:45 uur Ontvangst
18:00 uur Food & Drinks
18:30 uur Data Science Performance Monitoring in Productie: Use Case, Architectuur, en Technieken
19:00 uur Hands-on
20.45 uur Conclusie & wrap up
Data Science Performance Monitoring in Productie: Use Case, Architectuur, en Technieken
Monitoring, logging, en tracing van gebeurtenissen in een big data infrastructuur wordt vaak achteraf pas in een systeem ingebouwd. Dit is zonde, want als je vanaf begin af aan al goed inzichtelijk hebt wat er in je systeem gebeurt, kun je daar adequaat op handelen. Denk hierbij aan het opsporen van fouten in de software waar eindgebruikers last van kunnen ondervinden, maar ook het aansturen van de besluitvorming rondom het verbeteren van data science modellen.
Bram Neijt en Ruurtjan Pul (Big Data Engineers) bespreken samen concepten, architectuur, en technieken om data science modellen die in productie draaien te kunnen monitoren, fouten te kunnen loggen, en individuele requests te kunnen tracen. De volgende onderwerpen en argumentatie voor de keuze ervan komen o.a. aan bod: A/B testen van data science modellen op basis van specifieke data science metrieken, logging d.m.v. Logstash, en indexering en visualisatie/dashboarding d.m.v. ElasticSearch en Kibana.
Hands-on in teams
We gaan in teams aan de slag om data science modellen operationeel te kunnen monitoren. Elk team gaat zijn eigen dashboard maken om de operationele performance van een tweetal data science modellen te kunnen monitoren en te vergelijken.
Benodigdheden voor het hands-on gedeelte:
• Laptop met Virtual box
• Enige Python kennis

Data Science Model Performance in Productie.