Update Datascience Vitens juli 2019

27 februari 2020

Op 27 juni heeft de datascience groep weer een presentatie gegeven van de resultaten van het afgelopen kwartaal. Als eerste presenteerde Martine Wester de resultaten van het Graafschade project. Dit onderzoek is relevant omdat in ongeveer 2,5% van alle gemelde graafactiviteiten door derden schade wordt veroorzaakt aan ons leidingnet. De grootte van de financiële schade groeit jaarlijks en bedroeg vorig jaar meer dan € 800.000. Bij dit onderzoek wordt nagegaan of het mogelijk is te voorspellen hoe groot de grote kans is dat er bij een bepaalde aannemer/activiteiten combinatie er graafschade zal optreden. Met behulp van deze kennis is het dan mogelijk om preventief acties te ondernemen om de kans op graafschades te verkleinen. De basis van dit onderzoek zijn de (verplichte) klickmeldingen die iedereen moet doen als hij/zij gaat graven in de ondergrond. Bij deze registratie is het verplicht om de locatie, de gegevens van de aannemer en de aard van de uit te voeren werkzaamheden te registreren.

Op basis van deze gegevens is een model getraind. Dit model bleek uiteindelijk twee-derde van de opgetreden graafschades correct te voorspellen.  Dit lijkt niet zoveel, maar aantal graafschades ten opzichte van de totale klickmeldingen is relatief laag. Vergelijk is dus met het zoeken van een naald in een hooiberg waarbij twee-derde van de naalden worden teruggevonden. Een aantal graafschades zullen nooit te voorspellen zijn, want ongelukjes kunnen altijd plaatsvinden, hoe goed de aannemer ook is. We hebben dus nu een getraind model en kunnen daarmee de kans op graafschade per combinatie aannemer/graafactiviteit in een groot aantal gevallen voorspellen. Tijdens de inhoudelijk discussie na de presentatie is geopperd om meerdere variabelen zoals grondslag en andere omgevingsvariabelen mee te nemen. Indien deze gegevens beschikbaar zijn, zullen deze in een tweede versie worden meegenomen.

MapR Cluster
Als tweede presentatie heeft Jordy Nieland een update gegeven van de ingebruikname van het MapR cluster. Het MapR cluster is een cluster van servers waar onder Spark het mogelijk wordt om een veel snellere rekentechniek toe te passen. Het is mogelijk om hier grote databases afkomstig uit verschillende hoeken van Vitens met elkaar te combineren. Rekenkracht en data worden hier gecombineerd. In deze Sparkomgeving zijn verschillende data exploratie tools aanwezig zoals PowerBI, Tableau, Zeppelin, SQL of programmeertalen zoals R of Python. Als voorbeeld laat Jordy de verwerking van een database zien waarin alle meterstanden staan die bij Vitens gearchiveerd zijn. Het betreft een databestand met 78 miljoen regels ter grootte van meer dan 10 GB. Alleen al het extraheren van deze dataset vanuit SAP heeft meer dan 24 uur in beslag genomen! Eenmaal in onze MapR omgeving kan met behulp van Spark deze dataset in enkele tientallen seconden worden verwerkt. Zo is het nu mogelijk om een plaatje te maken waarin we zien op welke wijze de meterstanden van onze klanten binnenkomen. Zo is duidelijk te zien dat er een mooie verschuiving plaatsvindt van meterkaarten die via de post worden verstuurd naar meterstanden die via internet binnenkomen.

Als laatste geeft Sjoerd Boersma de resultaten van een analyse van de vraag hoe groot een balansgebied nu moet zijn om lekken te detecteren. Vitens is bezig de grootte van de (deel)balansgebieden te optimaliseren. Als we allemaal hele kleine balansgebieden creëren kunnen we kleine lekken goed detecteren, maar zijn de kosten torenhoog. Laten we de balansgebieden heel groot is dat wel goedkoop, maak kunnen we bijna geen lekken meer detecteren.

Om niet vast te lopen in eindeloze theoretische exercities heeft Sjoerd gekozen voor een hele praktische aanpak. Vitens heeft per slot een goede tool om lekken in de bestaande (deel)balansgebieden op te sporen, namelijk de DBM. Door in de gemeten data kunstmatig heel veel lekken te introduceren van verschillende grootte en verschillende tijdstippen en die te laten detecteren met de DBM kon worden nagegaan hoe snel welke percentage van de lekken kon werden teruggevonden. Dit werd uitgevoerd op balansgebieden van verschillende grootte en met verschillende lekgrootte. Door de DBM te gebruiken als analysetool wordt ook een realistische weergave verkregen van de lekken die we in de praktijk ook kunnen opsporen.

Als eerste resultaat kan ruwweg worden gezegd dat een lek ter grootte van de helft van het gemiddelde verbruik van dat balansgebied bijna altijd (93% van de gevallen) binnen een half uur kan worden gedetecteerd. Tijdens de discussie wordt aangegeven dat dit een eerste poging betreft om een grootte van een balansgebied te bepalen. Deze methode is bijvoorbeeld gevoelig voor grootverbruikers die erg onregelmatig veel water innemen. Bij een vervolganalyse zou hiervoor en voor andere verstorende factoren gecorrigeerd moeten worden.

Ontwikkeling verdeling opnamesoorten van meterstanden vanaf 2000

Gerelateerde artikelen

Kwartaal Kennisdeling Datascience

Kwartaal Kennisdeling Datascience

Data. Mogelijk denk je hierbij alleen aan wat cijfertjes, maar een groot deel van Vitens’ processen en werkzaamheden zijn op data gebaseerd én hierdoor verbeterd. Vanuit het Vitens Datascience team informeren we je graag over de belangrijke dataprojecten die er binnen...

Lees meer