Ongestructureerde Data Maskeren – een voorspellende waarde

Geplaatst door CorporatieMedia op
 

De laatste tijd wordt er vaak gesproken over ‘data als het nieuwe goud’. Door data slim te gebruiken zouden organisaties meer toegevoegde waarde kunnen leveren aan hun klanten. Als toepassingsmogelijkheden wordt dan o.a. gesproken over slimme analyses waarmee toekomstig gedrag voorspeld kan worden of over het betrouwbaar testen van software om productie incidenten te voorkomen.

Ook voor woningcorporaties geldt dit: stel dat je door aanwezige gegevens goed te analyseren bijvoorbeeld kunt voorspellen dat huurders een groter dan gemiddeld risico lopen op een huurachterstand. Dan zou je hier proactief op kunnen acteren waarmee je dit voorkomt. Of je weet uit een analyse van historische reparatiegegevens dat een cv-ketel vaak 3 maanden na de vervanging van een onderdeel toch uitvalt. Ook hier kun je dan acties aan koppelen.

Om dit soort analyses te kunnen doen, maar ook om betrouwbaar softwareapplicaties te kunnen testen of opleidingen te verzorgen, moet je als corporatie de gegevens gebruiken die je over tijd verzameld hebt.

Maar als het gaat om persoonsgegevens, dan is het gebruik daarvan aan strenge regels gebonden. Je mag persoonsgegevens namelijk niet gebruiken zolang ze herleidbaar zijn. Dit kun je oplossen door de gegevens te maskeren: hierbij maak je ze onherleidbaar maar zorg je dat ze wel r epresentatief blijven.

Voor gestructureerde gegevens kon dit al. Veel woningcorporaties gebruiken de Datafactory van EntrD om dergelijke gegevens te maskeren. Er is sprake van gestructureerde gegevens als het gaat om gegevens die netjes in een tabel opgeslagen worden. Je kunt dan bijvoorbeeld denken aan namen of een geboortedatum. Dergelijke gegevens worden altijd op een vaste manier opgeslagen in een database.

Maar een groot deel van alle gegevens die u als corporatie verwerkt is ongestructureerd. Denk bijvoorbeeld aan gespreksnotities van uw KCC of aan een binnenkomende e-mail van een huurder. Tot nu toe was het niet mogelijk om deze gegevens te maskeren waarbij de gegevens wel representatief bleven. Terwijl juist uit ongestructureerde gegevens veel waarde gehaald kan worden.

Als ongestructureerde gegevens gemaskeerd werden, dan gebeurde dit vaak karakter voor karakter. Het resultaat was dan een volledig onherleidbare maar ook volledig onleesbare tekst. Terwijl je in een gespreksnotitie eigenlijk alleen de persoonsgegevens zou willen vervangen. De rest van de tekst wil je kunnen blijven lezen zodat je hem kunt gebruiken voor analyses.

Denk bijvoorbeeld aan een huurdersdossier. Als het dossier onherleidbaar gemaakt is maar wel leesbaar blijft, dan kun je dit makkelijker en breder inzetten dan nu het geval is. De afgelopen periode hebben wij daarom hard gewerkt aan een nieuwe module voor de Datafactory waarmee ook ongestructureerde data gemaskeerd kan worden met behoud van de voorspellende waarde. De komende periode gaan we dit bij de eerste corporaties uitrollen om samen te kijken hoe we dit nog verder kunnen optimaliseren.

Bron: CorporatieGids 2019 | Foto: EntrD