Datawarehouse, data lake of data lakehouse?

Geplaatst door CorporatieMedia op
 

Als Blue-Mountain geloven we zeer sterk dat organisaties die gaan sturen op basis van harde feiten (data), het verschil gaan maken. Steeds meer organisaties komen tot het inzicht dat de informatie uit hun huidige (en oude) systemen van grote waarde is en dat die waarde zelfs alleen maar gaat toenemen. Het credo ‘data is het nieuwe goud’ komt dan ook niet uit de lucht vallen. Maar goud wordt bewaard in een stevige, brand- en schokbestendige kluis waardoor we zeker weten dat we over vijf jaar nog steeds over het goud kunnen beschikken. Hebben we net zo veel aandacht voor de opslag van onze data? Voor veel organisaties is het antwoord op deze vraag ‘nee’. 

Wij mogen bij veel organisaties een kijkje nemen in de ‘data-keuken’ en daaruit ontstaat het volgende beeld: bij de gemiddelde organisatie in Nederland wordt de data niet of slechts deels centraal vastgelegd. Bij organisaties die wel beschikken over een centrale dataopslag, voldoet deze vaak niet meer aan de (veranderde) wensen vanuit de organisatie. Zo is bijvoorbeeld een datawarehouse opgezet om dashboards te voeden, maar kan een data analist of data scientist niet met het datawarehouse uit de voeten en er niet de data uit halen die men wil. Ook wordt het datawarehouse vaak gevuld op basis van de informatie die in de dashboards dient te worden getoond, in plaats van dat alle data van de organisatie centraal wordt vastgelegd. Hierdoor wordt het bijvoorbeeld lastig of erg tijdsintensief om een spontane informatievraag te beantwoorden of snel een nieuw duurzaam inzicht te ontwikkelen op basis van data. 

Maar hoe zorg je dan wel voor een moderne centrale dataopslag waarmee je borgt dat je zowel in je huidige als je toekomstige informatiebehoefte kunt voorzien? De ontwikkelingen op dat vlak volgen zich razendsnel op en zoals we gewend zijn binnen de IT, vliegen de termen je om de oren. Waar voor veel mensen een data lake nog klinkt als iets hypermoderns, hebben we het tegenwoordig alweer over de lakehouse architectuur. In dit artikel nemen we je op hoofdlijnen mee in de verschillende technieken en architecturen van data opslag. Te beginnen met het klassieke datawarehouse. 

Data is het nieuwe goud, maar zorgen we net zo goed voor onze data als voor onze waardevolle spullen?

Het datawarehouse
Een datawarehouse is een gestructureerde verzameling van gegevens die vooraf zijn gemodelleerd en geoptimaliseerd voor analyse en rapportage, veelal gebaseerd op een database management systeem. Deze vorm van opslag bestaat alweer sinds het einde van de jaren ’80. Een datawarehouse is geschikt voor bedrijven die hun gegevens willen gebruiken om dashboards te voeden en (mits goed ingericht) om self-service BI te bieden aan eindgebruikers.  

Het data lake
Maar voor complexere analyses en zaken als machine learning, is een data lake de juiste oplossing. Een data lake is een plek waar ruwe en ongestructureerde gegevens worden opgeslagen voor bijvoorbeeld toekomstig gebruik. Hiermee kan een datalake in de toekomst voorzien in een informatiebehoefte die er nu nog niet is. Blue-Mountain hanteert bij de implementatie van een datalake de zogenaamde ‘medallion archictecture’ waarbij data uit het datalake in twee verschillende vormen beschikbaar wordt gesteld: 

Data lake ontsluiting volgens de medallion architecture

  1. De bronzen laagdeze laag biedt de daadwerkelijke ruwe en ongestructureerde gegevens
  2. De zilveren laagin deze laag zijn de gegevens uit de bronzen laag ontdaan van dubbelingen en geüniformeerd qua outputformaat (deltalake) en inhoud (bijvoorbeeld één wijze van postcode notatie over alle bronnen heen)

Het data lakehouse
Maar wat is dan een data lakehouse? Een data lakehouse is een combinatie van een datawarehouse en een data lake, waar zowel gestructureerde als ongestructureerde gegevens worden opgeslagen en verwerkt met behulp van dezelfde technologie. Binnen een lake house wordt de data op een uiterst efficiënte manier opgeslagen en verwerkt waardoor de (cloud)kosten vaak lager zijn dan de kosten van enkel een klassiek data warehouse. Een data lakehouse is geschikt voor bedrijven die het beste van beide werelden willen combineren: de snelheid en betrouwbaarheid van een datawarehouse met de schaalbaarheid en flexibiliteit van een data lake. Wanneer we spreken over een lakehouse worden de bronzen en zilveren laag uit het datalake aangevuld met een zogenaamde gouden laag. Deze gouden laag vormt de output van het data warehouse deel en kan worden ingezet voor zaken als dashboarding, self-service en maken van voorspellende modellen.  

Waar moet je op letten? 
Zorg dat de organisatie zelf eigenaar is van de oplossing. 

Breng het beheer van de oplossing onder bij een onafhankelijke partij (niet de leverancier van een van de bronsystemen) om de continuïteit van je informatievoorziening te borgen. 

Zorg voor één centrale plek waar al je data samenkomt. Neem dus niet bij elke systeem leverancier een eigen datalake(je) af. 

Ons advies
Begin gisteren met het veiligstellen van alle data van de organisatie zodat je over een aantal jaar niet achter de feiten aanloopt. Hoe je hier precies invulling aan moet geven verschilt van organisatie tot organisatie, maar op hoofdlijnen adviseren wij het volgende: 

  • Beschikt je organisatie reeds over een datawarehouse waar goed gebruik van wordt gemaakt? Denk dan over het uitbreiden van je data architectuur met een datalake. Het implementeren van een volledig lakehouse is (nog) niet nodig en kan altijd in de toekomst nog worden gedaan als uitbreiding op het datalake. 
  • Staat centrale dataopslag bij je organisatie echt nog in de kinderschoenen? Begin dan met het formuleren van een visie op dit onderwerp en zet de eerste stappen richting de inrichting van een data lake. Bepaal vervolgens je ambitie en werk een plan uit om het data lake steeds verder te laten groeien (meer bronnen toevoegen) en op termijn te laten uitgroeien tot een volledig lakehouse.  

Wil je weten waar je precies staat als organisatie hoe je een volgende stap zet? Wij komen graag een keer praten. 

Bron: Blue-Mountain, Foto: Blue-Mountain