WhatsApp Facebook Twitter LinkedIn Mail

Datawarehousing (DWH)

Datawarehousing wordt verschillend omschreven

Een duidelijke definitie van datawarehousing is niet eenvoudig te geven. De originele beschrijving door Bill Inmon, de vader van datawarehousing, luidt als volgt: “Datawarehousing is een onderwerpgeörienteerde, geïntegreerde, tijdsafhankelijke gegevensverzameling die aan de basis ligt van managementbeslissingen” (Inmon, 1992, eigen vertaling). Dit is tot op de dag van vandaag de meest gebruikte omschrijving van het begrip.

In haar originele betekenis betekent datawarehousing dus puur het opslaan van informatie. Toch geeft Inmon de gegevensverzameling meteen een doel: zakelijke beslissingen nemen. Daarmee ligt datawarehousing aan de basis van Business Intelligence (BI). De nauwe verwantschap tussen de twee begrippen heeft ertoe geleid dat de termen DWH en BI naast elkaar bestaan, maar in hun praktische invulling vaak synoniemen zijn.

Waarom richten bedrijven een datawarehouse in?

In een datawarehouse wordt informatie uit allerlei bedrijfstoepassingen opgeslagen: van het DMS tot HRM en ERP. Een datawarehouse verzamelt deze informatie in principe dus niet zelf. Gegevens kunnen ook niet in het warehouse zelf worden bewerkt. Door de relevante informatie snel beschikbaar te maken kunnen allerlei soorten rapportages echter wel efficiënt gemaakt worden.

Rapportages kunnen natuurlijk ook rechtstreeks vanuit het ERP gemaakt worden. De (beperkte) rapportagemodules die veel ERP-systemen bieden zijn voor bepaalde bedrijven dan ook voldoende. Toch kan een datawarehouse een hele tijdsbesparing zijn voor bedrijven die op grote schaal data verzamelen en die een algemeen inzicht willen krijgen in hun bedrijfsvoering. De centrale verzameling van data zorgt ervoor dat er meer holistische analyses kunnen gemaakt worden. Hierdoor kunnen echte beleidsbeslissingen gemaakt worden en strategieën geoptimaliseerd worden. Ook voor overzichtsrapportages naar de aandeelhouders toe is deze overkoepelende aanpak handig.

Tot slot helpt de combinatie van een algemeen beeld en gedetailleerde informatie in een DWH bedrijven ook om aan te tonen dat ze aan en bepaalde wet voldoen. Wanneer een wetgever een klacht over bijvoorbeeld slecht bedrijfsbeheer of privacy ontvangt, kan deze bepaalde data opvragen. Een bedrijf dat zijn data en activiteiten in bruikbare vorm voorhanden heeft in het DWH, kan zich beter verantwoorden en heeft dus minder kans om in de fout te gaan.

Verschillende datamodellen

Een datawarehouse kan op heel wat verschillende manieren worden ingericht. De bekendste modellen zijn de originele Inmon-methode en de Kimball-methode. Daarnaast is er ook nog het nieuwere Data Vault. Welke methode ideaal is zal per bedrijf verschillen.

Inmon-methode

Als vader van de datawarehousing hanteert Inmon een top-down-aanpak. Volgens zijn model begint de inrichting van een DWH namelijk met de overkoepelende structuur. Hierbij wordt eerst het hele gestandaardiseerde datamodel opgezet, en daarna de data marts.

Data marts kunnen beschreven worden als kleine databases binnen het datawarehouse.

Data marts bevatten specifieke informatie voor een welbepaald departement of uit een bepaalde applicatie. Net als het datamodel zelf zijn deze data marts gestandaardiseerd. Er wordt dus op voorhand bepaald welke informatie erin terecht komt en hoe die vorm krijgt binnen de data marts. De Inmon-methode is vooral geschikt voor bedrijven die volgens erg strakke en gestandaardiseerde bedrijfsprocessen werken. Bovendien is het een erg holistisch en gestructureerd model. De kleinere data marts komen naadloos samen in het grotere datamodel. De inrichting en opstart van het hele model vragen wel wat meer tijd en investering dan de Kimball-methode, maar door de eenduidige indeling vergt het systeem relatief weinig onderhoud.

Kimball-methode

Kimball geeft een eerste alternatief voor de traditionele Inmon-methode: een bottom-up-aanpak. Hierbij wordt er niet initieel uitgegaan van een gestandaardiseerd datawarehouse. In plaats daarvan wordt eerst gefocust op de eigenlijke dataverzameling. Dan wordt de data ingedeeld in data marts. Zodra deze data marts aangemaakt zijn, kunnen zij dan weer gegroepeerd worden in een groter model. De structuur van zowel de marts als het grotere datamodel hangen dus af van het soort data dat een bedrijf wil verzamelen. De Kimball-methode wordt vooral gekozen door bedrijven die snel operationeel willen zijn en geen grote investeringen willen of kunnen doen. Bovendien is het een meer flexibele werkwijze, aangezien het bovenliggende model steeds beïnvloed wordt door de data marts. Het grootste nadeel dat bedrijven ondervinden van deze methode is een gebrek aan een overkoepelende structuur.

Data Vault

De Data Vault, uitgedacht door Dan Linstedt, is de nieuwste en misschien wel de meest ingewikkelde manier om aan datawarehousing te doen. Dit model combineert namelijk allerlei manieren van gegevensverzameling en linkt deze gegevens ook op verschillende manieren aan elkaar. Een Data Vault bestaat uit drie componenten:

  1. Hubs
  2. Links
  3. Satellieten

Om de componenten te verduidelijken gebruiken we hier gegevens uit een ERP-systeem voor de handel.

De hubs binnen de Data Vault zijn tabellen die de business-entiteit weergeven. Een business-entiteit kan bijvoorbeeld zijn ‘klant’, ‘product’ of ‘magazijn’. De entiteit kan hierin geïdentificeerd worden via een uniek codenummer of met zijn verschillende benamingen.

De links geven relaties of transacties tussen hubs weer. Zo kan de relatie tussen een product en het magazijn een voorraadniveau aangeven. De transactie die tussen product en klant verloopt is dan weer een aankoopactie.

Satellieten vervolledigen het datamodel. Ze voegen namelijk extra relevante informatie over de hub of de link toe. Dit kan bijvoorbeeld gaan over locatiegegevens van de klant, speciale kortingen, etc.

Wat Data Vault nog wat ingewikkelder maakt is dat de gegevens uit verschillende bronnen en in verschillende versies komen. Alle gegevens worden net zo opgeslagen als ze geregistreerd zijn. De verantwoordelijkheid over de betrouwbaarheid van de gegevens wordt zo dus bij de bronnen gelegd. Wel is het zo dat historische gegevens ook worden bewaard. Een update van bepaalde data elimineert de voorgaande versies dus niet.

Data vault wordt vaak geïmplementeerd door bedrijven die hun data op een heel dynamische manier willen weergeven, en die veel belang hechten aan de onderliggende relaties. Eigenlijk gaat Data Vault al een hele stap verder dan datawarehousing. De inrichting van de informatie zorgt namelijk rechtstreeks voor interpretaties die technisch gezien meer onder BI vallen.

Dit artikel als bron gebruiken? Klik en kopieer.

European Knowledge Center for Information Technology (Ed.). (2018, 24 januari). Datawarehousing (DWH). ICT Portal. https://www.ictportal.nl/ict-lexicon/datawarehousing-dwh