Inhoudsopgave
Data-integratie in het kort
Data-integratie (data integration) is het verzamelen van data van verschillende bronnen binnen het bedrijf. De bedoeling is om zich ervan te vergewissen dat de opgevraagde data compleet en precies zijn. Door middel van de integratie kunnen verschillende data geconsolideerd worden, ook als ze andere eigenschappen hebben (bijvoorbeeld gestructureerde data, ongestructureerde data, gestreamde data, etc.) Op deze manier zorgen bedrijven ervoor dat ze steeds de correcte data bij de hand hebben voor bedrijfsactiviteiten waarbij ze een database moeten raadplegen, of complexe analyses moeten uitvoeren.
Uit een onderzoek dat de Harvard Business Review in 2017 uitvoerde onder een groep Ierse bedrijven, bleek slechts 3% van de bestudeerde bedrijfsdata aan de basiskwaliteitseisen te voldoen.
Data kunnen handmatig bijeengebracht worden, door bijvoorbeeld gegevens uit een database te kopiëren en te plakken in een klantendossier. Dit kan eenmalig een handige werkwijze zijn, maar zodra er op grote schaal data moeten worden geconsolideerd, dan is dit niet meer haalbaar. Daarom bieden veel (grote) softwarefabrikanten platformen aan voor data-integratie. Enkele voorbeelden hiervan zijn Oracle Data Integration Suite, IBM Cloud Pack for Integration en SAP Cloud Platform Integration Suite.
Waarvoor dient data-integratie?
Sinds de komst van internet en applicaties in de cloud komen er niet alleen steeds meer data bij. Zij zijn ook meer verspreid over verschillende systemen. De meeste bedrijven doen aan data-integratie met een van de volgende doelen voor ogen:
-
- Creatie van data lakes: sommige bedrijven willen hun data centraliseren in onbewerkte vorm. In deze ‘datameren’ worden gegevens opgeslagen zonder ze eerst te structureren of aan te passen aan andere soorten data. Meestal gaat het om BLOBs of losse bestanden.
- Beheer van masterdata en dataconsistentie: vaak wordt data-integratie ingezet om ervoor te zorgen dat de verschillende bedrijfsentiteiten en -domeinen gekoppeld zijn (bijvoorbeeld klantbeheer , omgang met leverancier , HRM , productie etc.). Door de data van de verschillende processen te integreren met elkaar, krijgen bedrijven goede masterdata , die op hun beurt weer de basis vormen voor een goede informatievoorziening bij alle bedrijfsprocessen. Ook de dataconsistentie tussen applicaties zal verbeteren, want deze baseren zich allemaal op dezelfde masterdata in de database .
- Datamigratie: wanneer er van de een bedrijfsapplicatie wordt overgestapt op de andere, moet er een datamigratie plaatsvinden. Hierbij wordt er ook aan data-integratie gedaan. De data volgen namelijk het ETL-principe bij de overzetting naar het nieuwe systeem. Zo zorgen bedrijven ervoor dat de data uit het oude systeem compatibel zijn met het nieuwe systeem, en dat de gegevens geïntegreerd worden met de data in dit nieuwe systeem.
- Data replication: op bepaalde momenten worden er in bedrijven kopieën (‘replica’s’) gemaakt van de database. Dit doen bedrijven bijvoorbeeld voor het doorvoeren van een update of het maken van een back-up . Zo kunnen de data teruggehaald worden mocht er iets misgaan met de update of back-up. Het maken van zo’n replica is echter niet altijd eenvoudig kopieerwerk. Heel vaak is het databasesysteem voor de kopie net iets anders ingedeeld, of gebruikt het een andere variant van SQL . In zulke gevallen zal er een data-integratie moeten plaatsvinden.
- Centralisering van data uit verschillende bronnen: bedrijven die data willen gebruiken uit heel verschillende bronnen maken vaak gebruik van een datawarehouse of data service . Zo kunnen gebruikers in verschillende applicaties dezelfde data gebruiken, zonder dat ze deze handmatig hoeven over te zetten.
- Voorbereiding van data voor BI-systemen: voor hun analyses hebben BI-systemen data uit verschillende bronnen nodig. Het formaat van deze data is hierbij van belang. Als dit formaat niet uniform en compatibel met het BI-systeem is, dan zullen de analyses niet correct zijn. Voor de data-integratie worden meestal data services gebruikt. Enkele voorbeelden daarvan zijn: Microsoft Dataverse , gebruikt voor de applicaties van PowerApps (bijvoorbeeld Power BI ); of SAP Data Center, gebruikt voor systemen als SAP BusinessObjects en SAP Analytics Cloud .
Welke uitdagingen komen er kijken bij data-integratie?
Data-integratie is geen eenvoudig proces. Het is dus belangrijk goed voor ogen te hebben waarom en hoe het proces wordt aangegaan. Daarbij moet vooral op onder meer de volgende zaken worden gelet:
Het ontwerp moet correct zijn
Met het ontwerp bedoelen we hier de details van de data-integratie. Maak op voorhand een goede analyse van de redenen en voorwaarden voor de integratie. Dit gaat over functionele zaken, zoals het waarom van de integratie en welke doelstellingen het bedrijf wil behalen; maar ook over niet-functionele zaken, zoals de hoeveelheid gebruikers en hoe lang het integratieproces maximaal mag duren.
De implementatie is niet altijd eenvoudig
Zodra de analyse van de redenen en voorwaarden voor de integratie gebeurd is, moet een bedrijf kijken naar het soort data dat geïntegreerd moet worden, en naar welke methode en software hier het meest geschikt voor is. De keuze voor de een of een andere software is mede afhankelijk van de bedrijfssituatie en de toekomstplannen. Een bedrijf dat in volle groei is zal een systeem willen dat schaalbaar is, en derhalve grotere hoeveelheden complexe data aankan. Een klein bedrijf dat niet meteen denkt te groeien en wil besparen op de implementatie- en licentiekosten , zal een eenvoudiger systeem zoeken.
Sommige data zijn nauw verbonden met het systeem waarin ze aangemaakt zijn. Ze hebben bijvoorbeeld een erg specifiek formaat, dat exclusief is voor het systeem. In het algemeen zijn deze data moeilijker te integreren in andere systemen. Daarom is er vaak een echte datatransformatie nodig (data modeling). Een voorbeeld: een Amerikaans systeem zal het jaar/maand/dag-model aanhouden (jjjj/mm/dd), terwijl een Europees systeem het dag/maand/jaar-model gebruikt (dd/mm/jjjj). Bij de integratie van data uit de twee systemen is dus een transformatie nodig.
De investering kan groot zijn
Systemen voor data-integratie zijn vaak niet erg gebruiksvriendelijk voor leken. De meeste organisaties moeten een specialist inschakelen voor de integratie. Dit is natuurlijk geen goedkope zaak. Deze kosten komen bovenop de prijs van de software , een eventuele investering in hardware (zoals een nieuwe server ) en operationele kosten (eventuele downtime en investeringstijd van medewerkers).
Hoe komt data-integratie tot stand?
Er zijn diverse manieren om een data-integratie uit te voeren. De beste manier zal afhangen van de wensen en eisen van het bedrijf. Dit zijn de meest voorkomende methodes:
- Manual data integration: de data worden handmatig gecentraliseerd in één opslagruimte. De persoon of afdeling die zich met de integratie bezighoudt moet de data één voor één uit de verschillende systemen halen, en ze omzetten naar eenzelfde formaat. Deze methode wordt alleen gebruikt in kleine bedrijven met weinig te integreren data, want ze vergt enorm veel tijd. Bovendien worden fouten al snel gemaakt, én is er een expert in codetaal nodig (meestal SQL).
- Middleware data integration: middleware wordt gebruikt om data uit het ene systeem bruikbaar te maken voor het andere. Meestal wordt middleware ingezet als een van de twee systemen verouderd, maar nog steeds in gebruik is (legacy system). De middleware is in dit geval een soort van vertaler van data, waardoor de data uit het oude systeem bruikbaar worden voor het nieuwe systeem.
- Application-based integration: hierbij worden data uit verschillende applicaties geïntegreerd. Belangrijk om te vermelden is dat dit alleen optimaal werkt als het om een beperkt aantal applicaties gaat. De integratiesoftware moet namelijk uit elke applicatie apart de data extraheren. Bij een groot aantal applicaties wordt de capaciteit van de software al snel overschreden. Nog essentieel om te weten is dat niet alle software die integraties tussen applicaties verzorgt, de data ook echt transformeert. Software die zich baseert op ETL doet dit wel, maar als het bedrijf andere software gebruikt, is de kans groot dat de integratie alleen werkt met data uit compatibele applicaties.
- Uniform access integration: bij dit soort integratie worden de data zelf niet getransformeerd. Ze blijven in hun originele systeem staan en behouden hun originele vorm. Maar, er wordt wel een interface gemaakt waarin de data er hetzelfde uitzien. Als de gebruiker de data vanuit een ander, gekoppeld systeem wil raadplegen, ziet deze dus geen verschil tussen de data uit de ene of de andere bron. Dit systeem wordt vaak gebruikt bij bedrijven die verschillende soorten databases hebben. Zo hoeven de meeste werknemers niet eens op de hoogte te zijn van de verschillende systemen. Zij zien één uniforme interface.
- Common storage integration: bij deze integratie wordt een kopie gemaakt van data uit verschillende bronnen. Deze kopie wordt dan opgeslagen in een datawarehouse of data service . Zo wordt er, net als bij uniform access integration, een uniforme interface gemaakt. Het verschil tussen beide technieken is echter dat de data bij common storage integration ook echt gekopieerd worden in een ander systeem, en getransformeerd worden. Dit gebeurt meestal met behulp van ETL-processen.