Binnen BI wordt ETL toegepast om een datawarehouse te vullen met data. ETL staat voor Extract, Transform en load. Deze drie stappen hebben ieder zijn eigen functie

Extract

De eerste stap is data ophalen vanuit de bron. Hierin is het mogelijk om data uit verschillende bronnen op te halen. Meestal wordt data opgehaald uit bronnen zoals een ERP systeem, open data zoals van het CBS, maar ook losse Excellijsten behoren tot de mogelijkheid.

Deze ruw data wordt opgeslagen in de staging van het datawarehouse. Staging staat voor de locatie waar de data wordt neergezet voordat het wordt verwerkt in het datawarehouse.

Bij het ontwerpen van de extract fase is het goed om rekening te houden met de hoeveelheid data die je ophaalt. Zo is het vaak efficiƫnter om data incrementeel in te laden dan dagelijks alle data volledig over te halen.

Transform

In het transform deel van het process, wordt dat bewerkt voordat het wordt opgeslagen. In vele gevallen wordt het transform en load gedeelte in dezelfde procedure afgehandeld.

Data kan op allerlei manieren getransformeerd worden, een aantal voorbeelden:

  • Kolommen samenvoegen of juist splitsen
  • Bepaalde data uitsluiten
  • Data vertalen
  • Calculaties uitvoeren
  • Nieuwe waarden genereren

Load

Als laatste stap wordt de data weggeschreven op een vaste locatie, veelal in een datawarehouse. Data dat getransformeerd is wordt in een datawarehouse weggeschreven in dimensies en feiten.

De frequentie waarin de data geladen wordt is afhankelijk van de wens van de organisatie en de soort data. Zo kan algemene informatie eenmaal per dag bijgeladen worden maar kan data voor op een werkplaats bijvoorbeeld ieder half uur worden ververst.

ELT

Naast ETL is het ook mogelijk om de volgorde om te draaien en eerst te starten met Extract gevolgd door Load en als laatste pas de transformatie. Deze wijze van denken bestaat nog niet zo lang maar zal naar de toekomst toe vaker toegepast gaan worden.