Een datawarehouse is een databeheersysteem gericht op inzicht en overzicht op uw data uit onderliggende bronsystemen. Een datawarehouse werkt vaak ondersteunende voor analyses op het gebied van Business Intelligence (BI). Datawarehouses bevatten vaak grote hoeveelheden (historische) gegevens waarbij data uit verschillende bronnen gecombineerd kan worden en beschikbaar gemaakt kan worden in de vorm van logisch bijeen horende sets van bewerkte data (datamarts).
Typische functionaliteiten die door een datawarehouse worden ingevuld zijn het centraal beheren van gehanteerde definities met betrekking tot data (Business Rules), het bewaren van historische gegevens daar waar in onderliggende systemen die mogelijkheid voor die gegevens ontbreekt en het ontlasten van operationele systemen als het gaat om verdere data analyse. Samenvattend omvat een datawarehouse een gestructureerde hoeveelheid data voor specifiek gebruik.
Data lake
Een datalake is een faciliteit voor opslag van grote hoeveelheden ongestructureerde data. Het grote verschil met een datawarehouse is dat in een data lake alle data ongestructureerd wordt opgeslagen. In een data lake kunnen tekstbestanden, databases, e-mails en nog veel meer soorten gegevens worden opgeslagen. De voordelen die samenhangen met deze ongestructureerde vorm van opslag liggen in het feit dat het opslaan van data op deze wijze bijzonder eenvoudig wordt; er zijn geen uitgebreide bewerkingen nodig alvorens data kan worden opgeslagen. De andere kant van deze medaille is dat als je de data wilt gebruiken voor andere toepassingen je dan achteraf logica moet aanbrengen om de data juist te interpreteren.