data warehousing fundamentals
Lær alt om grundlæggende datalagring. Denne dybdegående vejledning forklarer, hvad der er datalagring sammen med dets typer, egenskaber, fordele og ulemper:
Et datalager er den seneste lagertendens i dagens IT-industri.
Denne vejledning skal forklare Hvad er et datavarehus? Hvorfor er datalagring afgørende? Typer af datavarehusapplikationer, karakteristika ved et datavarehus, fordele og ulemper ved datalagring.
Liste over vejledninger i datalager i denne serie:
Tutorial # 1: Grundlag for datalagring
Tutorial # 2: Hvad er ETL-proces i datavarehus?
Tutorial # 3: Test af datalager
Tutorial # 4: Dimensional datamodel i datalager
Tutorial # 5: Skematyper i modellering af datalager
Tutorial # 6: Data Mart Tutorial
Tutorial # 7: Metadata i ETL
Oversigt over selvstudier i denne datalagringsserie
Tutorial_Num | Hvad du vil lære |
---|---|
Tutorial # 7 | Metadata i ETL Denne tutorial forklarer rollen for metadata i ETL, eksempler og typer af metadata, metadata Repository & udfordringer i metadataadministration. |
Vejledning nr. 1 | Grundlag for datalagring Lær alt om datalagringskoncepter fra denne vejledning. Denne dybdegående vejledning forklarer, hvad datalagring er sammen med dets typer, egenskaber, fordele og ulemper. |
Tutorial # 2 | Hvad er ETL-proces i datavarehus? Denne dybdegående tutorial om ETL-proces forklarer Process Flow & Steps Involved in the ETL (Extraction, Transformation, and Load) Process in Data Warehouse. |
Tutorial # 3 | Test af datalager Mål og betydning for datalagertest, ETL-testansvar, fejl i DW og ETL-implementering i detaljer i denne vejledning. |
Vejledning nr. 4 | Dimensional datamodel i datalager Denne vejledning forklarer fordelene og myterne ved dimensionel datamodel i datavarehus. Du lærer også om dimensionstabeller og faktaborde med eksempler. |
Tutorial # 5 | Skematyper i modellering af datalager Denne vejledning forklarer forskellige typer af datavarehus-skemaer. Lær hvad der er stjerneskema og snefnugskema og forskellen mellem stjerneskema og snefnugskema. |
Tutorial # 6 | Data Mart Tutorial Denne vejledning forklarer Data Mart-koncepter, herunder Data Mart Implementation, Typer, Struktur samt forskelle mellem Data Warehouse Vs Data Mart. |
Hvad du lærer:
Grundlæggende om datalagring: En komplet guide
Målgruppe
- Datalager / ETL-udviklere og testere.
- Databaseprofessionelle med grundlæggende viden om databasekoncepter.
- Databaseadministratorer / Big data-eksperter, der ønsker at forstå begreber til datalager.
- College kandidater / Freshers, der er på udkig efter datalagerjob.
Hvad er datalagring?
Et datavarehus (DW) er et arkiv med enorme mængder organiserede data. Disse data konsolideres fra en eller flere forskellige datakilder. DW er en relationsdatabase, der primært er designet til analytisk rapportering og til tiden beslutningstagning i organisationer.
Data til dette formål isoleres og optimeres fra kildetransaktionsdataene, hvilket ikke har nogen indflydelse på hovedforretningen. Hvis en organisation indfører en forretningsændring, bruges DW til at undersøge virkningerne af denne ændring, og derfor bruges DW også til at overvåge ikke-beslutningsprocessen.
Datalageret er for det meste et skrivebeskyttet system, da driftsdata er meget adskilt fra DW. Dette giver et miljø til at hente den højeste mængde data med god forespørgsel.
DW vil således fungere som backend-motor for Business Intelligence-værktøjer, der viser rapporterne, dashboards til forretningsbrugere. DW bruges i vid udstrækning inden for bank-, finans-, detail-, osv.
Hvorfor er datalagring afgørende?
Nedenfor er nogle af grundene til, at Data Warehouse er afgørende.
- Data warehouse samler alle operationelle data fra flere heterogene kilder med “forskellige formater” og gennem processen med udpakning, transformation og indlæsning (ETL) indlæser den dataene i DW i et “standardiseret dimensionalt format” på tværs af en organisation.
- Datalager vedligeholder både “aktuelle data og historiske data” til analytisk rapportering og faktabaseret beslutningstagning.
- Det hjælper organisationer med at tage “smartere og hurtige beslutninger” om at reducere omkostningerne og øge indtægterne ved at sammenligne kvartals- og årsrapporter for at forbedre deres præstationer.
Typer af datalagerapplikationer
Business Intelligence (BI) er en gren af datalager designet til beslutningstagning. Når dataene i DW er indlæst, spiller BI en vigtig rolle ved at analysere dataene og præsentere dem for forretningsbrugere.
Praktisk set betyder udtrykket 'datalagerapplikationer', hvor mange forskellige typer data kan behandles og bruges.
Vi har tre typer DW-applikationer som nævnt nedenfor.
- Informationsbehandling
- Analytisk behandling
- Data mining, der tjener formålet med BI
# 1) Informationsbehandling
Dette er en slags applikation, hvor datalageret tillader direkte en-en-kontakt med de data, der er gemt i det.
Da data kan behandles ved at skrive direkte forespørgsler på dataene (eller) med en grundlæggende statistisk analyse af dataene, og slutresultaterne rapporteres til forretningsbrugere i form af rapporter, tabeller, diagrammer eller grafer.
DW understøtter følgende værktøjer til informationsbehandling:
(i) Forespørgselsværktøjer: Virksomheden (eller) analytikeren kører forespørgslerne ved hjælp af forespørgselsværktøjer til at udforske dataene og generere output i form af rapporter eller grafik i henhold til forretningskravet.
bedste temperaturovervågningssoftware windows 10
(ii) Rapporteringsværktøjer: Hvis virksomheden ønsker at se resultaterne i et hvilket som helst defineret format og på en planlagt basis, dvs. dagligt, ugentligt eller månedligt, anvendes rapporteringsværktøjer. Disse typer rapporter kan til enhver tid gemmes og gennemgås.
(iii) Statistikværktøjer: Hvis virksomheden ønsker at foretage en analyse af et bredt overblik over data, bruges statistiske værktøjer til at generere sådanne resultater. Virksomheder kan træffe konklusioner og forudsigelser ved at forstå disse strategiske resultater.
# 2) Analytisk behandling
Dette er en slags applikation, hvor et datalager tillader analytisk behandling af data, der er gemt i det. Dataene kan analyseres ved hjælp af følgende operationer som Slice-and-Dice, Drill Down, Roll Up og Pivoting.
(i) Skive-og-terninger : Datalager giver slice-and-dice-operationer mulighed for at analysere de data, der er adgang til fra mange niveauer med en kombination af forskellige perspektiver. Slice-and-dice-operationen bruger internt drill-down-mekanismen. Udskæring fungerer på dimensionelle data.
Som en del af forretningskravet, hvis vi fokuserer på et enkelt område, analyserer udskæring dimensionerne af det pågældende område efter kravene og giver resultaterne. Dicing fungerer på analytiske operationer. Dicing zoomer efter et specifikt sæt attributter over alle dimensionerne for at give forskellige perspektiver. Dimensionerne betragtes ud fra en eller flere på hinanden følgende skiver.
(ii) Bor ned : Hvis virksomheden ønsker at gå til et mere detaljeret niveau af et hvilket som helst resuménummer, så er drill down en operation til at navigere ned dette resume til mindre detaljerede niveauer. Dette giver en god idé om, hvad der sker, og hvor virksomheden skal fokuseres nærmere.
Bor ned spor fra hierarkiniveauet indtil det mindste detaljeringsniveau til grundårsagsanalysen. Dette kan let forstås med et eksempel, da salgsnedbrydning kan ske fra Land-niveau -> Region-niveau -> Stat-niveau -> District-niveau -> Butik-niveau.
(iii) Rul op : Rul op fungerer modsat udboringen. Hvis virksomheden ønsker opsummerede data, så kommer roll up ind i billedet. Det aggregerer detaljerede niveau data ved at bevæge sig op i det dimensionelle hierarki.
Roll-ups bruges til at analysere udviklingen og ydeevnen af et system.
Dette kan forstås med en Eksempel som i en salgsrulle, hvor totalerne kan rulles op fra By niveau -> Statligt niveau -> Region niveau -> Landniveau .
(iv) Pivot : Drejning analyserer dimensionsdata ved at rotere dataene på terningerne. For eksempel, række dimensionen kan byttes ind i kolonnedimensionen og omvendt.
# 3) Data Mining
Dette er en slags applikation, hvor datalageret tillader videnopdagelse af dataene, og resultaterne vil blive repræsenteret med visualiseringsværktøjer. I ovenstående to typer applikationer kan oplysningerne styres af brugerne.
Da dataene går vidt i forskellige virksomheder, er det vanskeligt at forespørge og bore ned i datalageret for at få al mulig indsigt i data. Derefter kommer datamining ind i billedet for at udføre opdagelsen af viden.
Dette kører ind i dataene med alle tidligere foreninger, resultater osv. Og forudsiger fremtiden. Derfor er dette datadrevet og ikke brugerdrevet. Dataene kan opdages ved at finde skjulte mønstre, associationer, klassifikationer og forudsigelser.
Data mining går i dybden med dataene for at forudsige fremtiden. Baseret på forudsigelserne foreslår det også de handlinger, der skal foretages.
Nedenfor er de forskellige aktiviteter i Data Mining:
- Mønstre: Data mining opdager mønstre, der forekommer i databasen. Brugere kan levere de forretningsinput, som en vis viden om mønstrene forventes til beslutningstagning.
- Foreninger / forhold: Data mining opdager forhold mellem objekterne med hyppigheden af deres associeringsregler. Dette forhold kan være mellem to eller flere objekter (eller) det kan opdage reglerne inden for det samme objekts egenskaber.
- Klassifikation: Data mining organiserer data i et sæt foruddefinerede klasser. Så hvis et objekt hentes fra dataene, knytter klassificering den respektive klassemærkning til det objekt.
- Forudsigelse: Data mining sammenligner et sæt eksisterende værdier for at finde de bedst mulige fremtidige værdier / tendenser i erhvervslivet.
Derfor foreslår Data mining baseret på alle ovenstående resultater også et sæt handlinger, der skal tages.
Karakteristika ved et datalager
Et datalager er baseret på følgende dataegenskaber som emneorienteret, integreret, ikke-flygtig og tidsvariant.
# 1) Emneorienteret: Vi kan definere et datalager som emneorienteret, da vi kan analysere data med hensyn til et specifikt emneområde snarere end anvendelsen af kloge data. Dette giver resultater, der er mere definerede for nem beslutningstagning. Med hensyn til et uddannelsessystem kunne fagområderne være studerende, fag, karakterer, lærere osv.
# 2) Integreret: Dataene i datalageret er integreret fra forskellige kilder såsom andre relationsdatabaser, flade filer osv. En sådan enorm mængde data hentes til effektiv dataanalyse. Men der kan være datakonflikter, da forskellige datakilder kan være i forskellige formater. Datalageret bringer alle disse data i et ensartet format på tværs af hele systemet.
# 3) Ikke-flygtig: Når dataene er indlæst i datalageret, kan de ikke ændres. Logisk er dette acceptabelt, da hyppig ændring af data ikke giver dig mulighed for at analysere dataene. De hyppige ændringer i den operationelle database kan indlæses i et datalager på en planlagt basis, under denne proces tilføjes nye data, men de tidligere data slettes ikke, og de forbliver som historiske data.
# 4) Tidsvariant: Alle de historiske data sammen med de nylige data i datalageret spiller en afgørende rolle for at hente data uanset varighed. Hvis virksomheden vil have rapporter, grafer osv., Så for at sammenligne det med de foregående år og for at analysere tendenser, kræves alle de gamle data, der er 6 måneder gamle, 1-årige eller endda ældre data osv.
Fordele ved et datalager
Når et datalagersystem er produktivt, får en organisation følgende fordele ved at bruge det:
- Forbedret Business Intelligence
- Øget system- og forespørgselsydelse
- Business Intelligence fra flere kilder
- Rettidig adgang til data
- Forbedret datakvalitet og konsistens
- Historisk intelligens
- Højt investeringsafkast
# 1) Forbedret Business Intelligence: I de tidligere dage, hvor Data Warehousing og Business Intelligence ikke var inde, brugte forretningsbrugere og analytikere beslutningerne med en begrænset mængde data og med deres egen tarmfølelse.
DW & BI har medført en ændring ved at give indsigt med reelle fakta og med de reelle organisationsdata, der er samlet over en periode. Virksomhedsbrugere kan forespørge direkte på en hvilken som helst af forretningsprocessens data såsom marketing, økonomi, salg osv. Baseret på deres behov for strategisk beslutningstagning og smarte forretningsbeslutninger.
# 2) Øget system- og forespørgselsydelse: Data warehousing samler omfangsrige oplysninger fra heterogene systemer og placerer dem under ét system, så en enkelt forespørgselsmotor kan bruges til hurtig datahentning.
# 3) Business Intelligence fra flere kilder: Ved du, hvordan Business Intelligence generelt fungerer på data? Det absorberer data fra flere systemer, undersystemer, platforme og datakilder for at arbejde på et projekt. Datalager løser imidlertid dette problem for BI ved at konsolidere alle projektdata uden duplikater.
# 4) rettidig adgang til data: Forretningsbrugere får gavn af at bruge mindre tid på datahentning. De har nogle praktiske værktøjer, som de kan søge på data med minimal teknisk viden og generere rapporterne. Dette får forretningsbrugere tilstrækkelig tid til dataanalyse snarere end dataindsamling.
# 5) Forbedret datakvalitet og konsistens: Data warehousing omdanner data med forskellige kildesystemformater til et enkelt format. Derfor kan de samme forretningsenheder, der sourcer dataene til datalageret, muligvis genbruge DW-arkivet til deres forretningsrapporter og forespørgsler.
Fra organisationens synspunkt vil alle forretningsenheder derfor være i stand til at have konsekvente resultater / rapporter. Denne gode kvalitet og ensartede data hjælper således med at drive en succesrig forretning.
# 6) Historisk intelligens: Datavarehus vedligeholder alle de historiske data, der ikke vedligeholdes af transaktionssystemer. Denne store mængde data bruges til at analysere data for en bestemt tidsvarighed og til at rapportere dem og til at analysere tendenser for at forudsige fremtiden.
# 7) Højt investeringsafkast (ROI): Enhver starter en virksomhed ved at forvente godt afkast på investeringerne i form af større overskud og mindre udgifter. I den virkelige dataverden har mange undersøgelser bevist, at implementering af datalager og Business Intelligence-systemer genererede høje indtægter og sparede omkostningerne.
Nu skal du være i stand til at forstå, hvordan et veldesignet DW-system tilføjer fordele til din virksomhed.
Ulemper ved datalagring
Selvom det er et meget vellykket system, er det godt at kende nogle af faldgruberne i systemet:
- Oprettelse af et datavarehus er bestemt en tidskrævende og kompleks proces.
- Vedligeholdelsesomkostningerne er tunge, da systemet har brug for løbende opgraderinger. Det kan også øges, hvis det ikke bruges korrekt.
- Korrekt træning bør gives til udviklerne, testere og brugere til at forstå DW-systemet og implementere det teknisk.
- Der kan være følsomme data, der ikke kan indlæses i DW til beslutningstagning.
- Omstrukturering af forretningsprocesser (eller) kildesystemer har stor indflydelse på DW.
Konklusion
Vi håber, at denne indledende tutorial giver baggrund for datalagringsgrundlag. Vi havde et dybtgående kig på alle de grundlæggende begreber i Data Warehousing.
Vi lærte definitionen, typerne, egenskaberne, fordelene og ulemperne ved datalagring i denne omfattende vejledning.
=> Læs gennem Easy Data Warehousing Training Series.
Anbefalet læsning
- Eksempler på datamining: De mest almindelige anvendelser af Data Mining 2021
- Sådan fungerer datadrevet test (eksempler på QTP og selen)
- Data Mining: Process, teknikker og større problemer i dataanalyse
- ETL Testing Tutorial Data Warehouse Testing Tutorial (En komplet guide)
- Bedste GRATIS C # tutorialsserie: Den ultimative C # guide til begyndere
- Computer Networking Tutorial: The Ultimate Guide
- QTP-tutorial # 18 - Datadrevne og hybridrammer forklaret med QTP-eksempler
- 10+ bedste dataindsamlingsværktøjer med strategier til dataindsamling