data mart tutorial types
Denne vejledning forklarer begreberne Data Mart, der inkluderer implementering af datamarts, typer, struktur såvel som forskelle mellem datavarehus og datamat:
I denne Komplet datalageruddannelsesserie , vi kiggede på de forskellige Datalagerskemaer i detaljer.
Denne vejledning hjælper dig med at lære Data Mart-koncepter i detaljer sammen med enkle eksempler.
Vi ser Hvad er en datamart? Hvornår har vi brug for en datamart? Omkostningseffektiv datamartsning, Omkostninger ved en datamarts, Typer af datamarts, Trin til implementering af en datamarts, Strukturen på et datamarts, Hvornår er en pilot Data Mart nyttig? Datamart ulemper og forskellene mellem Data Warehouse vs Data Mart.
vandfaldsmodel i softwareudviklings livscyklus
Målgruppe
- Datalager / ETL-udviklere og testere.
- Databaseprofessionelle med grundlæggende viden om databasekoncepter.
- Databaseadministratorer / Big data-eksperter, der ønsker at forstå datalager / ETL-koncepter.
- College-kandidater / Freshers, der leder efter datalagerjob.
Hvad du lærer:
- Hvad er en datamarts?
- Sammenligning af datalager mod data Mart
- Typer af datamærker
- Implementation Steps Of A Data Mart
- Struktur af et datamart
- Hvornår er en pilotdatamart nyttig?
- Ulemper ved Data Mart
- Konklusion
Hvad er en datamarts?
En datamart er en lille del af datalageret, der hovedsagelig er relateret til et bestemt forretningsdomæne som marketing (eller) salg osv.
De data, der er gemt i DW-systemet, er enorme, og derfor er datamærker designet med et undersæt af data, der hører til de enkelte afdelinger. Således kan en bestemt gruppe brugere let bruge disse data til deres analyse.
I modsætning til et datalager, der har mange kombinationer af brugere, vil hver datamart have et bestemt sæt slutbrugere. Det færre antal slutbrugere resulterer i bedre svartid.
Data marts er også tilgængelige for Business Intelligence (BI) værktøjer. Datamærker indeholder ikke duplikerede (eller) ubrugte data. De bliver opdateret med jævne mellemrum. De er fagorienterede og fleksible databaser. Hvert team har ret til at udvikle og vedligeholde sine datamarts uden at ændre data warehouse (eller) andre datamartsdata.
En datamart er mere egnet til små virksomheder, da det koster meget mindre end et datalagersystem. Den tid, der kræves til at opbygge en datamart, er også mindre end den tid, der kræves til opbygning af et datalager.
Billedskildring af flere datamærker:
Hvornår har vi brug for Data Mart?
Baseret på nødvendigheden skal du planlægge og designe en datamart til din afdeling ved at engagere interessenterne, fordi driftsomkostningerne ved datamart kan være høje nogle gange.
Overvej nedenstående grunde til at oprette en datamart:
- Hvis du vil opdele dataene med et sæt brugeradgangskontrolstrategi.
- Hvis en bestemt afdeling ønsker at se forespørgselsresultaterne meget hurtigere i stedet for at scanne enorme DW-data.
- Hvis en afdeling ønsker, at data skal bygges på andre hardware- (eller) softwareplatforme.
- Hvis en afdeling ønsker, at data skal designes på en måde, der passer til dens værktøjer.
Omkostningseffektive data Mart
En omkostningseffektiv datamat kan bygges ved følgende trin:
- Identificer de funktionelle opdelinger: Opdel organisationsdataene i hver datamartsspecifikke (afdeling) specifikke data for at opfylde dens krav uden yderligere organisatorisk afhængighed.
- Identificer krav til brugeradgangsværktøj: Der kan være forskellige brugeradgangsværktøjer på markedet, der har brug for forskellige datastrukturer. Datamærker bruges til at understøtte alle disse interne strukturer uden at forstyrre DW-dataene. Én datamart kan tilknyttes et værktøj efter brugerens behov. Datamærker kan også levere opdaterede data til sådanne værktøjer dagligt.
- Identificer problemer med adgangskontrol: Hvis forskellige datasegmenter i et DW-system har brug for fortrolighed og skal have adgang til et sæt autoriserede brugere, kan alle sådanne data flyttes til datamærker.
Omkostninger ved data Mart
Omkostningerne ved datamart kan estimeres som følger:
- Hardware- og softwarepriser: Enhver nyligt tilføjet datamart kan have brug for ekstra hardware, software, processorkraft, netværk og disklagerplads for at arbejde på forespørgsler, som slutbrugerne anmoder om. Dette gør data marting til en dyr strategi. Derfor skal budgettet planlægges nøjagtigt.
- Netværksadgang: Hvis placeringen af datamart er forskellig fra datalagerets placering, skal alle data overføres med data-mart-indlæsningsprocessen. Således skal der tilvejebringes et netværk til at overføre enorme datamængder, som kan være dyre.
- Tidsvinduesbegrænsninger: Den tid, det tager for data-mart-indlæsningsprocessen, afhænger af forskellige faktorer såsom kompleksitet og datamængder, netværkskapacitet, dataoverførselsmekanismer osv.
Sammenligning af datalager mod data Mart
S. nr | Data varehus | Data Mart |
---|---|---|
en | Kompleks og koster mere at implementere. | Enkel og billigere at implementere. |
to | Arbejder på organisationsniveau for hele virksomheden. | Omfanget er begrænset til en bestemt afdeling. |
3 | Forespørgsel om DW er vanskelig for forretningsbrugere på grund af enorme dataafhængigheder. | Forespørgsel på datamart er let for forretningsbrugere på grund af begrænsede data. |
4 | Implementeringstiden er mere kan være i måneder eller år. | Implementeringstiden er mindre kan være i dage, uger eller måneder. |
5 | Samler data fra forskellige eksterne kildesystemer. | Samler data fra et par centrale DW (eller) interne (eller) eksterne kildesystemer. |
6 | Strategiske beslutninger kan træffes. | Forretningsbeslutninger kan træffes. |
Typer af datamærker
Datamærker klassificeres i tre typer, dvs. afhængig, uafhængig og hybrid. Denne klassificering er baseret på, hvordan de er befolket, dvs. enten fra et datalager (eller) fra andre datakilder.
Ekstraktion, transformation og transport (ETT) er den proces, der bruges til at udfylde datamartsdata fra alle kildesystemer.
Lad os se på hver type i detaljer !!
# 1) Afhængig data Mart
I en afhængig datamat hentes data fra selve det eksisterende datalager. Dette er en top-down-tilgang, fordi den del af omstrukturerede data i datamarkedet ekstraheres fra det centraliserede datalager.
En datamart kan bruge DW-data enten logisk eller fysisk som vist nedenfor:
- Logisk visning: I dette scenarie adskilles datamartsdata ikke fysisk fra DW. Det refererer til DW-data gennem virtuelle visninger (eller) tabeller logisk.
- Fysisk delmængde: I dette scenario er datamartsdata fysisk adskilt fra DW.
Når en eller flere datamarkeringer er udviklet, kan du give brugerne adgang til kun datamærkerne (eller) for at få adgang til både Datamærker og Datalager.
ETT er en forenklet proces i tilfælde af afhængige datamarkeringer, fordi de anvendelige data allerede findes i det centraliserede DW. Det nøjagtige sæt sammenfattede data skal bare flyttes til de respektive datamærker.
Et billede af afhængige datamarts er vist nedenfor :
# 2) Uafhængig Data Mart
En uafhængig datamat er bedst egnet til små afdelinger i en organisation. Her kommer data ikke fra det eksisterende datalager. Den uafhængige datamat er hverken afhængig af virksomheds-DW eller andre datamærker.
Uafhængige datamarkeringer er enkeltstående systemer, hvor data ekstraheres, transformeres og indlæses fra eksterne (eller) interne datakilder. Disse er nemme at designe og vedligeholde, indtil de understøtter enkle afdelingsklasse forretningsbehov.
Du er nødt til at arbejde med hver fase af ETT-processen i tilfælde af uafhængige datamarts på en lignende måde med hensyn til, hvordan dataene er blevet behandlet til central DW. Antallet af kilder og data, der er udfyldt til datamærkerne, kan dog være mindre.
Billedrepræsentation af en uafhængig datamart :
# 3) Hybrid Data Mart
I en hybrid datamat integreres data fra både DW og andre operationelle systemer. Hybrid data marts er fleksible med store lagringsstrukturer. Det kan også henvise til andre data marts data.
Billedskildring af en Hybrid Data Mart:
Implementation Steps Of A Data Mart
Implementeringen af Data Mart, der anses for at være lidt kompleks, forklares i nedenstående trin:
- Design: Da den tid, forretningsbrugere anmoder om en datamart, involverer designfasen kravindsamling, oprettelse af passende data fra respektive datakilder, oprettelse af de logiske og fysiske datastrukturer og ER-diagrammer.
- Konstruktion: Holdet vil designe alle tabeller, visninger, indekser osv. I datamartsystemet.
- Befolker: Data ekstraheres, transformeres og indlæses i data mart sammen med metadata.
- Adgang: Data Mart-data er tilgængelige for adgang til slutbrugerne. De kan spørge dataene til deres analyse og rapporter.
- Administrerende: Dette involverer forskellige ledelsesopgaver, såsom brugeradgangskontrol, finjustering af data-mart-ydeevne, vedligeholdelse af eksisterende datamarts og oprettelse af datamartsgendannelsesscenarier, hvis systemet mislykkes.
Struktur af et datamart
Strukturen for hver datamart oprettes i henhold til kravet. Data Mart strukturer kaldes Star sammenføjninger. Denne struktur vil være forskellig fra den ene datamart til den anden.
Stjerneforbindelser er flerdimensionelle strukturer, der er dannet med fakta- og dimensionstabeller for at understøtte store datamængder. Stjernedeltagelse vil have en faktatabel i midten omgivet af dimensionstabellerne.
Respektive faktatabeldata er knyttet til dimensionstabeldata med en fremmed nøglereference. Et faktabord kan være omgivet af 20-30 dimensionstabeller.
I lighed med DW-systemet indeholder faktatabeller også i stjerneforbindelser kun numeriske data, og de respektive tekstdata kan beskrives i dimensionstabeller. Denne struktur ligner et stjerneskema i DW.
Billedskildring af en Star Join Structure.
Men de detaljerede data fra den centraliserede DW er basen for data-data. Mange beregninger vil blive udført på de normaliserede DW-data for at omdanne dem til flerdimensionelle data-marts-data, som er lagret i form af terninger.
Dette fungerer på samme måde som hvordan data fra ældre kildesystemer omdannes til normaliserede DW-data.
Hvornår er en pilotdatamart nyttig?
En pilot kan indsættes i et lille miljø med et begrænset antal brugere for at sikre, om implementeringen er vellykket inden den fulde implementering. Dette er dog ikke vigtigt hele tiden. Pilotimplementeringerne vil ikke være til nogen nytte, når formålet er opfyldt.
Du skal overveje nedenstående scenarier, der anbefales til pilotinstallationen:
- Hvis slutbrugerne er nye i datalager-systemet.
- Hvis slutbrugerne ønsker at føle sig godt tilpas ved at hente data / rapporter alene, inden de går i produktion.
- Hvis slutbrugerne ønsker hands-on med de nyeste værktøjer (eller) teknologier.
- Hvis ledelsen ønsker at se fordelene som et bevis på konceptet, før de gør det som en stor frigivelse.
- Hvis teamet ønsker at sikre sig, at alle ETL-komponenter (eller) infrastrukturkomponenter fungerer i god tid før frigivelsen.
Ulemper ved Data Mart
Selvom data marts har nogle fordele i forhold til DW, har de også nogle ulemper som forklaret nedenfor:
- Uønskede data marts, der er oprettet, er svære at vedligeholde.
- Datamærker er beregnet til små forretningsbehov. Hvis du øger størrelsen på datamærker, reduceres dens ydeevne.
- Hvis du opretter flere antal datamarts, skal ledelsen ordentligt tage sig af deres versionering, sikkerhed og ydeevne.
- Datamærker kan indeholde historiske (eller) sammenfattede (eller) detaljerede data. Opdateringer til DW-data og data-mart-data sker dog muligvis ikke på samme tid på grund af data-inkonsekvensproblemer.
Konklusion
Mange organisationer er gearet til datamarts fra et omkostningsbesparende perspektiv. Derfor har denne vejledning fokuseret på de tekniske aspekter af datamarkeringer i datalagersystemet.
Metadata i ETL forklares detaljeret i vores kommende tutorial.
=> Besøg her for at se uddannelsesserien om datalagring for alle.
Anbefalet læsning
- Vejledning til test af datavarehus med eksempler | ETL testguide
- Python-datatyper
- C ++ datatyper
- Dimensional datamodel i datalager - vejledning med eksempler
- Apriori-algoritme i datamining: Implementering med eksempler
- Eksempler på datamining: De mest almindelige anvendelser af Data Mining 2021
- Grundlag for datalagring: En ultimativ guide med eksempler
- Volume Testing Tutorial: Eksempler og Volume Testing Tools