metadata data warehouse explained with examples
Denne vejledning forklarer metadataens rolle i ETL, eksempler og typer af metadata, metadata Repository & udfordringer i metadataadministration:
Data Mart i ETL blev forklaret detaljeret i vores tidligere tutorial.
Begrebet Metadata er meget vigtigt i ETL, og denne tutorial forklarer alt om Metadata.
Det dækker rollen som metadata, eksempler på metadata såvel som dets typer, metadata repository, hvordan kan man administrere data warehousing metadata, udfordringer for metadata management.
Du lærer også at vide, hvad der er metadatadrevet ETL og forskellen mellem data og metadata.
=> Læs gennem Free Data Warehouse Training Series her.
Målgruppe
- Datalager / ETL-udviklere og testere.
- Databaseprofessionelle med grundlæggende viden om databasekoncepter.
- Databaseadministratorer / big data-eksperter, der ønsker at forstå Data warehouse / ETL-områder.
- College kandidater / freshers, der leder efter datalagerjob.
Hvad du vil lære:
hvordan man kører en eksekverbar jar-fil
Metadata i ETL
Data warehouse team (eller) brugere kan bruge metadata i forskellige situationer til at opbygge, vedligeholde og administrere systemet. Den grundlæggende definition af metadata i datalageret er, “Det er data om data” .
Metadata kan indeholde alle slags oplysninger om DW-data som:
- Kilde til udpakkede data.
- Brug af disse DW-data.
- Enhver form for data og dens værdier.
- Funktioner af data.
- Transformationslogik for ekstraherede data.
- DW-tabeller og deres attributter.
- DW-objekter
- Tidsstempler
Metadata fungerer som en indholdsfortegnelse for data i DW-systemet, som viser teknikken med flere detaljer om disse data. Med enkle ord kan du tænke på et indeks i enhver bog, der fungerer som metadata, for indholdet i den bog.
Tilsvarende fungerer metadata som et indeks til DW-indholdet. Alle sådanne metadata er gemt i et lager. Ved at gennemgå metadata får slutbrugerne at vide, hvorfra de kan begynde at analysere DW-systemet. Ellers er det svært for slutbrugerne at vide, hvor de skal starte dataanalysen fra i et så stort DW-system.
Rollen af metadata i datalageret
I de tidligere dage blev Metadata oprettet og vedligeholdt som dokumenter. Men i dagens digitale verden har forskellige værktøjer gjort dette job lettere ved at registrere metadata på hvert niveau af DW-processen.
Metadata oprettet af et værktøj kan standardiseres (dvs. data kan bringes i et unikt format) og kan genbruges på tværs af de andre værktøjer overalt i DW-systemet.
Som vi er klar over, at driftssystemer opretholder aktuelle data, opretholder DW-systemerne historiske og aktuelle data.
Metadata skal holde styr på alle de ændringer, der sker i kildesystemer, dataekstraktion / transformationsmetoder og i struktur (eller) indholdet af data, der vil opstå i denne proces. Metadata opretholder forskellige versioner for at holde styr på alle disse ændringer gennem flere år.
Tilstrækkelige metadata leveret i lageret hjælper enhver bruger med at analysere systemet mere effektivt og uafhængigt. Ved at forstå metadata kan du køre enhver form for forespørgsler på DW-data for de bedste resultater.
Billedskildring af metadataens rolle:
Eksempler på metadata i enkle termer
Nedenfor er nogle af eksemplerne på metadata.
- Metadata til en webside kan indeholde det sprog, det er kodet på, de værktøjer, der bruges til at opbygge det, understøttende browsere osv.
- Metadata for et digitalt billede kan indeholde billedets størrelse, opløsning, farveintensitet, dato for oprettelse af billeder osv.
- Metadata for et dokument kan indeholde dokumentets oprettelsesdato, sidst ændrede dato, størrelse, forfatter, beskrivelse osv.
Sammenligning mellem data og metadata
S. nr | Data | Metadata |
---|---|---|
1 | Data er et sæt informationer. | Metadata er information om data. |
to | Data kan (eller) muligvis ikke behandles. | Metadata er altid behandlede data. |
Typer af metadata
Klassificeringen af metadata i forskellige typer hjælper os med at forstå det bedre. Denne klassificering kan baseres på dens anvendelse (eller) brugerne osv.
Lad os undersøge de forskellige typer metadata nedenfor:
# 1) Bagrummetadata: Dirigerer DBA'erne (eller) slutbrugerne om udpakning, rensning og indlæsningsprocesser.
# 2) Metadata i forrummet: Styrer slutbrugerne til at arbejde med BI-værktøjer og rapporter.
hvordan man laver en række strenge
# 3) Processmetadata: Dette gemmer ETL-procesmetadata, f.eks. Antallet af indlæste rækker, afvist, behandlet og det tager tid at indlæse i et DW-system osv. Denne information kan også være tilgængelig for slutbrugerne.
Samtidig er statistikken over iscenesættelsestabellerne også vigtige for ETL-teamet. Disse metadata gemmer iscenesættelsestabeller, der behandler data, f.eks. Antallet af indlæste rækker, afvist, behandlet og den tid, det tager at indlæse i hver iscenesættelsestabel.
# 4) Datastamme: Dette gemmer den logiske transformation for hvert kildesystemelement til DW-målelementet.
# 5) Forretningsdefinitioner: Konteksten for DW-tabeller er afledt af forretningsdefinitionerne. Hver attribut i en tabel er knyttet til en forretningsdefinition. Derfor skal disse opbevares som metadata (eller) ethvert andet dokument til fremtidig reference. Både slutbrugerne og ETL-teamet afhænger af disse forretningsdefinitioner.
# 6) Tekniske definitioner: Tekniske definitioner bruges udelukkende i datastagingområdet mere end forretningsdefinitionerne. Hovedformålet er at reducere tvetydigheden, mens du opretter iscenesættelsestabeller og at genbruge eksisterende tabeller. Tekniske definitioner gemmer detaljerne i hver iscenesættelsestabel, såsom dens placering og struktur.
Hver iscenesættelse tabel er teknisk dokumenteret her, hvis det ikke er dokumenteret, betyder det, at iscenesættelsen ikke er eksisterende. Dette undgår rekreation af det samme iscenesættelsesbord.
# 7) Forretningsmetadata: Data lagres forretningsmæssigt til gavn for slutbrugere / analytikere / ledere / enhver bruger. Forretningsmetadata er proxy til kildesystemdata, dvs. der foretages ingen databehandling på den. Det kan stamme fra alle forretningsdokumenter og forretningsregler.
# 8) Tekniske metadata: Dette gemmer tekniske data såsom tabelattributter, deres datatyper, størrelse, primære nøgleattributter, fremmednøgleattributter og eventuelle indekser. Dette er mere struktureret sammenlignet med forretningsmetadata.
Tekniske metadata er hovedsageligt beregnet til DW-teamet som udviklere / testere / analytikere / DBA'er til at opbygge (eller) vedligeholde systemet. Dette bruges også væsentligt af administratorerne til at overvåge databasebelastninger og sikkerhedskopier af data osv.
# 9) Operationelle metadata: Som vi kender, kommer dataene til DW-systemet fra mange operationelle systemer med forskellige datatyper og felter. DW-ekstrakter omdanner sådanne data til den unikke type og indlæser alle disse data i systemet.
Samtidig skal den være i stand til at linke dataene tilbage til dets kildesystemdata. De metadata, der gemmer alle disse operationelle datakilder, er kendt som operationelle metadata.
# 10) Kildesysteminformation:
Du kan indsamle følgende metadata fra forskellige kildesystemer:
- Database (eller) filsystem: Dette gemmer navnene på kildesystemdatabaser (eller) filer.
- Tabel specifikationer: Dette gemmer alle detaljer om tabeller såsom tabelnavn, dets formål, størrelse, attributter, primære nøgler og fremmednøgler.
- Regler for undtagelseshåndtering: Dette gemmer forskellige metoder til gendannelse af systemet i tilfælde af systemfejl.
- Forretningsdefinitioner: Dette gemmer forretningsdefinitioner for en kort forståelse af data.
- Forretningsregler: Dette gemmer et sæt regler for hver tabel for at forstå dens data og for at undgå inkonsistens.
Kildesystemets metadata sparer meget tid for DW-teamet, mens data analyseres.
# 11) ETL-jobmetadata: ETL-jobmetadata er meget vigtig, da den gemmer detaljerne om alle de job, der skal behandles i tidsplanen, for at indlæse ETL-systemet.
Disse metadata gemmer følgende oplysninger:
- Jobnavn: ETL jobnavn.
- Jobformål: Formålet med at køre jobbet.
- Kildetabeller / filer: Det giver navnene og placeringen af alle tabeller og filer, hvorfra dataene kommer fra dette ETL-job. Dette kan have mere end et tabel- (eller) filnavn.
- Måltabeller / filer: Det giver navnene og placeringen af alle tabeller og filer, som dataene transformeres til af dette ETL-job. Dette kan have mere end et tabel- (eller) filnavn.
- Afviste data: Det giver navnene og placeringen af alle de tabeller og filer, hvorfra de tilsigtede kildedata ikke er indlæst i målet.
- Forbehandlinger: Det giver de jobnavne (eller) scriptnavne, som det aktuelle job er afhængig af. Det betyder, at de skal udføres med succes, før de kører det aktuelle job.
- Efterbehandlinger: Det giver jobnavne (eller) scriptnavne, der skal køres umiddelbart efter det aktuelle job for at fuldføre processen.
- Frekvens: Det giver information om, hvor ofte jobbet skal udføres, dvs. dagligt, ugentligt (eller) månedligt.
# 12) Transformationsmetadata: Transformationsmetadata gemmer alle ETL-procesrelaterede konstruktionsoplysninger. Hver eneste manipulation af data i ETL-processen er kendt som datatransformation.
Ethvert sæt funktioner, lagrede procedurer, markører, variabler og sløjfer i ETL-processen kan betragtes som transformationer. Men sådanne transformationer kan ikke dokumenteres separat som metadata.
Hele ETL-processen er bygget op med datatransformationer. Få transformationer i ETL kan foruddefineres og bruges på tværs af DW-systemet. ETL-udviklere bruger deres tid på at opbygge (eller) genbehandle alle datatransformationer. Genbrug af de foruddefinerede transformationer under ETL-procesudviklingen vil fremskynde arbejdet.
Læs nedenstående datatransformationer, som du kan finde i ETL:
- Kildedataekstraktioner: Dette involverer datatransformationer, der skal læses fra kildesystemdata, såsom en SQL Select-forespørgsel (eller) FTP (eller), der læser XML / mainframe-data.
- Surrogatnøglegeneratorer: Det nye sekvensnummer, der skal genereres for hver række i databasetabeller, gemmes som metadata.
- Opslag: Opslag kan dannes med alle IN-udsagn, indre sammenføjninger og ydre sammenføjninger. Disse bruges hovedsageligt til at holde surrogatnøglerne fra alle de respektive dimensionstabeller, mens de indlæser en kendsgerning.
- Filtre: Filtre anbefales til at sortere de data, der skal udvindes, indlæses og afvises i ETL-processen. Filtrering af data i de tidlige stadier af ETL-systemet er en god praksis. Filtre anvendes afhængigt af forretningsregler (eller) begrænsninger.
- Aggregater: Afhængigt af niveauet af datagranularitet kan metadata relateret til samlede funktioner bruges som sum, antal, gennemsnit osv.
- Opdater strategier: Dette er de regler, der anvendes på en post under opdatering af dataene. Hvis der er nogen ændringer i de eksisterende data, vil dette indikere, om en post skal tilføjes, slettes (eller) opdateres.
- Target Loader: Target loader gemmer detaljerne i databasen, tabelnavne og kolonnenavne, som dataene skal indlæses i gennem ETL-processen. Desuden vil dette også gemme detaljerne i eventuel bulkbelastning, der udføres under indlæsning af data i ETL-systemet.
Hver transformation kan navngives tydeligt med en kort note om dens formål.
Nogle eksempler på navngivningskonventioner er angivet her for ovenstående liste over transformationer.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Metadata Repository I ETL
Et metadata-arkiv er et sted, hvor enhver type metadata gemmes enten i en lokal database (eller) i en virtuel database. Hver type metadata såsom forretningsmetadata (eller) tekniske metadata kan adskilles logisk i et lager.
Ud over de to ovennævnte typer har lageret også en yderligere komponent med navnet Informationsnavigator.
Informationsnavigator kan bruges til at udføre nedenstående opgaver:
- Interface fra forespørgselsværktøj: Dette giver en grænseflade til forespørgselsværktøjerne for at få adgang til DW-metadata.
- Drill ned for detaljer: Dette giver brugeren mulighed for at bore metadata for at få mere detaljeret information. Som et eksempel kan brugeren på det første niveau få en datatabeldefinition. Ved at bore ned kan han få tabelattributterne på det næste niveau. Ved at bore dataene mere ned kan han få detaljerne om hver attribut osv.
- Gennemgå foruddefinerede forespørgsler og rapporter: Dette giver brugeren mulighed for at gennemgå foruddefinerede forespørgsler og rapporter. Dette fungerer som en reference til rammeforespørgsler alene med passende parametre osv.
Billedskildring af Metadata Repository:
Hvordan kan datalagringsmetadata styres?
Mennesker, proces og værktøjer er de vigtigste kilder til styring af metadata.
- Folk skal forstå metadataene til passende brug.
- Processen vil inkorporere metadata i værktøjs (eller) lager med fremdriften af DW-livscyklussen til fremtidig brug.
- Derefter kan metadata styres af værktøjer.
Udfordringer for metadatastyring
Når metadataene er oprettet, kan du stå over for nedenstående udfordringer, mens du integrerer og administrerer metadata i systemet.
- At bringe forskellige formater af metadata til et standardformat kan have brug for mere indsats, hvis der bruges forskellige værktøjer i DW-systemet, fordi metadata kan lagres på tværs af regneark, applikationer (eller) databaser.
- Metadataformater har ingen etablerede industristandarder. Med denne mangel på standardiseret proces er det svært at videregive metadata gennem forskellige niveauer i DW-systemet og værktøjerne.
- Konsekvent vedligeholdelse af forskellige versioner af historiske metadata er en kompleks opgave.
Hvad er metadata-drevet ETL?
Metadata-drevet ETL etablerer et lag for at forenkle dataindlæsningsprocessen i et DW-system. Du kan beslutte, om dataene skal behandles til systemet (eller ikke) afhængigt af metadataene. Derfor kan du kalde det er som metadatadrevet ETL.
Konklusion
Den vigtige rolle, Metadata spiller for at bestemme succesen (eller) fiaskoen for et DW-system, blev forklaret detaljeret i denne vejledning.
Vi undersøgte også betydningen, rollen, eksemplerne, typerne, udfordringerne af metadata i detaljer sammen med den pågældende billedlige gengivelse.
Vi håber, at disse informative tutorials fra denne Data Warehouse-serie beriget din viden om datavarehus og relaterede begreber !!!
God læselyst!!
=> Besøg her for at lære datalagring fra bunden.
pl sql interview spørgsmål med svar
Anbefalet læsning
- Vejledning til test af datavarehus med eksempler ETL testguide
- ETL Testing Data Warehouse Testing Tutorial (En komplet guide)
- Dimensional datamodel i datalager - vejledning med eksempler
- Data Mart Tutorial - Typer, eksempler og implementering af Data Mart
- Hvad er ETL-proces (ekstrakt, transformation, indlæsning) i datalageret?
- De 10 bedste datakortningsværktøjer, der er nyttige i ETL-processen (2021 LIST)
- Eksempler på data minedrift: De mest almindelige anvendelser af Data Mining 2021
- ETL Testing Interview Spørgsmål og svar