oracle data warehouse
Oracle Data Warehouse Guide med fordele, arkitektur, risici og sammenligning med OLTP-system (online transaktionsbehandling):
I den foregående tutorial af Omfattende guide til Oracle , vi har lært om Oracle-produkter og -tjenester inden for forskellige domæner, f.eks. applikationer, databaser, operativsystemer osv. Denne artikel giver indgående kendskab til Oracle Data Warehousing. Men før det skal vi først forstå begrebet Business Intelligence (BI).
Business Intelligence
Business Intelligence er et softwaredomæne, der inkorporerer bestemte metoder, teknologier, værktøjer og applikationer, der hjælper med at strukturere, raffinere og omdanne bulkdata til et intelligent og forståeligt format, der kan bruges af kunder til at generere tilpassede rapporter og også hjælper med at tage forretning beslutninger.
Forskellige muligheder er tilgængelige for at imødekomme dette behov som Data Warehousing, OLAP (Online Transaction Processing), Data Mining, Data Integration, Decision Engineering, Spreadsheets osv.
Enterprise Data Warehousing (EDW) er en af de centrale komponenter i BI, der tjener virksomhedernes analytiske og rapporteringsbehov. Data Warehouse er et Relational Database Management System (RDBMS), der indeholder konsoliderede data modtaget fra flere kilder til senere brug.
forretningsobjekter interviewer spørgsmål og svar
Hvad du lærer:
- Oracle Data Warehouse Oversigt
- Sammenligning af OLTP Vs Data Warehouse
- Kontrasterende datalager og datamart
- Oversigt over ETL-processen
- Datavarehusarkitektur
- Konklusion
Oracle Data Warehouse Oversigt
Hvorfor kaldes det 'Data Warehouse'?
Lad os prøve at huske betydningen af ordet 'lager' for at forholde os til udtrykket 'Data Warehouse'.
Et fysisk lager er et lager, der bruges til lagring af varer modtaget fra forskellige kilder, som senere kan leveres til kunden baseret på deres behov.
(billede kilde )
Tilsvarende er datalageret et lager af data modtaget fra forskellige kildesystemer. Disse kilder kan være ethvert lagringssystem som f.eks. Datamarts, flade filer eller ethvert medielagringsenhed, der indeholder data til forskellige virksomhedsdomæner som HR, salg, operationer, ressourcehåndtering og marketing osv.
Formålet med at have et datalager
En virksomhed har muligvis hørt om begrebet datalager, men de kan være usikre på, om de skal inkludere den i deres virksomhed. Alligevel vil der altid være behov for at dumpe data fra forskellige kilder på fælles grund og arkivere dem, så lagerplads kan frigøres fra transaktionssystemer. Dette er hvor Data Warehousing-systemet bliver et forretningskrav.
For at vokse på markedet skal ledelsen være god til at træffe beslutninger, som man kun kan træffe efter at have studeret en organisations tidligere tendenser grundigt. Derfor arkiveres disse data i datalageret i et velorganiseret og beregnet format, så de kan henvises til forretningsanalyse i fremtiden.
Fordele ved datalagring
Data Warehouse, hvis det implementeres med succes, kan være gavnligt på følgende måder:
# 1) Det har forenklet analytikernes job ved at levere en forbedret version af business intelligence-løsninger. Det ekstraherer data fra flere kildesystemer, transformerer og gemmer dem, som virksomheden direkte kan spørge til analyse.
Det tilbyder også forskellige værktøjer, der understøtter følgende:
- Generering af tilpassede forretningsrapporter.
- Interaktive dashboards, der viser de krævede oplysninger.
- Evne til at bore ned gennem dashboards kun for at få detaljerne.
- Data Mining & Trend Analyse.
#to) Selv efter modtagelse af data fra forskellige kildesystemer forbliver data i et datalager konsistente som følge af transformationer, der opstod under ETL-processen. Konsekvente data giver tillid til en beslutningstager med hensyn til nøjagtighed.
# 3) Datalager defineres også som en tidsbesparelse, da vigtige data, der kræves af interessenter for at træffe forretningsbeslutninger, er tilgængelige på et enkelt sted og let kan hentes.
# 4) Disse er designet til at indeholde historiske data og kan derfor forespørges for at studere tendenser i forskellige tidsperioder. Det hjælper også interessenter med at udlede den fremtidige vækstvej.
Risici involveret i brug af datalager
Sammen med fordele indebærer enhver ny implementering også et sæt risici, der skal tages hånd om.
Nedenfor er nogle af de involverede risici:
- Manglende kildesystemers kompatibilitet med datalagersystemet kan ende med at udføre meget manuelt arbejde.
- Forkert tidsestimering af ETL-processen kan føre til afbrudt arbejde.
- Disse er meget avancerede lagersystemer og har derfor brug for høj vedligeholdelse. Enhver arbejdsgang eller forretningsændringer kan koste meget højt.
- Det er tidskrævende at oprette et datalager, da det har brug for meget tid til at forstå forretningsstrømme og identificere integrationsfunktioner til at designe et lager.
- Datasikkerhed er altid en risiko her, da den indeholder ældgamle historiske data, som, hvis de lækkes, kan påvirke virksomheden.
Sammenligning af OLTP Vs Data Warehouse
Forskellene mellem OLTP og Data Warehouse kan forstås fra nedenstående tabel.
OLTP | Datalagring |
---|---|
Indsæt og opdateringer er de vigtigste operationer, der udføres af slutbrugere på OLTP-systemer. | Datavarehuse spørges hovedsageligt ved hjælp af SELECT-sætningen og kan kun opdateres ved hjælp af ETL-tjenester. |
OLTP-systemer understøtter forretningstransaktioner. | Data Warehouse understøtter forretningsbeslutninger taget efter analyse af gennemførte forretningstransaktioner. |
Data forbliver ustabile, dvs. fortsætter med at ændre sig | Data skal ikke ændres. |
De har de seneste data. | De har de historiske data. |
Holder rådataene uden beregninger. | Har opsummerede og velberegnede data. |
Data normaliseres. | Data forbliver de-normaliserede. |
Størrelsen på Oracle-databasen kan variere fra 50 MB til 100 GB. | Størrelsen på Oracle-databasen kan variere fra 100 GB til 2 TB. |
Kontrasterende datalager og datamart
Data Warehouse og DataMart er ikke begge udtryk lyder ens og ser ud til at være relateret til datalagring.
Ja, de er relaterede, og begge bruges til lagring af data. Den største forskel mellem dem begge er kapaciteten til at holde dataene, og denne forskel hjælper slutbrugere med at vælge den rigtige lagerenhed til deres systemer.
Data Mart har mindre kapacitet til at opbevare data sammenlignet med datalageret og kan derfor betragtes som en delmængde af det. Datamærker identificeres normalt til at gemme begrænsede data, der kan være af en bestemt afdeling eller forretningsområde, mens datalager kan bruges til at opbevare de konsoliderede data for alle.
Lad os tage et eksempel på et e-handelswebsted, der har forskellige kategorier for varer som mode, tilbehør, husholdningsartikler, bøger og skoleartikler, elektronikapparater osv.
Så Data Marts kan designes til at gemme produktdatakategorien klogt, mens datalager kan bruges til at gemme komplette webstedsdata inklusive historik ét sted.
Datamærker er mindre i størrelse, de kan oprettes meget hurtigere uden meget analyse, som det kræves for at designe et datalager. Det kræver dog en stor indsats for at holde flere datamarts synkroniseret for at opretholde datakonsistens.
Oversigt over ETL-processen
ETL (ekstraktion, transformation og indlæsning) er en proces til udpakning af data fra forskellige kildesystemer, omdannelse og indlæsning til Data Warehouse-systemet. Det er en kompleks proces, der skal interagere med en række kildesystemer til dataudvinding og dermed også teknisk udfordrende.
Transformation har igen brug for en masse analyser for at forstå formatet på kildesystemer og bringe data til det fælles format, så de samme data kan lagres i datalageret.
ETL-processen er et tilbagevendende job, der kan køre dagligt, ugentligt eller endda månedligt afhængigt af forretningskravet.
Datavarehusarkitektur
Lad os forstå arkitekturen i et datavarehus, der primært er designet til at gemme raffinerede data til foruddefinerede forretningskrav. Arkitekturen består af 5 komponenter med datastrøm fra top til bund.
Komponenterne er som følger:
hvordan man spiller matroska videofil
- Data kilder
- Data iscenesættelse
- Datalager (datalagring)
- Data Marts(Data Storage)
- Datapræsentation
Lad os forstå alle de faser, der er anført ovenfor en efter en.
# 1) Datakilder
Der er forskellige kildesystemer, der fungerer som input til datalagersystemer.
Disse kildesystemer kan være:
- Relationsdatabaser som Oracle, DB2, MySQL, MS Access osv., Som kan bruges til at registrere daglige transaktioner i enhver organisation. Disse daglige forretningstransaktioner kan være relateret til ERP, CRM, salg, økonomi og marketing osv.
- Flade filer
- Webtjenester
- RSS-feeds og lignende kilder.
# 2) Datastaging
Når datakilderne er på plads, er det næste trin at udtrække disse data fra kildesystemerne til lagerets iscenesættelsesområde.
Da data er hentet fra forskellige systemer, der følger forskellige lagerformater, er det nødvendigt at omstrukturere dataene for at bringe dem til et fælles format. Derfor finder datatransformation sted som et næste trin.
Under transformation sker datarensning, som inkluderer anvendelse af forretningsregler, filtrering af data, fjernelse af redundans, dataformatering, datasortering osv.
# 3) Datavarehus (datalagring)
Når dataene først er ekstraheret og transformeret, indlæses de i et multidimensionelt miljø, dvs. Data Warehouse. Nu kan disse behandlede data bruges til analyse og andre formål af slutbrugere.
#4) Data Marts (Data Storage)
Som nævnt ovenfor er data nu klar til at blive forbrugt af slutbrugere, der er en valgfri proces til oprettelse af Data Marts som næste trin. Disse datamærker kan bruges til at gemme opsummerede data for en bestemt afdeling eller en branche for dedikeret brug.
For eksempel, separate datamærker kan tilføjes for afdelinger som salg, økonomi og marketing osv. som et næste trin, der indeholder specifikke data og giver en analytiker mulighed for at udføre detaljerede forespørgsler til forretningsbehov. Det forhindrer også alle andre slutbrugere i at få adgang til hele lageret og gør dataene derfor sikre.
# 5) Dataadgangsværktøjer (data præsentation)
Der er et antal foruddefinerede Business Intelligence-værktøjer, der kan bruges af brugere til at få adgang til datalager eller datamærker. Disse frontend-værktøjer er designet på en ekstremt brugervenlig måde ved at give brugerne en række muligheder for at få adgang til data.
Mulighederne er nævnt nedenfor:
- Ved at anvende forespørgslen på Oracle eller andre databaser direkte via SQL.
- Rapportgenerering.
- Udvikler applikation.
- Brug af Data Mining-værktøjer osv.
Få populære lagerværktøjer, der er tilgængelige på markedet, er:
- Analytix DS
- Amazon Redshift
- Ab Initio-software
- Kode futures
- Holistisk datastyring
- Informatics Corporation
Cloud Data Warehousing
Datalagre er overdrevent anerkendt af verden. Det næste spørgsmål, der opstår: Bruger vi en optimeret tilgang til at implementere datavarehuse?
Derefter blev Cloud Data Warehousing introduceret, som tager en overhånd på Enterprise Data Warehousing (EDW). Konceptet med Cloud-baserede datavarehuse har givet forskellige fordele.
Disse er som følger:
(i) Skalerbarhed: Data på cloud-systemer kan let skaleres op og ned uden besvær, mens det bruger meget tid og ressourcer på at udføre skalering på traditionelle datalager.
(ii) Omkostningsbesparelse: Cloudbaserede datalagre har gjort en bemærkelsesværdig forskel i den investering, der kræves til et lageropsætning. De har reduceret bulk-omkostningerne ved at eliminere omkostningerne ved
hvordan man åbner .xml fil
-
- Vedligeholdelse af hardware / serverrum.
- Personale, der kræves til vedligeholdelse.
- Andre driftsomkostninger.
(iii) Ydeevne: Ydeevne er en anden faktor, der tillod skybaserede systemer at dominere over traditionelle. Hvis virksomheden udvides globalt, og der skal tilgås data fra forskellige dele af verden med hurtigere turnaround, er skybaserede lagre bedst at bruge.
Massively Parallel Processing (MPP) er en af de samarbejdsmæssige behandlingsmetoder, der bruges af lagerhuse for at opnå det samme.
(iv) Forbindelse: Som nævnt ovenfor, hvis data skal tilgås fra flere geografiske placeringer, har brugerne brug for fremragende forbindelse til disse lagre, og et skybaseret lager tilbyder det samme.
Konklusion
Vi håber, at du alle har fået en god idé om Oracle Data Warehousing-systemet efter at have læst ovenstående artikel. Fortæl os, hvis du har brug for indsigt i et bestemt emne omkring datalagring, så vi kan dække det samme i kommende tutorials.
PREV-vejledning | NÆSTE vejledning
Anbefalet læsning
- Hvad er en datasø | Data Warehouse vs Data Lake
- Vejledning til test af datavarehus med eksempler | ETL testguide
- Top 10 populære datalagerværktøjer og testteknologier
- Dimensional datamodel i datalager - vejledning med eksempler
- Metadata i datavarehus (ETL) forklaret med eksempler
- ETL Testing Tutorial Data Warehouse Testing Tutorial (En komplet guide)
- Skema typer i datalager modellering - Star & SnowFlake skema
- Hvad er ETL-proces (ekstrakt, transformation, indlæsning) i datalageret?