what is data lake data warehouse vs data lake
Denne tutorial forklarer alt om Data Lake inklusive dets behov, definition, arkitektur, fordele og forskelle mellem Data Lake vs Data Warehouse:
Udtrykket 'Data Lake' bruges ret ofte i nutidens IT-verden. Har du nogensinde spekuleret på, hvad det er, og hvor udtrykket kommer fra?
I informationsteknologiens tidsalder, hvor data forstærkes dag og nat i adskillige former, bliver begrebet datasø bestemt vigtigt og nyttigt.
Lad os undersøge, hvad en datasø er, og hvad er fordelene, anvendelserne osv. Detaljeret her.
Hvad du vil lære:
- Hvad er en datasø, og hvordan fungerer den?
- Konklusion
Hvad er en datasø, og hvordan fungerer den?
En datasø er et system eller et centraliseret datalager, der lader dig gemme alle dine strukturerede, semistrukturerede, ustrukturerede og binære data i dets naturlige / native / rå format.
Strukturerede data kan omfatte tabeller fra RDBMS'er; semistrukturerede data inkluderer CSV-filer, XML-filer, logfiler, JSON osv .; ustrukturerede data kan omfatte PDF-filer, word-dokumenter, tekstfiler, e-mails osv .; og binære data kan omfatte lyd-, video-, billedfiler.
Det følger en flad arkitektur til lagring af data. Generelt lagres data i form af objektblob eller filer.
(billede kilde )
Med en datasø kan du gemme al din virksomhed, som den er på et enkelt sted uden behov for først at strukturere dataene. Du kan direkte udføre de forskellige typer analyser på den, herunder maskinindlæring, realtidsanalyse, lokal dataflytning, realtids dataflytning, dashboards og visualiseringer.
Det opbevarer alle data i den originale form og antager, at analysen vil ske senere efter behov.
Analogi af Data Lake
(billede kilde )
Udtrykket Data Lake blev opfundet af James Dixon, den daværende CTO i Pentaho. Han definerer datamart (en delmængde af et datalager) som ligner en vandflaske fyldt med renset, destilleret vand, pakket og struktureret til direkte og nem brug.
På den anden side er det analogt med en vandmasse i sin naturlige form. Data strømmer fra vandløbene (forskellige forretningsfunktioner / kildesystemer) til søen. Forbrugere af datasø, dvs. brugere har adgang til søen for at analysere, undersøge, indsamle prøver og dykke ind.
Ligesom vandet i søen imødekommer forskellige behov hos mennesker som fiskeri, sejlsport, levering af drikkevand osv., Tjener datasøarkitekturen også flere formål.
hvordan man kører en torrentfil
En dataforsker kan bruge den til at udforske dataene og skabe en hypotese. Det giver en mulighed for dataanalytikere til at analysere data og opdage mønstre. Det giver en tilstand til forretningsbrugere og interessenter til at udforske data.
Det giver også en mulighed for rapporterende analytikere til at designe rapporter og præsentere dem for virksomheden. Tværtimod har datalageret pakket data til veldefinerede formål ligesom en bisleri-flaske, der kun kan bruges til drikkevand.
Data Lake Market - Vækst, tendenser og forudsigelser
Data sømarkedet er opdelt på basis af produkt (løsning eller service), implementering (on-prem eller cloud), klienters industri (detail, bank, forsyningsvirksomhed, forsikring, IT, sundhedspleje, telekommunikation, udgivelse, fremstilling) og geografisk regioner.
I henhold til rapporten offentliggjort af Mordor Intelligence, nedenfor er øjebliksbillede af markedet for data lake:
(billede kilde )
# 1) Markedsoversigt
Data Lakes Market blev vurderet til 3,74 mia. USD i 2019 og forventes at røre 17,60 mia. USD inden 2025 til en CAGR (sammensat årlig vækstrate) på 29,9% i hele fremskrivningsperioden 2020 - 2025.
Disse datareservoirer viser sig i stigende grad at være en økonomisk mulighed for mange organisationer over datalager. I modsætning til datasøer kræver datalager yderligere behandling af data, inden de går ind i lageret.
Omkostningerne ved at administrere en datasø er mindre sammenlignet med et datalager på grund af meget behandling, og der kræves plads til at oprette databasen til lagerhuse.
# 2) Store spillere
Det forudsiges, at Data Lake-markedet vil være et konsolideret marked domineret af de fem nøgleaktører, som det fremgår af billedet nedenfor.
# 3) Nøgletendenser
- Dets anvendelse forventes at vokse betydeligt i banksektoren. Banker vedtager datasøer for at levere analyser på farten. Det hjælper også med at opløse mange siloer i banksektoren.
- Da der er en enorm stigning i digitale betalinger / brug af mobile tegnebøger over hele kloden, øges mulighederne for big data-analyse og dermed muligheden for dem.
- Det forventes, at Nordamerika vil have høj anvendelse for datasøer. En undersøgelse foretaget af Capgemini siger, at over 60% af de finansielle organisationer i USA mener, at big data-analyse fungerer som en differentiator for erhvervslivet og giver dem en konkurrencemæssig fordel. Over 90% af organisationer føler, at investering i big data-projekter øger chancerne for succes i fremtiden.
- De kræves til brugen af applikationer til intelligente målere, og i USA forventes det, at omkring 90 millioner intelligente målere vil blive installeret i 2021. Derfor er der en forudsagt høj efterspørgsel efter dem.
Hvorfor kræves Data Lake?
Formålet med en datasø er at give et ubehandlet billede af data (data i sin reneste form).
Eksempler
I dag har mange store virksomheder, herunder Google, Amazon, Cloudera, Oracle, Microsoft og få flere, data-tilbud.
Mange organisationer bruger cloud storage-tjenester som Azure Data Lake eller Amazon S3. Virksomheder bruger også et distribueret filsystem som Apache Hadoop. Konceptet med en persondatasø, der lader dig styre og dele dine egne store data, har også udviklet sig.
Hvis vi taler om industrielle anvendelser, er det en meget velegnet pasform til sundhedsområdet. På grund af det ustrukturerede format for mange data i sundhedsvæsenet ( For eksempel, Lægenotater, kliniske data, patienters sygdomshistorie osv.) Og kravet om realtidsindsigt er en datasø en god mulighed i forhold til datalager.
Det tilbyder fleksible løsninger i uddannelsessektoren, hvor dataene er meget store og meget rå.
I transportsektoren, hovedsagelig inden for supply chain management eller logistik, hjælper det med at komme med forudsigelser og realisere omkostningsbesparende fordele.
Luftfarts- og elkraftindustrien bruger også datasøer.
hvordan man åbner apk-filer på windows
Et eksempel på implementeringen er GE Predix (udviklet af General Electric), som er en industriel data-søplatform, der tilbyder stærke datastyringskompetencer til at oprette, implementere og styre industrielle applikationer, der linker til industrielle aktiver, indsamle og analysere data og give realtid indsigt til forbedring af industriel infrastruktur og processer.
Forskellen mellem Data Warehouse og Data Lake
Ofte har folk det vanskeligt at forstå, hvordan en sø adskiller sig fra et datalager. De hævder også, at det er det samme som datalageret. Men dette er ikke virkeligheden.
Den eneste almindelighed mellem datasøen og datalageret er, at begge er datalagringslagre. Hvil, de er forskellige. De har forskellige brugssager og formål.
Forskellene præciseres nedenfor:
Data Lake | Data varehus | |
---|---|---|
Analytics | En datasø kan bruges til maskinindlæring, dataprofilering af dataopdagelse og forudsigende analyse. | Et datalager kan bruges til Business Intelligence, visualiseringer og batchrapportering. |
Data | En Data Lake vil gemme alle rådata i den. Det kan være struktureret, ustruktureret eller semi-struktureret. Det kan være muligt, at nogle af dataene i datasøen aldrig skal bruges. | Et datavarehus inkorporerer kun de data, der behandles og raffineres, dvs. strukturerede data, der er nødvendige for rapportering og løsning af specifikke forretningsproblemer. |
Brugere | Generelt er brugerne af en datasø dataforskere og dataudviklere. | Generelt er brugerne af datalageret forretningsfolk, operationelle brugere og forretningsanalytikere. |
Tilgængelighed | Datasøen er meget tilgængelig og let og hurtig at opdatere, fordi de ikke har nogen struktur. | I datalageret er opdatering af data en mere kompliceret og dyr operation, fordi datalager er struktureret efter design. |
Skema | Skema ved skrivning. Designet før DW-implementeringen. | Skema ved læsning. Skrevet på tidspunktet for analysen. |
Arkitektur | Flad arkitektur | Hierarkisk arkitektur |
Formål | Formålet med rådata, der er gemt i datasøer, er ikke fast eller er ikke bestemt. Til tider kan dataene strømme ind i en datasø med en bestemt fremtidig brug i tankerne eller bare for at have dataene handy. Datasøen har mindre organiserede og mindre filtrerede data. | De behandlede data, der er gemt i datalageret, har et specifikt og bestemt formål. En DW har organiseret og filtreret data. Derfor kræver det mindre lagerplads end datasøen. |
Opbevaring | Designet til billig opbevaring. Datasøens hardware er meget forskellig fra hardwaret i datalageret. Det bruger almindelige servere kombineret med billig lagerplads. Dette gør datasøen ret økonomisk og meget skalerbar til terabyte og petabyte. Dette gøres for at opbevare alle data i en datasø, så du når som helst kan gå tilbage til tiden til at foretage analyse. | Dyrt for store datamængder. Datalageret har dyr disklagring for at gøre det yderst performant. Derfor, for at spare på pladsen, forenkles datamodellen, og kun de data, der virkelig er nødvendige for at træffe forretningsbeslutninger, opbevares på datalageret. |
Understøttelse af datatyper | En Data Lake understøtter meget godt de ikke-traditionelle datatyper som serverlogfiler, sensordata, aktivitet på det sociale netværk, tekst, billeder, multimedier osv. Alle data opbevares uanset kilde og struktur. | Generelt består et datalager af data hentet fra transaktionssystemer. Det understøtter ikke særlig godt de ikke-traditionelle datatyper. Lagring og forbrug af ikke-traditionelle data kan være dyrt og vanskeligt med datalageret. |
Sikkerhed | Sikkerhed af datasøer er på 'modningstid', da dette er et relativt nyt koncept end datalageret. | Sikkerheden for datalager er på det 'modne' stadium. |
Adræthed | Meget smidig konfigurere og omkonfigurere efter behov. | Mindre adræt fast konfiguration. |
Data Lake Arkitektur
Arkitekturdiagram
Ovenfor er det konceptuelle arkitekturdiagram for datasøen. Til venstre kan du se, at vi har datakilderne, som kan være strukturerede, semistrukturerede eller ustrukturerede.
Disse datakilder kombineres til en rå datalager, der bruger data i sin råform, dvs. data uden nogen transformation. Dette er billig, permanent og skalerbar opbevaring.
Dernæst har vi analytiske sandkasser, der kan bruges til datafinding, sonderende dataanalyse og forudsigelig modellering. Dybest set bruges dette af dataforskere til at udforske data, opbygge ny hypotese og definere brugssager.
Derefter er der en batchbehandlingsmotor, der behandler rådataene til brugervenlig form, dvs. i et struktureret format, der kan bruges til rapportering til slutbrugere.
Så har vi en realtids-behandlingsmotor, der tages i streaming af data og transformerer dem.
Nøgleegenskaber ved Data Lake
For at blive klassificeret som Data Lake skal et big data repository have følgende tre attributter:
# 1) Et enkelt fælles arkiv med data, der normalt er anbragt i et distribueret filsystem (DFS).
Hadoop-data sørger for at opretholde data i sin oprindelige form og registrere ændringer i data og relativ semantik i løbet af datalevecyklussen. Denne tilgang er især gavnlig for overholdelseskontrol og interne revisioner.
Dette er en forbedring over det konventionelle Enterprise Data Warehouse, hvor når data går gennem transformationer, aggregeringer og modifikationer, er det vanskeligt at sætte data som en helhed, når det kræves, og virksomheder stræber efter at finde ud af datakilden / oprindelsen.
# 2) Indeholder planlægnings- og jobplanlægningsfunktioner (for eksempel gennem ethvert planlægningsværktøj som GARN osv.).
Workload-udførelse er et væsentligt behov for virksomheden Hadoop og YARN tilbyder ressourcestyring og en central platform til at levere konstante processer, sikkerhed og datastyringsværktøjer i hele Hadoop-klynger, hvilket sørger for, at analytiske arbejdsgange har det krævede niveau af dataadgang og computerkraft.
# 3) Omfatter det sæt hjælpeprogrammer og funktioner, der kræves for at forbruge, behandle eller arbejde med dataene.
Nem og hurtig tilgængelighed for brugerne er et af de vigtigste træk ved en datasø, fordi organisationerne gemmer dataene i deres oprindelige eller rene form.
Uanset hvilken form dataene er dvs. strukturerede, ustrukturerede eller semi-strukturerede, indsættes de som de er i datasøen. Det giver dataejere mulighed for at kombinere kunde-, leverandør- og driftsdata ved at slippe af med tekniske eller politiske barrierer for deling af data.
Fordele
(billede kilde )
- Alsidig : Kompetent nok til at gemme alle former for strukturerede / ustrukturerede data lige fra CRM-data til sociale netværksaktiviteter.
- Mere skemaers fleksibilitet : Behøver ikke planlægning eller forudgående viden om dataanalyse. Den gemmer alle data, som de er i original form, og antager, at analysen vil ske senere efter behov. Dette er meget nyttigt for OLAP. For eksempel, Hadoop-datasøen tillader dig at være skemafri, hvor du kan afkoble skema fra data.
- Realtidsbeslutningsanalyse : De nyder godt af en enorm mængde af ensartede data og dyb læringsalgoritmer for at nå realtidsbeslutningsanalyser. Kan opnå værdi fra ubegrænsede datatyper.
- Skalerbar: De er langt mere skalerbare end traditionelle datalager, og de er også billigere.
- Avanceret analyse / kompatibilitet med SQL og andre sprog: Med datasøer er der adskillige måder at forespørge på dataene på. I modsætning til traditionelle datalager, der kun understøtter SQL til simpel analyse, giver de dig en masse andre muligheder og sprogstøtte til at analysere data. De er også kompatible med værktøjer til maskinindlæring som Spark MLlib.
- Demokratisere data: Demokratiseret adgang til data gennem en enkelt, integreret visning af data i hele organisationen, samtidig med at der anvendes en effektiv datastyringsplatform. Dette sikrer, at data er tilgængelige overalt.
- Bedre kvalitet af data: Samlet set får du bedre kvalitet af data med datasøer gennem teknologiske fordele såsom datalagring i oprindeligt format, skalerbarhed, alsidighed, skemafleksibilitet, understøttelse af SQL og andre sprog og avanceret analyse.
Udfordringer og risici
Datasøer tilbyder mange fordele. Men ja, der er også et par udfordringer og risici forbundet med dem, som en organisation skal tage sig af nøje.
De er:
- Hvis de ikke er korrekt designet, kan de blive til datasumpe. Nogle gange ender organisationer bare med at dumpe ubegrænsede data i disse søer uden nogen strategi og formål i tankerne.
- Til tider har analytikerne, der ønsker at bruge dataene, ingen viden om, hvordan man gør det, da det er ret udfordrende at udføre minedrift i datasøer. Således mister de relevans og momentum efter nogen tid. Organisationer skal arbejde på at fjerne denne barriere for analytikere.
- Da vi har mange uorganiserede data i datasøer, er de ikke friske eller aktuelle nok til at blive brugt i produktionen. Derfor forbliver dataene i disse søer i pilottilstand og sættes aldrig i produktion.
- Ustrukturerede data kan føre til ubrugelige data.
- Nogle gange oplever organisationer, at det ikke har nogen væsentlig indvirkning på forretningen med hensyn til de foretagne investeringer. Dette kræver en ændring af tankegangen. For at påvirkninger skal forekomme, er virksomheder nødt til at tilskynde ledere og ledere til at træffe beslutninger baseret på analyserne afledt af disse datareservoirer.
- Sikkerhed og adgangskontrol er også en af risiciene, når du arbejder med dem. Nogle af de data, der muligvis har krævet fortrolighed og regler, placeres i datasøer uden tilsyn.
Implementering
I en virksomhed er det ret fornuftigt at gennemføre datasøimplementeringen på en agil måde.
Det vil sige, at først implementere en Data Lake MVP får den testet af brugerne med hensyn til kvalitet, let adgang, opbevaring og analytiske kapaciteter, modtage tilbagemeldinger og derefter tilføje de komplekse krav og funktioner for at tilføje værdi til søen.
Generelt gennemgår en organisation nedenstående fire grundlæggende implementeringsfaser:
(billede kilde )
Scene 1:
Basic Data Lake: På dette tidspunkt afvikler holdet sig til den grundlæggende arkitektur, teknologi (skybaseret eller arv) og sikkerhed og styringspraksis for datasøen. Det er gjort i stand til at lagre alle rådata, der kommer fra forskellige virksomhedskilder, og kombinere interne og eksterne data for at levere berigede oplysninger.
Trin 2:
Sandkassen: Forbedring af den analytiske evne: På dette stadium får dataforskerne adgang til datareservoiret for at udføre foreløbige eksperimenter for at udnytte rådata og designe analytiske modeller til at imødekomme forretningsbehov.
Trin 3:
gratis anime-streaming-sider engelsk dubbet
Datavarehuse og Data Lake-samarbejde: På dette tidspunkt begynder organisationen at bruge datasø i synergi med de eksisterende datalager. Data med lav prioritet sendes til dem, så lagringsgrænsen for datalager ikke overskrides.
Det giver mulighed for at producere indsigt fra kolde data eller forespørge om at finde information, der ikke indekseres af konventionelle databaser.
Trin 4:
End to End-vedtagelse af Data Lake: Dette er det sidste og modenhedsovertagelsestrin, hvor det bliver til et nøgleelement i organisationens dataarkitektur og effektivt direkte søgning. På dette tidspunkt ville datasøen have erstattet EDW, og de blev den eneste kilde til alle virksomhedsdataene.
En organisation kan gøre følgende gennem datasøen:
- Opret komplekse datamodellerings- og analyseløsninger til forskellige forretningsbehov.
- Design interaktive dashboards, der konsoliderer forståelser fra datasøen plus forskellige applikations- og datakilder.
- Implementer avancerede analyse- eller robotprogrammer, da det håndterer beregningsoperationer.
På dette tidspunkt har den også stærke sikkerheds- og styringsforanstaltninger.
Data Lake-leverandører
Der er forskellige leverandører, der leverer data søværktøjer i branchen.
(billede kilde )
Hvis vi ser på de store virksomheder:
- Computing leverer et intelligent data søværktøj. BDM (Big Data Management) 10.2.2 er den seneste tilgængelige version.
- Der kaldes en sælger looker der også leverer værktøjet.
- Virksomheden Talend hvilket er populært for deres ETL-værktøjer, leverer også Data Lake-værktøjet.
- Derefter har vi et open source-værktøj kaldet Kylo fra Teradata Selskab. Holdet kaldet 'Think Big' team i Teradata-firmaet har udviklet dette værktøj.
- Virksomheden Fad data Inc leverer også disse tjenester.
- Fra Microsoft , du kan finde Azure data sø tilgængelig i branchen.
- Hvr-software leverer også data sø konsolidering løsninger.
- Podiumdata, et Qlik-firma leverer værktøjsprodukter som data lake pipelines, multi-zone data lake.
- Snefnug har også et datasøprodukt.
- Zaloni er et datasøfirma, der håndterer enorme data ved hjælp af Big Data.
Så alt dette er de populære tjenesteudbydere såvel som leverandører af sådanne værktøjer.
Hvis du leder efter at øve og opbygge din viden om datasøer, kan du gå til Informatica eller Kylo. Hvis du leder efter en skybaseret tjeneste, kan du vælge Looker, Informatica og Talend. Disse tre leverandører leverer AWS-skydatasøer. Du kan også få en 1-måneders gratis prøveperiode fra Kylo.
Konklusion
I denne vejledning diskuterede vi begrebet datasø i detaljer. Vi gennemgik den grundlæggende idé bag datasøen, dens arkitektur, nøglekarakteristika, fordele sammen med eksemplerne, brugssager osv.
Vi så også, hvordan en datasø er forskellig fra datalageret. Vi dækkede også de største leverandører, der leverer relaterede tjenester.
God læselyst!!
Anbefalet læsning
- Vejledning til test af datavarehus med eksempler ETL testguide
- Top 10 test- og valideringsværktøjer til strukturerede data til SEO
- Data Mining: Process, teknikker og større problemer i dataanalyse
- Data Mart Tutorial - Typer, eksempler og implementering af Data Mart
- Top 10 populære datalagerværktøjer og testteknologier
- Dimensional datamodel i datalager - vejledning med eksempler
- 10+ bedste dataindsamlingsværktøjer med strategier til dataindsamling
- Data Pool-funktion i IBM Rational Quality Manager til testdatastyring