big data tutorial beginners what is big data
Denne vejledning forklarer alt om Big Data Basics. Tutorial inkluderer fordele, udfordringer, teknologier og værktøjer sammen med anvendelser af Big Data:
I denne digitale verden med teknologiske fremskridt udveksler vi store mængder data dagligt som i Terabyte eller petabyte .
Hvis vi udveksler den mængde data dagligt, er vi også nødt til at vedligeholde det og gemme det et eller andet sted. Løsningen til at håndtere de store datamængder med høj hastighed og forskellig variation er Big Data.
Det kan håndtere komplekse data, der kommer fra flere kilder som forskellige databaser, websteder, widgets osv. Det kan også linke og matche de data, der kommer fra forskellige kilder. Det giver faktisk hurtigere adgang til dataene ( For eksempel, sociale medier).
Liste over selvstudier i denne Big Data-serie
Tutorial # 1: Hvad er Big Data? (Denne vejledning)
Tutorial # 2: Hvad er Hadoop? Apache Hadoop-vejledning til begyndere
Tutorial # 3: Hadoop HDFS - Hadoop distribueret filsystem
Tutorial # 4: Hadoop Arkitektur Og HDFS Kommandovejledning
Tutorial # 5: Hadoop MapReduce-tutorial med eksempler | Hvad er MapReduce?
Tutorial # 6: Apache Hadoop GAR-vejledning til begyndere | Hvad er garn?
Tutorial # 7: Omfattende Hadoop-testvejledning | Guide til test af big data
Hvad du vil lære:
Hvad er Big Data?
Ordet Kæmpe er ikke nok til at forklare BigData, visse egenskaber klassificerer dataene i BigData.
Vi har tre hovedegenskaber ved BigData, og hvis nogen data opfylder disse karakteristika, behandles de som BigData. jeg t er kombinationen af de tre V'er, der er nævnt nedenfor:
- Bind
- Hastighed
- Bred vifte
Bind : Dataene skal være enorme. Big Data har løsningen til at vedligeholde en stor mængde data, der findes i Terabyte eller Petabyte. Vi kan udføre CRUD (Opret, læse, opdatere og slette) operationer på BigData nemt og effektivt.
Hastighed : Det er ansvarlig for hurtigere adgang til data. For eksempel, i dag har sociale medier brug for en hurtig udveksling af data inden for en brøkdel af tiden, og BigData er den bedste løsning til det. Derfor er hastighed en anden egenskab, og det er databehandlingshastigheden.
Bred vifte : På sociale medier har vi at gøre med ustrukturerede data som lyd- eller videooptagelser, billeder osv. Desuden har forskellige sektorer som bankdomænet brug for strukturerede og semistrukturerede data. BigData er løsningen til at vedligeholde begge typer data på ét sted.
Variety betyder forskellige typer data som strukturerede / ustrukturerede data, der kommer fra flere kilder.
c ++ funktioner
Strukturerede data : Dataene, som har en korrekt struktur, eller den, der let kan gemmes i en tabelform i alle Relationelle databaser som Oracle, SQL Server eller MySQL, er kendt som Structured Data. Vi kan behandle eller analysere det let og effektivt.
Et eksempel på strukturerede data er de data, der er gemt i en relationsdatabase, som kan styres ved hjælp af SQL (Structured Query Language). For eksempel, Medarbejderdata (navn, id, betegnelse og løn) kan lagres i tabelformat.
I en traditionel database kan vi kun udføre operationer eller behandle ustrukturerede eller semistrukturerede data, når de er formateret eller passer ind i relationsdatabasen. Eksempler af strukturerede data er ERP, CRM osv.
Semistrukturerede data: Semistrukturerede data er de data, der ikke er fuldt formateret. Det er ikke gemt i datatabeller eller nogen database. Men alligevel kan vi nemt klargøre det og behandle det, da disse data indeholder tags eller komma-adskilte værdier osv. Eksempel af semistrukturerede data er XML-filer, CSV-filer osv.
Ustrukturerede data: Ustrukturerede data er de data, der ikke har nogen struktur. Det kan være i enhver form, der er ingen foruddefineret datamodel. Vi kan ikke gemme det i traditionelle databaser. Det er komplekst at søge og behandle det.
hvordan man åbner en .7z fil mac
Også mængden af ustrukturerede data er meget høj. Eksempel af ustrukturerede data er e-mail-organ, lyd, video, billeder, opnåede dokumenter osv.
Udfordringer ved traditionelle databaser
- Den traditionelle database understøtter ikke forskellige data, dvs. den er ikke i stand til at håndtere ustrukturerede og semistrukturerede data.
- En traditionel database er langsom, når der behandles en stor mængde data.
- I traditionelle databaser er det meget vanskeligt at behandle eller analysere en stor mængde data.
- En traditionel database er i stand til at gemme data i terabyte eller petabyte.
- En traditionel database kan ikke håndtere historiske data og rapporter.
- Efter en vis tid er dataoprydning af databasen nødvendig.
- Omkostningerne ved at vedligeholde en stor mængde data er meget høje med en traditionel database.
- Datanøjagtigheden er mindre i den traditionelle database, da fulde historiske data ikke opretholdes i den.
Big DataFordele i forhold til traditionel database
- Big Data er ansvarlig for at håndtere, administrere og behandle forskellige typer data som Structured, Semi-structured og Unstructured.
- Det er omkostningseffektivt med hensyn til vedligeholdelse af en stor mængde data. Det fungerer på et distribueret databasesystem.
- Vi kan gemme store mængder data i lang tid ved hjælp af BigData-teknikker. Så det er let at håndtere historiske data og generere nøjagtige rapporter.
- Databehandlingshastigheden er meget hurtig, og de sociale medier bruger således Big Data-teknikker.
- Datanøjagtighed er en stor fordel ved Big Data.
- Det giver brugerne mulighed for at træffe effektive beslutninger for deres forretning baseret på aktuelle og historiske data.
- Fejlhåndtering, versionskontrol og kundeoplevelse er meget effektive i BigData.
Foreslået læsning => Big Data vs Big Data Analytics vs Data Science
Udfordringer og risici i BigData
Udfordringer:
- En af de største udfordringer i Big Data er at styre store datamængder. I dag kommer data til et system fra forskellige kilder med variation. Så det er en meget stor udfordring for virksomhederne at styre det ordentligt. For eksempel, for at generere en rapport, der indeholder de sidste 20 års data, kræves det at gemme og vedligeholde de sidste 20 års data i et system. For at levere en nøjagtig rapport er det nødvendigt kun at indsætte de relevante data i systemet. Det bør ikke indeholde irrelevante eller unødvendige data, ellers vil det være en stor udfordring for virksomhederne at opretholde den mængde data.
- En anden udfordring med denne teknologi er synkronisering af forskellige datatyper. Som vi alle ved understøtter Big Data strukturerede, ustrukturerede og semistrukturerede data, der kommer fra forskellige kilder, det er meget vanskeligt at synkronisere det og få konsistensen af data.
- Den næste udfordring, som virksomheder står over for, er hullet i eksperter, der kan hjælpe og implementere de problemer, de står over for i systemet. Der er et stort hul i talent på dette felt.
- Håndtering af overholdelsesaspekt er dyrt.
- Dataindsamling, aggregering, lagring, analyse og rapportering af BigData koster enorme omkostninger. Organisationen skal være i stand til at styre alle disse omkostninger.
Risici:
- Det kan håndtere en række data, men hvis virksomheder ikke kan forstå kravene ordentligt og kontrollere datakilden, vil det give mangelfulde resultater. Som et resultat vil det have brug for en masse tid og penge for at undersøge og rette resultaterne.
- Datasikkerhed er en anden risiko med BigData. Med et stort datamængde er der større chancer for, at nogen stjæler det. Datahackere kan stjæle og sælge vigtige oplysninger (herunder historiske data) om virksomheden.
- Desuden er databeskyttelse en anden risiko for BigData. Hvis vi ønsker at sikre de personlige og følsomme data fra hackere, skal de beskyttes og skal passere alle fortrolighedspolitikker.
Big Data Technologies
Følgende er de teknologier, der kan bruges til at styre Big Data:
- Apache Hadoop
- Microsoft HDInsight
- Ingen SQL
- Hive
- Sqoop
- BigData i Excel
En detaljeret beskrivelse af disse teknologier vil blive dækket i vores kommende tutorials.
Værktøjer til brug af Big Data-koncepter
Nedenfor vises de open source-værktøjer, der kan hjælpe med at bruge Big Data-koncepter:
# 1) Apache Hadoop
# 2) Lys op
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) HPCC-system BigData
Anvendelser af Big Data
Følgende er de domæner, hvor det bruges:
- Bankvirksomhed
- Medier og underholdning
- Sundhedsudbydere
- Forsikring
- Uddannelse
- Detailhandel
- Fremstilling
- Regering
BigData og datalager
Data Warehouse er et grundlæggende koncept, som vi skal forstå, før vi diskuterer Hadoop eller BigData Testing.
Lad os forstå Data Warehouse fra et eksempel i realtid. For eksempel , der er et firma, der har etableret sine filialer i tre forskellige lande, lad os antage en filial i Indien, Australien og Japan.
I hver gren gemmes hele kundedataene i den lokale database. Disse lokale databaser kan være normale klassiske RDBMS'er som Oracle eller MySQL eller SQL Server osv., Og alle kundedata gemmes i dem dagligt.
Nu, hvert kvartal, hvert halvår eller hvert år, ønsker organisationen at analysere disse data til forretningsudvikling. For at gøre det samme vil organisationen samle alle disse data fra flere kilder og derefter sætte dem sammen ét sted, og dette sted kaldes 'Data varehus'.
Data Warehouse er en slags database, der indeholder alle data hentet fra flere kilder eller flere databasetyper gennem “ETL” (hvilket er ER ekstrakt, T ransformere og L oad) proces. Når dataene er klar i datalageret, kan vi bruge dem til analytiske formål.
Så til analyse kan vi generere rapporter fra de tilgængelige data i datavarehuset. Flere diagrammer og rapporter kan genereres ved hjælp af Business Intelligence Tools.
Vi kræver datavarehus til analytiske formål for at udvikle forretningen og træffe passende beslutninger for organisationerne.
bedste program til at klone en harddisk
Tre ting sker i denne proces, først er vi har trukket dataene fra flere kilder og lagt dem på et enkelt sted, der er Data Warehouse.
Her bruger vi “ETL” -processen, så mens vi indlæser data fra flere kilder til et sted, vil vi anvende dem i Transformation-rødder, og så kan vi bruge forskellige slags ETL-værktøjer her.
Når dataene er klar i Data Warehouse, kan vi generere forskellige rapporter for at analysere forretningsdataene ved hjælp af Business Intelligence (BI) -værktøjer, eller vi kalder dem også Rapporteringsværktøjer. Værktøjerne som Tableau eller Cognos kan bruges til at generere rapporterne og DashBoards til analyse af dataene til virksomhederne.
OLTP og OLAP
Lad os forstå, hvad OLTP og hvad OLAP er?
Databaser, der vedligeholdes lokalt og bruges til transaktionsformål, kaldes OLTP, dvs. online transaktionsbehandling. De daglige transaktioner gemmes her og opdateres med det samme, og derfor kaldte vi dem OLTP-system.
Her bruger vi traditionelle databaser, vi har flere tabeller, og der er relationer, så alt planlægges systematisk i henhold til databasen. Vi bruger ikke disse data til analytiske formål. Her kan vi bruge klassiske RDMBS-databaser som Oracle, MySQL, SQL Server osv.
Når vi kommer til Data Warehouse-delen, bruger vi Teradata eller Hadoop Systems, som også er en slags database, men dataene i et DataWarehouse bruges normalt til analytiske formål og kaldes OLAP eller Online analytisk behandling.
Her kan dataene opdateres kvartalsvis, halvårligt eller årligt. Nogle gange opdateres dataene også 'Tilbudt', hvor Offerly betyder, at dataene opdateres og hentes til analyse efter kundens behov.
Dataene til analyse opdateres heller ikke dagligt, fordi vi modtager data fra flere kilder på en planlagt basis, og vi kan udføre denne ETL-opgave. Sådan fungerer det online analytiske behandlingssystem.
Også her kan BI-værktøjer eller rapporteringsværktøjer generere rapporter såvel som dashboards, og baseret på dette vil forretningsfolk tage beslutninger om at forbedre deres forretning.
Hvor kommer BigData ind i billedet?
BigData er de data, der ligger uden for lagring og behandlingskapacitet i konventionelle databaser, og de er i formatet Struktureret og Ustruktureret, så de ikke kan håndteres af lokale RDBMS-systemer.
Denne form for data genereres i TeraBytes (TB) eller PetaBytes (PB) eller derover, og de stiger hurtigt i dag. Der er flere kilder til at få denne form for data såsom Facebook, WhatsApp (som er relateret til socialt netværk); Amazon, Flipkart relateret til e-handel; Gmail, Yahoo, Rediff relateret til e-mails og Google og andre søgemaskiner. Vi får også bigdata fra mobiltelefoner som SMS-data, opkaldsoptagelse, opkaldslister osv.
Konklusion
Big data er løsningen til at håndtere store datamængder effektivt og sikkert. Det er også ansvarligt at vedligeholde historiske data. Der er mange fordele ved denne teknologi, hvorfor enhver virksomhed ønsker at skifte til Big data
Forfatter: Vaishali Tarey, teknisk leder @ Syntel
Anbefalet læsning
- Data Mart Tutorial - Typer, eksempler og implementering af Data Mart
- Top 10 databasedesignværktøjer til at opbygge komplekse datamodeller
- 20+ MongoDB-vejledning til begyndere: Gratis MongoDB-kursus
- Hvad er en datasø | Data Warehouse vs Data Lake
- Top 10 test- og valideringsværktøjer til strukturerede data til SEO
- Dimensional datamodel i datalager - vejledning med eksempler
- Data Mining: Process, teknikker og større problemer i dataanalyse
- Sådan udføres datadrevet test i SoapUI Pro - SoapUI Tutorial # 14