complete guide big data analytics
Dette er en omfattende guide til Big Data Analytics med dens brugssager, arkitektur, eksempler og sammenligning med Big Data og Data Science:
Big data-analyse har fået trækkraft, fordi virksomheder som Facebook, Google og Amazon har oprettet deres egne nye paradigmer for distribueret databehandling og analyse for at forstå deres kunders tilbøjelighed til værdiextraktion fra big data.
I denne vejledning forklarer vi big data-analyse og sammenligner den med Big Data og Data Science. Vi vil dække de nødvendige attributter, som virksomheder skal have i deres big data-strategi og den metode, der fungerer. Vi vil også nævne de nyeste tendenser og nogle brugstilfælde af dataanalyse.
Som vist i nedenstående billede kræver Analytics en til at bruge it-færdigheder, forretningsfærdigheder og datalogi. Big data-analyse er i centrum for at gøre brug af værdier fra big data, og det hjælper med at udlede forbrugsindsigt for en organisation.
(billede kilde )
Hvad du vil lære:
- Hvad er Big Data Analytics
- Konklusion
Hvad er Big Data Analytics
Big Data Analytics beskæftiger sig med brugen af en samling af statistiske teknikker, værktøjer og procedurer til analyse til Big Data.
Anbefales Læsning => Introduktion til Big Data
Det er analyserne, der hjælper med at udtrække værdifulde mønstre og meningsfuld indsigt fra big data for at understøtte dataledet beslutningstagning. Det er på grund af fremkomsten af nye datakilder som sociale medier og IoT-data, at big data og analyser er blevet populære.
Denne tendens giver anledning til et praksis- og undersøgelsesområde kaldet 'datavidenskab', der omfatter teknikker, værktøjer, teknologier og processer til datamining, rengøring, modellering og visualisering.
Big Data Vs Big Data Analytics Vs Data Science
TIL sammenligning mellem big data, data science og big data analytics kan forstås fra nedenstående tabel.
Basis | Big Data | Datavidenskab | Big Data Analytics |
---|---|---|---|
Værktøjer og teknologier | Hadoop Ecosystem, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Arbejdsroller og færdigheder | Vedligeholdelse af lagerinfrastruktur, databehandling og viden om Hadoop og dens integration med andre værktøjer. | Datatransformation, Data Engineering, Data Wrangling, Data Modellering og Visualisering | BI og avanceret analyse, statistik, datamodellering og maskinindlæring, matematiske færdigheder, kommunikation, rådgivning. |
Betegnelser | Big Data Architect Big Data Developer Big Data Engineer | Data Scientist Machine Learning Engineer | Big Data Analyst Business analytiker Business Intelligence Engineer Business Analytics Specialist Udvikler af datavisualisering Analytics Manager |
Ca. Gennemsnitlig årlig løn i USD | 100.000 | 90.000 | 70.000 |
Foreslået læsning = >> Datalogi mod datalogi
Hvad enhver Big Data Analytics-strategi burde have
En veldefineret, integreret og omfattende strategi bidrager til og understøtter værdifuld datadrevet beslutningstagning i en organisation. I dette afsnit har vi listet de mest kritiske trin, der skal overvejes, når vi definerer en strategi for big data-analyse.
Trin 1: Vurdering
En vurdering, der allerede er tilpasset forretningsmålene, kræver involvering af nøgleinteressenter, oprettelse af et team af medlemmer med det rigtige sæt af færdigheder, evaluering af politikker, mennesker, proces samt teknologi- og dataaktiver. Hvis det er nødvendigt, kan man inddrage kunder af de vurderede i denne proces.
Trin 2: Prioritering
Efter vurderingen er der behov for at udlede brugssager, prioritere dem ved hjælp af forudsigende analyser af store data, receptpligtig analyse og kognitiv analyse. Du kan også bruge et værktøj som f.eks. Prioriteringsmatrixen og yderligere filtrere brugssagerne ved hjælp af feedback og input fra vigtige interessenter.
Trin 3: Køreplan
I dette trin er det nødvendigt at oprette en tidsmæssig køreplan og offentliggøre den for alle. En køreplan skal indeholde alle detaljer vedrørende kompleksitet, midler, iboende fordele ved brugssagerne og kortlagte projekter.
Trin 4: Ændringsledelse
Implementering af ændringsstyring kræver en til at administrere datatilgængelighed, integritet, sikkerhed og brugervenlighed. Et effektivt program til ændringsstyring, der bruger enhver eksisterende datastyring, tilskynder aktiviteter og medlemmer baseret på kontinuerlig overvågning.
Trin 5: Højre færdighedssæt
At identificere det rigtige kvalifikationssæt er afgørende for organisationens succes blandt de nuværende tendenser i branchen. Derfor skal man følge de rigtige ledere og bringe uddannelsesprogrammer til at uddanne kritiske interessenter.
Trin 6: Pålidelighed, skalerbarhed og sikkerhed
Den rigtige tilgang og effektiv strategi for stor dataanalyse gør analyseprocessen pålidelig med effektiv brug af fortolkelige modeller, der involverer datalogiske principper. En stor dataanalysestrategi skal også omfatte sikkerhedsaspekter lige fra starten for en robust og tæt integreret analyserørledning.
Datarørledning og proces til dataanalyse
Når man planlægger for dataanalyserørledningen, er der tre grundlæggende aspekter, man skal overveje. Disse er som følger:
- Indgang: Dataformat og udvælgelse af teknologi, der skal behandles, er det baseret på datas underliggende karakter. dvs. om data er tidsserier og kvalitet.
- Produktion: Valg af stik , rapporter og visualisering afhænger af slutbrugernes tekniske ekspertise og deres dataforbrugskrav.
- Bind: Skaleringsløsninger er planlagt baseret på datamængden for at undgå overbelastning på big databehandlingssystemet.
Lad os nu diskutere en typisk proces og stadierne for en big data analytics pipeline.
Trin 1: Indtagelse af data
Indtagelse af data er det første og mest betydningsfulde trin i datapipelinen. Den overvejer tre aspekter af data.
- Datakilde - Det er vigtigt med hensyn til valget af arkitekturen til big data pipeline.
- Datastruktur - Serialisering er nøglen til at opretholde en homogen struktur på tværs af rørledningen.
- Renhed af data - Analytics er lige så god som data uden problemer som manglende værdier og outliers osv.
Trin 2: ETL / lager
Det næste vigtige modul er datalagringsværktøjer til at udføre ETL (Extract Transform Load). Datalagring i et korrekt datacenter afhænger af,
- Hardware
- Ledelsesekspertise
- Budget
(billede kilde )
Nogle tidstestede værktøjer til ETL / Warehousing i datacentre er:
- Apache Hadoop
- Apache Hive
- Apache parket
- Presto Query-motor
Cloudfirmaer som Google, AWS, Microsoft Azure leverer disse værktøjer på betaling pr. Basis og sparer startkapitaludgifter.
Trin 3: Analytics og visualisering
I betragtning af Hadoop's begrænsning af hurtig forespørgsel skal man bruge analytiske platforme og værktøjer, der muliggør hurtig og ad hoc-forespørgsel med den krævede visualisering af resultater.
>> Anbefalet læsning: Big Data-værktøjer
Trin 4: Overvågning
Efter opsætning af en infrastruktur til indtagelse, opbevaring og analyse med visualiseringsværktøjer er det næste trin at have it- og dataovervågningsværktøjer til at overvåge. Disse inkluderer:
- CPU- eller GPU-brug
- Hukommelse og ressourceforbrug
- Netværk
Nogle værktøjer, der er værd at overveje, er:
- Datadog
- Grafana
Overvågningsværktøjer er uundværlige i en big data analytics pipeline og hjælper med at overvåge pipelines kvalitet og integritet.
Big Data Analytics-arkitektur
Arkitekturdiagrammet nedenfor viser, hvordan moderne teknologier bruger både ustrukturerede og strukturerede datakilder til Hadoop & Map-reduceret behandling, in-memory analytiske systemer og realtidsanalyser til at bringe kombinerede resultater til realtidsoperationer og beslutningstagning.
(billede kilde )
Nuværende tendenser inden for dataanalyse
I dette afsnit har vi listet de væsentlige aspekter, vi skal se efter, når vi implementerer eller følger tendenser inden for big data-analyse i branchen.
# 1) Store datakilder
Der er primært tre kilder til Big Data. Disse er anført nedenfor:
- Sociale data: Data genereret på grund af brug af sociale medier. Disse data hjælper med at forstå følelser og kunders adfærd og kan være nyttige i marketinganalyser.
- Maskindata: Disse data er hentet fra industrielt udstyr og applikationer ved hjælp af IoT-sensorer. Det hjælper med at forstå folks opførsel og giver indsigt i processer .
- Transaktionsdata: Det genereres som et resultat af både offline- og onlineaktiviteter for brugere vedrørende betalingsordrer, fakturaer, kvitteringer osv. Det meste af denne form for data har brug for forbehandling og rengøring før det kan bruges til analyse.
# 2) SQL / NoSQL datalagring
Sammenlignet med traditionelle databaser eller RDBMS viser NoSQL-databaser at være bedre til opgaver, der kræves til big data-analyse.
NoSQL-databaser kan i sagens natur håndtere ustrukturerede data ganske godt og er ikke begrænset til dyre skemaændringer, lodret skalering og interferens med ACID-egenskaber.
# 3) Forudsigende analyse
Predictive Analytics tilbyder tilpassede indsigter, der får organisationer til at generere nye kundesvar eller indkøb og krydssalgsmuligheder. Organisationer bruger forudsigende analyser til at forudsige individuelle elementer på granulært niveau for at forudsige fremtidige resultater og forhindre potentielle problemer. Dette kombineres yderligere med historiske data og bliver til receptpligtig analyse.
Nogle områder, hvor forudsigelig analyse af big data er blevet brugt med succes, er forretning, beskyttelse af børn, kliniske beslutningsstøttesystemer, porteføljeprognoser, forudsigelser på økonominiveau og forsikring.
# 4) Dyb læring
Big data er overvældende for konventionel computing. Det viser sig, at traditionelle maskinlæringsteknikker til dataanalyse flader ud i ydeevne med stigningen i variation og datamængde.
Analytics står over for udfordringer med hensyn til formatvariationer, stærkt distribuerede inputkilder, ubalancerede inputdata og hurtige streamingdata, og dyb læringsalgoritmer håndterer sådanne udfordringer ganske effektivt.
Dyb læring har fundet sin effektive anvendelse i semantisk indeksering, udførelse af diskriminerende opgaver, semantisk billede og videomærkning, social målretning og også i hierarkiske læringsmetoder på flere niveauer inden for genkendelse af objekter, datamærkning, informationssøgning og naturligt sprog forarbejdning.
# 5) Datasøer
Opbevaring af forskellige datasæt i forskellige systemer og kombination af dem til analyse med traditionelle datastyringsmetoder viser sig at være dyre og næsten umulige. Derfor laver organisationer Datasøer, som gemmer data i deres rå, oprindelige format til brugbar analyse.
Billedet nedenfor viser et eksempel på datasø i big-data-arkitekturen.
(billede kilde )
Big Data Analytics anvendelser
Vi har anført nogle af de mest almindelige anvendelsestilfælde nedenfor:
# 1) Kundeanalyse
Big Data Analytics er nyttigt til forskellige formål, såsom mikromarkedsføring, en-til-en-marketing, finere segmentering og massetilpasning til en virksomheds kunder. Virksomheder kan oprette strategier til at personalisere deres produkter og tjenester i henhold til kundernes tilbøjelighed til at op-sælge eller krydssælge en lignende eller anden vifte af produkter og tjenester.
# 2) Operation Analytics
Operation analytics hjælper med at forbedre den samlede beslutningstagning og forretningsresultater ved at udnytte eksisterende data og berige dem med maskinen og IoT-data.
For eksempel, big data-analyse i sundhedsvæsenet har gjort det muligt at stå over for udfordringer og nye muligheder i forbindelse med optimering af sundhedsudgifterne, forbedre overvågningen af kliniske forsøg, forudsige og planlægge reaktioner på sygdomsepidemier som COVID-19.
# 3) Forebyggelse af svig
Big data-analyse ses med potentialet til at levere en massiv fordel ved at hjælpe med at forudse og reducere svindelforsøg, primært i finans- og forsikringssektoren.
For eksempel, Forsikringsselskaber indhenter realtidsdata om demografi, indtjening, medicinske krav, advokatudgifter, vejr, stemmeoptagelser fra en kunde og callcenternotater. Specifikke realtidsoplysninger hjælper med at udlede forudsigelige modeller ved at kombinere ovennævnte oplysninger med historiske data for at identificere spekulerede falske påstande tidligt.
# 4) Prisoptimering
Virksomheder bruger big data-analyse til at øge fortjenstmargenerne ved at finde den bedste pris på produktniveau og ikke på kategoriniveau. Store virksomheder finder det for overvældende at få detaljerede detaljer og kompleksitet i prisvariabler, der ændres regelmæssigt for tusinder af produkter.
En analytisk drevet prisoptimeringsstrategi, såsom dynamisk deal-scoring, giver virksomheder mulighed for at fastsætte priser for klynger af produkter og segmenter baseret på deres data og indsigt i individuelle dealniveauer for at score hurtige gevinster fra krævende kunder.
Ofte stillede spørgsmål
Spørgsmål nr. 1) Er big data-analyse en god karriere?
Svar: Det er en merværdi for enhver organisation, der gør det muligt at træffe informerede beslutninger og give en fordel i forhold til konkurrenterne. En karriere i Big Data øger din chance for at blive en vigtig beslutningstager for en organisation.
Spørgsmål nr. 2) Hvorfor er big data-analyse vigtig?
Svar: Det hjælper organisationer med at skabe nye vækstmuligheder og helt nye produktkategorier, der kan kombinere og analysere branchedata. Disse virksomheder har rigelig information om produkter og tjenester, købere og leverandører, forbrugernes præferencer, der kan fanges og analyseres.
Spørgsmål nr. 3) Hvad kræves til analyse af big data?
Svar: Rækken af teknologier, som en god big data-analytiker skal være fortrolig med, er enorm. For at man skal mestre Big Data-analyse, kræver det en forståelse af forskellige værktøjer, software, hardware og platforme. For eksempel, Regneark, SQL-forespørgsler og R / R Studio og Python er nogle grundlæggende værktøjer.
På virksomhedsniveau er værktøjer som MATLAB, SPSS, SAS og Congnos vigtige ud over Linux, Hadoop, Java, Scala, Python, Spark, Hadoop og HIVE.
Objektive spørgsmål:
Spørgsmål nr. 4) Hvilken af nedenstående databaser er ikke en NoSQL-database?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Svar: PostgreSQL
Spørgsmål nr. 5) Er Cassandra en NoSQL?
- Sand
- Falsk
Svar: Sand
Spørgsmål nr. 6) Hvilket af følgende tilhører ikke Hadoop?
hvordan man åbner en jnlp-fil
- Open Source
- Baseret på Java
- Distribueret behandling
- Realtid
Svar: Realtid
Q # 7) Vælg alle de aktiviteter, der IKKE udføres af en dataforsker.
- Byg maskinlæringsmodeller og forbedr deres præstationer.
- Evaluering af statistiske modeller til validering af analyser
- Opsummer avancerede analyser ved hjælp af datavisualiseringsværktøjer
- Præsentation af resultaterne af teknisk analyse til interne teams og forretningskunder
Svar: Præsentation af resultaterne af teknisk analyse til interne teams og forretningskunder
Yderligere læsning = >> Nøgleforskelle mellem dataanalytiker og dataforsker
Spørgsmål nr. 8) Hvilke aktiviteter udføres af en dataanalytiker?
- Ryd op og organiser rådata
- At finde interessante tendenser i data
- Opret dashboards og visualiseringer for nem fortolkning
- Alle de ovenstående
Svar: Alle de ovenstående
Spørgsmål nr. 9) Hvilket af følgende udføres af en dataingeniør?
- Integration af nye datakilder til den eksisterende pipeline for dataanalyse
- Udviklingen af API'er til dataforbrug
- overvågning og test af systemet for fortsat ydeevne
- Alle de ovenstående
Svar: Alle de ovenstående
Spørgsmål nr. 10) Den korrekte sekvens af datastrøm til analyse er
- Datakilder, Dataforberedelse, Datatransformation, Algoritmedesign, Dataanalyse
- Datakilder, datatransformation, algoritmedesign, dataforberedelse, dataanalyse
- Datakilder, algoritmedesign, dataforberedelse, datatransformation, dataanalyse
- Datakilder, Dataforberedelse, Algoritmedesign, Datatransformation, Dataanalyse
Svar: Datakilder, Dataforberedelse, Datatransformation, Algoritmedesign, Dataanalyse
Q # 11) Dataanalyse er en lineær proces.
- Sand
- Falsk
Svar: Falsk
Q # 12) Eksplorativ analyse er IKKE
- Svar indledende dataanalysespørgsmål i detaljer
- Bestem problemer med datasættet
- Udvik en skitse af et svar på spørgsmålet
- Find ud af, om dataene er korrekte til besvarelse af et spørgsmål
Svar: Svarindledende dataanalysespørgsmål i detaljer
Q # 13) Forudsigelsesspørgsmål er et andet navn, der gives til et inferentielt spørgsmål.
- Sand
- Falsk
Svar: Falsk
Konklusion
Vi dækkede de vigtigste aspekter af big data-analyse. Vi forklarede de mest almindelige brugssager og tendenser i big data-analyseindustrien for at høste maksimale fordele.
Anbefalet læsning
- Top 7 BEDSTE dataanalysefirmaer i 2021 (Opdateret 2021-liste)
- Top 15 Big Data Tools (Big Data Analytics Tools) i 2021
- 10 bedste dataanalyseværktøjer til perfekt datahåndtering (2021 LIST)
- Top 10 datavidenskabsværktøjer i 2021 til at fjerne programmering
- Big Data Tutorial for begyndere Hvad er Big Data?
- Top 13 bedste big data-virksomheder i 2021
- 10 bedste datamodelleringsværktøjer til at styre komplekse designs
- 10+ bedste datastyringsværktøjer til at opfylde dine databehov i 2021