apache hadoop yarn tutorial
Hadoop-komponenter - MapReduce With Hadoop GARN:
I vores tidligere tutorial om Hadoop-komponenten lærte vi om Hadoop MapReduce og dens behandlingsmekanisme som INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING og FINAL RESULT.
I denne vejledning vil vi undersøge:
- Hvordan fungerer Map Reduce med YARN?
- Application Workflow for Hadoop YARN.
=> Se på BigData Beginners Guide her.
Hvad du vil lære:
Kortreducer med Hadoop GARN
Lad os forstå, hvordan MapReduce bruger YARN til at udføre jobbet over Hadoop-klyngen. Men inden vi fortsætter, er det første, dette spørgsmål kommer i vores sind hvad er den fulde form for GARN? Eller hvad står YARN for?
GARN midler Endnu en ressourceforhandler.
Det er den, der tildeler ressourcerne til forskellige job, der skal udføres over Hadoop-klyngen. Det blev introduceret i Hadoop 2.0.
Till Hadoop 1.0 MapReduce var den eneste ramme eller den eneste behandlingsenhed, der kan udføres over Hadoop-klyngen. Imidlertid blev YARN introduceret i Hadoop 2.0, og ved hjælp af det er vi også i stand til at gå ud over MapReduce.
Som du kan se i diagrammet, har vi HDFS i bunden imellem, vi har GARN og ved hjælp af GARN er mange rammer i stand til at forbinde og udnytte HDFS. Så selv MapReduce bruges til at oprette forbindelse ved hjælp af YARN til anmodning om ressourcerne, og kun derefter kan den udføre jobbet over HDFS, dvs. Hadoop Cluster.
Tilsvarende; SPARK, STORM og andre søgemaskiner kan oprette forbindelse til HDFS. HBase, som ikke er en SQL-database, kan også forbinde den. Så anvendelserne af HDFS blev enorme, bare fordi YARN også kunne åbne porten for andre rammer og andre Bigdata-analyseværktøjer.
Hvad er forskellen mellem MapReduce Version1 (MRv1) og MapReduce Version2 (MRv2)?
MRv1 var i det væsentlige en del af Hadoop framework 1 og med Hadoop 2 kom YARN ind i billedet, og MapReduce blev opgraderet til MRv2 med flere ændringer i klasser. Klasserne blev opdateret, men syntaksen for at skrive MapReduce-programmet forbliver den samme.
I dette scenarie forbinder MapReduce nu med YARN for at akse HDFS.
Sammen med YARN er Resource Manager og Node Manager de nye dæmoner, der blev introduceret i Hadoop Cluster.
Tidligere var det Job Tracker og Task Tracker. De blev imidlertid fjernet fra Hadoop 2.0, og Resource Manager & Node Manager blev introduceret sammen med YARN i Hadoop-rammen.
Hadoop 2.x Daemons
Lad os se hurtigt på de nyligt introducerede Daemons i Hadoop 2.0, der kører komponenterne, dvs. opbevaring og behandling.
spørgsmål til en forretningsanalytiker
I HDFS-selvstudiet forstod vi Daemon, dvs. NameNode og DataNode i detaljer. I denne vejledning vil vi forstå, hvordan Resource Manager og Node Manager arbejder i Hadoop 2.x Cluster for at styre den behandling og de job, der skal udføres i Hadoop Cluster.
Så hvad er Ressource Manager? Resource Manager er Master Daemons, der kører på Master Machine eller NameNode, som er en avanceret maskine. Node Manager er derimod Daemon, der kører på Slave Machines eller DataNodes eller sammen med DataNode Process.
Hadoop 2.x MapReduce Garnkomponenter
Lad os undersøge de andre komponenter i GAR nedenfor.
- Klient: Det er en enhed, der sender det Job-lignende Command Line Interface (CLI), og klienten kan være et JAVA-program.
- Ressource Manager: Det er en masterdemon, som alle job sendes til fra klienten, og det er den, der tildeler alle ressourcer på klyngeniveau til at udføre et bestemt job. Det kører på en avanceret maskine, der har hardware af god kvalitet og god konfiguration, da det er Master Machine, der skal styre alt over klyngen.
- Node Manager : Det er en Slave-dæmon, der kører på Slave Machines eller DataNode, så hver Slave Machine har en Node Manager, der kører. Den overvåger ressourcerne i bestemte DataNode, Resource Manager administrerer Cluster-ressourcerne og Node Manager administrerer DataNode-ressourcerne.
- Jobhistorik Server: Det er enheden til at holde styr på alle de job, der er udført over klyngen eller er blevet sendt til klyngen. Det holder også styr på status og holder også logfilerne for hver udførelse, der er sket over Hadoop Cluster.
- Ansøgning Master : Det er en komponent, der udføres over Node Machine, Slave Machine og oprettes af en Resource Manager til at udføre og administrere et job. Det er den, der forhandler ressourcerne fra Resource Manager og koordinerer til sidst med Node Manager for at udføre opgaven.
- Beholder: Det oprettes af selve Node Manager, der er tildelt af Resource Manager, og alle job udføres endelig inden i containeren.
GAR Arbejdsflow
Som vist i ovenstående diagram er der en Ressource Manager som alle job sendes til, og der er en klynge, hvor der er slave-maskiner, og på hver slave-maskine er der en Node Manager kører.
Ressource Manager har to komponenter, dvs. Planlægning og Application Manager.
Hvad er forskellen mellem Application Master og Application Manager?
Application Manager er en komponent af Ressource Manager som sikrer, at hver opgave udføres og en Ansøgning Master er skabt til det. Ansøgning Master, på den anden side er der nogen, der udfører opgaven og anmoder om alle de ressourcer, der skal udføres.
Lad os sige, at jobbet sendes til Ressource Manager , så snart jobbet er afleveret Planlægning planlægger jobbet. En gang Planlægning planlægger jobbet, der skal udføres Application Manager vil skabe en Beholder i en af DataNodes og inden for dette Beholder, det Ansøgning Master vil blive startet.
Det her Ansøgning Master vil derefter registrere sig hos Ressource Manager og anmode om en Beholder at udføre opgaven. Så snart Beholder tildeles, Ansøgning Master vil nu være forbundet med Node Manager og anmode om at starte Beholder .
Som vi kan se, er Ansøgning Master fik tildelt DataNodes D og ER , og nu dette Ansøgning Master anmodede om Node Manager at starte Beholdere af DataNode D og DataNode E .
Så snart Beholdere blev lanceret, blev Ansøgning Master vil udføre opgaven inden for Beholder og resultatet sendes tilbage til Klient .
Applikationsflow
Lad os forstå dette på en lille rækkefølge.
I nedenstående diagram har vi fire komponenter. Den første er Klient, den anden er Ressource Manager , den tredje er Node Manager og den fjerde linje indeholder Ansøgning Master .
Så lad os se, hvordan disse trin udføres mellem dem.
Det allerførste skridt er Klient der afgiver jobbet til Ressource Manager , i andet trin Ressource Manager tildeler en Beholder at starte Ansøgning Master på den Slave maskiner ; det tredje trin er Ansøgning Master registrerer sig hos Ressource Manager .
Så snart det registrerer sig, anmoder det om Beholder at udføre opgaven, dvs. det fjerde trin. I trin fem blev Ansøgning Master underretter Node Manager hvorpå Beholder skal lanceres.
I trin seks, en gang Node Manager har lanceret Beholdere, det Ansøgning Master vil udføre koden inden for disse Beholdere .
Endelig, i det syvende trin, blev Klient kontakter Ressource Manager eller den Ansøgning Master for at overvåge applikationsstatus.
I sidste ende, den Ansøgning Master vil afmelde sig fra Ressource Manager og resultatet gives tilbage til Klient . Så dette er en simpel sekventiel strøm af, hvordan et MapReduce-program udføres ved hjælp af YARN-rammen.
Konklusion
Så i denne vejledning lærte vi følgende punkter:
- GARN midler Endnu en ressourceforhandler.
- YARN blev introduceret i Hadoop 2.0
- Resource Manager og Node Manager blev introduceret sammen med YARN i Hadoop-rammen.
- Garnkomponenter som klient, ressourcemanager, node manager, jobhistorikserver, applikationsmester og container.
I den kommende vejledning vil vi diskutere testteknikkerne for BigData og de udfordringer, BigData Testing står over for. Vi vil også lære at overvinde disse udfordringer og eventuelle bypass-måder at gøre BigData-test let.
=> Besøg her for at lære BigData fra Scratch.
Anbefalet læsning
- Hvad er Hadoop? Apache Hadoop-vejledning til begyndere
- 20+ MongoDB-vejledning til begyndere: Gratis MongoDB-kursus
- Dybdegående formørkelsesvejledninger til begyndere
- Python-vejledning til begyndere (GRATIS GRATIS Python-træning)
- Big Data Tutorial for begyndere Hvad er Big Data?
- LoadRunner-selvstudie til begyndere (gratis 8-dages dybdegående kursus)
- Hadoop MapReduce-tutorial med eksempler | Hvad er MapReduce?
- Bedste GRATIS C # tutorialsserie: Den ultimative C # guide til begyndere