top 32 best datastage interview questions
Liste over hyppigst stillede interviewspørgsmål og svar til datastage, der hjælper dig med at forberede dig til det kommende interview:
DataStage er et meget populært ETL-værktøj, der var tilgængeligt på det nuværende marked.
I denne artikel deler jeg et sæt meget nyttige spørgsmålssvar beregnet til IBM Datastage-interviews. Gennemgang af nedenstående spørgsmål om Datastage-interview kan gøre det nemt for dig at knække interviewet.
Vi har dækket detaljerede svar på Datastage Interview-spørgsmålene, som vil være nyttige for nybegyndere og erfarne fagfolk.
Anbefalet læsning => ETL-testinterviewspørgsmål
Mest almindelige Datastage Interview Spørgsmål og svar
Lad os begynde!
Q # 1) Hvad er datastage?
Svar: Datastage er en ETL-værktøj givet af IBM som bruger en GUI til at designe dataintegrationsløsninger. Dette var det første ETL-værktøj, der gav et parallelismekoncept.
Den fås i følgende 3 forskellige udgaver
- Serverudgave
- Enterprise-udgave
- MVS-udgave
Q # 2) Fremhæv hovedfunktionerne i Datastage?
Svar: De vigtigste funktioner i Datastage fremhæves nedenfor:
- Det er dataintegrationskomponenten på IBM Infosphere-informationsserveren.
- Det er et GUI-baseret værktøj. Vi skal bare trække og slippe Datastage-objekterne, og vi kan konvertere det til Datastage-kode.
- Det bruges til at udføre ETL-operationer (Extract, Transform, Load)
- Det giver forbindelse til flere kilder og flere mål på samme tid
- Det giver partitionering og parallelle behandlingsteknikker, der gør det muligt for Datastage-jobene at behandle en enorm mængde data ret hurtigere.
- Det har forbindelse på virksomhedsniveau.
Q # 3) Hvad er de primære anvendelser af Datastage-værktøjet?
Svar: Datastage er et ETL-værktøj, der primært bruges til at udtrække data fra kildesystemer, transformere disse data og endelig indlæse dem til målsystemer.
Q # 4) Hvad er de vigtigste forskelle, du har observeret mellem 7.x og 8.x version af DataStage?
Svar: Her er de største forskelle mellem begge versioner
7.x | 8.x |
---|---|
7.x version var platformafhængig | Denne version er platformuafhængig |
Det har 2-lags arkitektur, hvor datastage er bygget oven på Unix-serveren | Det har 3-lags arkitektur, hvor vi har UNIX-serverdatabase i bunden, derefter XMETA-database, der fungerer som et lager, og så har vi datastage øverst. |
Der er intet begreb om parametersæt | Vi har parametersæt, der kan bruges hvor som helst i projektet. |
Vi havde designer og manager som to separate klienter | I denne version blev managerklienten flettet til designerklient |
Vi var nødt til manuelt at søge efter job i denne version | Her har vi hurtig søgemulighed i arkivet, hvor vi let kan søge efter job. |
Spørgsmål nr. 5) Kan du fremhæve hovedfunktionerne på IBM Infosphere-informationsserver?
Svar: De vigtigste funktioner i IBM Infosphere informationsserversuite er:
hvordan man skriver testcases i manuel test
- Det giver en enkelt platform til dataintegration. Det har evnen til at oprette forbindelse til flere kildesystemer samt skrive til flere målsystemer.
- Det er baseret på centraliserede lag. Alle komponenterne i pakken er i stand til at dele suiteens basislinjearkitektur.
- Det har lag til det samlede lager, til integrerede metadatatjenester og en fælles parallelmotor.
- Det giver værktøjer til analyse, rensning, overvågning, transformation og levering af data.
- Det har massivt parallelle behandlingsfunktioner. Det viser sig, at behandlingen er meget hurtig.
Q # 6) Hvad er de forskellige lag i informationsserverarkitekturen?
Svar: Nedenfor er de forskellige lag af informationsserverarkitektur
- Enet brugergrænseflade
- Fælles tjenester
- Samlet parallel behandling
- Samlede metadata
- Almindelig forbindelse
Q # 7) Hvad kan være et datakildesystem?
Svar: Det kunne være en databasetabel, en flad fil eller endda en ekstern applikation som folk bløde.
Q # 8) På hvilken grænseflade skal du arbejde som udvikler?
Svar: Som Datastage-udvikler arbejder vi på Datastage-klientgrænsefladen, der er kendt som en Datastage-designer, der skal installeres på det lokale system. I backend er den tilsluttet Datastage-serveren.
Q # 9) Hvad er de forskellige almindelige tjenester i Datastage?
Svar: Nedenfor er listen over almindelige tjenester i Datastage:
- Metadatatjenester
- Unified service implementering
- Sikkerhedstjenester
- Looping og rapporteringstjenester.
Spørgsmål nr. 10) Hvordan starter du udviklingen af et Datastage-projekt?
Svar: Det allerførste trin er at oprette et Datastage-job på Datastage-serveren. Alle de Datastage-objekter, vi opretter, gemmes i Datastage-projektet. Et Datastage-projekt er et separat miljø på serveren til job, tabeller, definitioner og rutiner.
Et Datastage-projekt er et separat miljø på serveren til job, tabeller, definitioner og rutiner.
Spørgsmål nr. 11) Hvad er et DataStage-job?
Svar: Datastage-jobbet er simpelthen en DataStage-kode, som vi opretter som udvikler. Den indeholder forskellige faser, der er knyttet sammen for at definere data og procesflow.
Stadier er intet andet end de funktioner, der bliver implementeret.
For eksempel: Lad os antage, at jeg vil lave en sum af salgsbeløbet. Dette kan være en 'gruppe efter' operation, der udføres af et trin.
Nu vil jeg skrive resultatet til en målfil. Så denne operation udføres af et andet trin. Når jeg først har defineret begge faser, skal jeg definere datastrømmen fra min 'gruppe for' fase til målfilstadiet. Denne datastrøm er defineret af DataStage-links.
Når jeg først har defineret begge faser, skal jeg definere datastrømmen fra min 'gruppe for' fase til målfilstadiet. Denne datastrøm er defineret af DataStage-links.
Spørgsmål nr. 12) Hvad er DataStage-sekvenser?
Svar: Datastagesekvens forbinder DataStage-job i et logisk flow.
Q # 13) Hvis du vil bruge det samme stykke kode i forskellige job, hvordan opnår du dette?
Svar: Dette kan gøres ved hjælp af delte containere. Vi har delt containere til genanvendelighed. En delt container er et genanvendeligt jobelement bestående af faser og links. Vi kan ringe til en delt container i forskellige Datastage-job.
Spørgsmål nr. 14) Hvor gemmes datastagejobbet?
Svar: Datastage-job gemmes i lageret. Vi har forskellige mapper, hvor vi kan gemme Datastage-job.
bedste virtual reality-headset til xbox one
Spørgsmål nr. 15) Hvor ser du forskellige stadier i designeren?
Svar: Alle etaper er tilgængelige i et kaldet vindue '' Palette '' . Det har forskellige kategorier afhængigt af den slags funktion, scenen giver.
De forskellige kategorier af faser i paletten er - Generelt, datakvalitet, database, udvikling, fil, behandling osv.
Spørgsmål nr. 16) Hvad er behandlingstrinene?
Svar: Behandlingsstadierne giver os mulighed for at anvende den faktiske datatransformation.
For eksempel , Det '' Aggregatorfase under behandlingskategorien giver os mulighed for at anvende alle operationerne med 'gruppering efter'. På samme måde har vi andre faser i behandling som fx 'Join' -fasen, der giver os mulighed for at sammenføje dataene, der kommer fra to forskellige inputstrømme.
Spørgsmål nr. 17) Hvad er de nødvendige skridt til at oprette et simpelt grundlæggende datastagejob?
Svar: Klik på Fil -> Klik på Ny -> Vælg parallel job og tryk Ok. Et parallelt jobvindue åbnes. I dette parallelle job kan vi sammensætte forskellige faser og definere datastrømmen mellem dem. Det enkleste DataStage-job er et ETL-job.
I dette skal vi først udtrække dataene fra kildesystemet, hvortil vi enten kan bruge et filstadium eller et databasetrin, fordi mit kildesystem enten kan være en databasetabel eller en fil.
Antag, at vi læser data fra en tekstfil. I dette tilfælde trækker og slipper vi scenen 'Sekventiel fil' til det parallelle jobvindue. Nu skal vi udføre en vis transformation oven på disse data. Vi bruger scenen 'Transformer', som er tilgængelig under behandlingskategorien. Vi kan skrive enhver logik under Transformer-scenen.
Endelig er vi nødt til at indlæse de behandlede data til en eller anden måltabel. Lad os sige, at min måldatabase er DB2. Så til dette vælger vi DB2-forbindelsestrinet. Derefter forbinder vi disse datatilstande gennem sekventielle links.
Efter dette , vi er nødt til at konfigurere trinene, så de peger på det korrekte filsystem eller database.
For eksempel, For sekventiel filfase er vi nødt til at definere de obligatoriske parametre som filnavnet, filplacering, kolonnemetadata.
Så er vi nødt til at kompilere Datastage-jobbet. Kompilering af jobcheck for syntaksen for jobbet og oprettelse af en eksekverbar fil til Datastage-jobbet, der kan udføres på kørselstidspunktet.
Q # 18) Navngiv de forskellige sorteringsmetoder i Datastage.
Svar: Der er to metoder til rådighed:
- Linksortering
- Indbygget datastagesortering
Spørgsmål nr. 19) Hvis et job mislykkes imellem i en batch, og du vil genstarte batchen fra det pågældende job og ikke fra bunden, hvad skal du så gøre?
Svar: I Datastage er der en mulighed i jobfølge - 'Tilføj kontrolpunkter, så sekvensen kan genstartes ved fejl' . Hvis denne indstilling er markeret, kan vi køre jobsekvensen fra det punkt, hvor den mislykkedes.
Spørgsmål nr. 20) Hvordan importerer og eksporterer du Datastage-job?
Svar: F eller dette, under kommandolinjefunktioner til dette
- Importere: dsimport.exe
- Eksport: dsexport.exe
Spørgsmål nr. 21) Hvad er rutiner i Datastage? Anvend forskellige typer rutiner.
Svar: Rutinemæssig er et sæt funktioner, der er defineret af DS-manager. Det køres via transformerstadiet.
Der er 3 slags rutiner:
- Parallelle rutiner
- Mainframe-rutiner
- Serverrutiner
Spørgsmål nr. 22) Hvordan fjerner du duplikatværdier i DataStage?
Svar: Der er to måder at håndtere duplikatværdier på
- Vi kan bruge fjern duplikatfase til at fjerne duplikater.
- Vi kan bruge sorteringsfasen til at fjerne duplikat. Sorteringsfasen har en egenskab kaldet 'tillad duplikater'. Vi får ikke duplikatværdier i output af sort ved indstilling af denne egenskab lig med false.
Spørgsmål nr. 23) Hvad er de forskellige slags synspunkter, der er tilgængelige i en Datastage-direktør?
Svar: Der er 3 slags visninger tilgængelige i Datastage-direktøren. De er:
hvordan åbner jeg en torrent-fil
- Logvisning
- Statusvisning
- Jobvisning
Q # 24) Skel mellem Informatica & Datastage. Hvilken ville du vælge, og hvorfor?
Svar: Både Informatica og DataStage er kraftfulde ETL-værktøjer.
Tilmeldte punkter skelner mellem begge værktøjer:
Computing | Datastage | |
---|---|---|
Parallel behandling | Informatica understøtter ikke parallel behandling. | I modsætning til dette giver datastage mekanisme til parallel behandling. |
Implementering af SCD'er | Det er ret simpelt at implementere SCD'er (langsomt skiftende dimensioner) i Informatica. | Det er imidlertid kompliceret at implementere SCD'er i datastage. Datastage understøtter SCD'er kun gennem brugerdefinerede scripts. |
Versionskontrol | Informatica understøtter versionskontrol gennem ind- og udcheckning af objekter. | Vi har dog ikke denne funktion tilgængelig i datastage. |
Tilgængelige transformationer | Mindre transformationer er tilgængelige. | Datastage tilbyder flere forskellige transformationer end Informatica. |
Opslagskraft | Informatica giver meget kraftig dynamisk cache-opslag | Vi har ikke nogen lignende ting i datastage. |
Efter min personlige mening ville jeg gå med Informatica over Datastage. Årsagen er, at jeg har fundet Informatica mere systematisk og brugervenlig end DataStage.
En anden stærk grund er, at debugging og fejlhåndtering er meget bedre i Informatica sammenlignet med Datastage. Så det er lettere at løse problemer i Informatica. Datastage leverer ikke komplet support til fejlhåndtering.
=> Vil du lære mere om Informatica? Vi har en detaljeret forklaring her.
Q # 25) Giv en idé om systemvariabler.
Svar: Systemvariabler er de skrivebeskyttede variabler, der begynder med '@' som kan læses af enten transformerstadiet eller rutinen. De bruges til at få systemoplysningerne.
Spørgsmål nr. 26) Hvad er forskellen mellem passivt stadium og aktivt trin?
Svar: Passive stadier anvendes til ekstraktion og belastning, mens aktive trin bruges til transformation.
Spørgsmål nr. 27) Hvad er de forskellige slags containere tilgængelige i Datastage?
Svar: Vi har under 2 containere i Datastage:
- Lokal container
- Delt container
Spørgsmål nr. 28) Lagres værdien af iscenesættelsesvariablen midlertidigt eller permanent?
Svar: Midlertidigt. Det er en midlertidig variabel.
Spørgsmål nr. 29) Hvad er de forskellige typer job i Datastage?
Svar: Vi har to typer job i Datastage:
- Serverjob (de kører sekventielt)
- Parallelle job (De udføres parallelt)
Spørgsmål nr. 30) Hvad er brugen af Datastage Director?
Svar: Via Datastage Director kan vi planlægge et job, validere jobbet, udføre jobbet og overvåge jobbet.
Spørgsmål nr. 31) Hvad er de forskellige slags hash-filer?
Svar: Vi har 2 typer hash-filer:
- Statisk hash-fil
- Dynamisk hash-fil
Spørgsmål nr. 32) Hvad er et kvalitetsstadium?
Svar: Kvalitetsstadiet (også kaldet integritetsstadium) er et trin, der hjælper med at kombinere dataene sammen fra forskellige kilder.
Konklusion
Du bør have en praktisk viden om Datastage-arkitektur, dens hovedfunktioner, og du skal kunne forklare, hvordan den adskiller sig fra nogle andre populære ETL-værktøjer.
Derudover , du skal have en god idé om forskellige faser og deres anvendelse, end-to-end en måde at oprette et Datastage-job på og køre det.
Anbefalet læsning => Hvad er ETL-test?
Alt det bedste!
Anbefalet læsning
- ETL Testing Interview Spørgsmål og svar
- De 10 bedste datakortningsværktøjer, der er nyttige i ETL-processen (2021 LIST)
- 15 bedste ETL-værktøjer i 2021 (En komplet opdateret liste)
- Vejledning til test af datavarehus med eksempler | ETL testguide
- ETL Testing Tutorial Data Warehouse Testing Tutorial (En komplet guide)
- ETL vs. DB-test - Et nærmere kig på ETL-testbehov, planlægning og ETL-værktøjer
- Sådan udføres ETL-test ved hjælp af Informatica PowerCenter-værktøjet
- Metadata i datavarehus (ETL) forklaret med eksempler
- Pressemeddelelse - iCEDQ Soft New Version Release af ETL Testing & Data Migration Testing Platform
- Top 10 ETL-testværktøjer i 2021
- Hvad er ETL-proces (ekstrakt, transformation, indlæsning) i datalageret?