data mining process
Denne dybdegående dataudviklingsvejledning forklarer, hvad der er dataudvinding, herunder processer og teknikker, der bruges til dataanalyse:
Lad os forstå betydningen af udtrykket minedrift ved at tage eksemplet med minedrift af guld fra sten, der kaldes guldminedrift. Her er den nyttige ting 'Guld', derfor kaldes det guldminedrift.
Tilsvarende betegnes udtagning af nyttige oplysninger fra en lang række data som Knowledge mining og er populært kendt som Data Mining. Ved udtrykket nyttig information betegner vi de data, der kan hjælpe os med at forudsige en output.
For eksempel at finde tendenserne til at købe en bestemt ting (sig jern) efter en bestemt aldersgruppe ( Eksempel: 40-70 år).
=>RUL NEDfor at se hele listen med 7 dybtgående minedriftstudier til begyndere
Hvad du vil lære:
hvor er min netværkssikkerhedsnøgle
- Liste over vejledninger i datamining
- Oversigt over selvstudier i denne dataudvindingsserie
- Hvad er datamining?
- Hvilke slags data kan udvindes?
- Hvilke teknikker bruges i datamining?
- Større problemer i dataanalyse
- Konklusion
Liste over vejledninger i datamining
Tutorial # 1: Data Mining: Process, teknikker og større problemer i dataanalyse (Denne vejledning)
Tutorial # 2: Data Mining Techniques: Algoritme, Metoder & Top Data Mining Tools
Tutorial # 3: Data Mining Process: Modeller, Process Steps & Challenges Involved
Tutorial # 4: Eksempler på data minedrift: De mest almindelige anvendelser af data minedrift 2019
Tutorial # 5: Eksempler på beslutningstræalgoritme i datamining
Tutorial # 6: Apriori-algoritme i datamining: Implementering med eksempler
Tutorial # 7: Frequent Pattern (FP) Growth Algorithm In Data Mining
Oversigt over selvstudier i denne dataudvindingsserie
Vejledning # | Hvad du vil lære |
---|---|
Tutorial_ # 7: | Frequent Pattern (FP) Growth Algorithm In Data Mining Dette er en detaljeret vejledning om hyppig mønstervækstalgoritme, som repræsenterer databasen i form af et FP-træ. FP-vækst mod apriori-sammenligning forklares også her. |
Tutorial_ # 1: | Data Mining: Process, teknikker og større problemer i dataanalyse Denne dybdegående Data Mining Tutorial forklarer, hvad der er Data Mining, herunder de processer og teknikker, der bruges til dataanalyse. |
Tutorial_ # 2: | Data Mining Techniques: Algoritme, Metoder & Top Data Mining Tools Denne vejledning om dataudvindingsteknikker forklarer algoritmer, dataudvindingsværktøjer og metoder til at udtrække nyttige data. |
Tutorial_ # 3: | Data Mining Process: Modeller, Process Steps & Challenges Involved Denne vejledning om dataudvindingsproces dækker dataudvindingsmodeller, trin og udfordringer involveret i dataudvindingsprocessen. |
Vejledning_ # 4: | Eksempler på data minedrift: De mest almindelige anvendelser af data minedrift 2019 De mest populære eksempler på dataudvinding i det virkelige liv er beskrevet i denne vejledning. Du får mere at vide om Data Mining Application i Finance, Marketing, Healthcare og CRM. |
Tutorial_ # 5: | Eksempler på beslutningstræalgoritme i datamining Denne dybdegående vejledning forklarer alt om beslutningstræalgoritme i datamining. Du lærer om eksempler på beslutningstræer, algoritme og klassificering. |
Tutorial_ # 6: | Apriori-algoritme i datamining: Implementering med eksempler Dette er en simpel vejledning om Apriori-algoritme for at finde ud af hyppige varesæt i datamining. Du vil også lære trinnene i Apriori at kende og forstå, hvordan det fungerer. |
Hvad er datamining?
Data Mining er i høj efterspørgsel i dag, da det hjælper virksomhederne med at undersøge, hvordan salget af deres produkter kan stige. Vi kan forstå dette ved et eksempel på en modebutik, der registrerer hver af sine kunder, der køber en vare fra deres butik.
Baseret på de data, der er givet af kunden som alder, køn, indkomstgruppe, erhverv osv., Vil butikken være i stand til at finde ud af, hvilken type kunder der køber forskellige produkter. Her kan vi se, at kundens navn ikke er til nogen nytte, da vi ikke kan forudsige tendensen ved køb ved navn om, hvorvidt denne person vil købe et bestemt produkt eller ej.
Således kan de nyttige oplysninger findes ved hjælp af aldersgruppe, køn, indkomstgruppe, erhverv osv. Søgning efter viden eller interessant mønster i data er 'Data Mining'. Andre udtryk, der kan bruges på plads, er Knowledge Mining from data, Knowledge Extraction, Data Analysis, Pattern Analysis osv.
Et andet udtryk, der populært bruges i data mining, er Knowledge Discovery from Data eller KDD.
Dataanalyseproces
Vidensopdagelsesprocessen er en sekvens af følgende trin:
- Datarengøring: Dette trin fjerner støj og inkonsekvente data fra inputdataene.
- Dataintegration: Dette trin kombinerer flere datakilder. Datarengøringen og dataintegrationen går sammen for at danne forbehandling af data. De forbehandlede data gemmes derefter i datalageret.
- Valg af data: Disse trin vælger dataene til analyseopgaven fra databasen.
- Datatransformation: I dette trin anvendes forskellige dataaggregerings- og dataoversigtsteknikker til at omdanne dataene til en nyttig form til minedrift.
- Data Mining: I dette trin ekstraheres datamønstre ved at anvende intelligente metoder.
- Mønsterevaluering: De ekstraherede datamønstre evalueres og genkendes i henhold til de interessante målinger.
- Videnrepræsentation: Visualisering og vidensrepræsentationsteknikker bruges til at præsentere den minede viden for brugerne.
Trin 1 til 4 kommer under dataforbehandlingsfasen. Her repræsenteres datamining som et enkelt trin, men det henviser til hele vidensopdagelsesprocessen.
Således kan vi sige, at dataanalyse er processen med at opdage interessante mønstre og viden fra en stor mængde data. Datakilderne kan omfatte databaser, datalager, World Wide Web, flade filer og andre informative filer.
Hvilke slags data kan udvindes?
De mest basale former for data til minedrift er databasedata, datalagerdata og transaktionsdata. Data mining teknikkerne kan også anvendes til andre former som datastrømme, sekventerede data, tekstdata og geodata.
# 1) Databasedata: Databasestyringssystemet er et sæt indbyrdes forbundne data og et sæt softwareprogrammer til at styre og få adgang til dataene. Det relationsdatabasesystem er en samling af tabeller, og hver tabel består af et sæt attributter og tupler.
Minedrift af relationsdatabaser søger i tendenser og datamønstre For eksempel . kunders kreditrisiko baseret på alder, indkomst og tidligere kreditrisiko. Minedrift kan også finde ud af afvigelser fra det forventede For eksempel. en betydelig stigning i prisen på en vare.
# 2) Data Warehouse Data: Et datalager er en samling af information indsamlet fra flere datakilder, der er gemt under et samlet skema på en enkelt sit. En DW er modelleret som en flerdimensionel datastruktur kaldet datakub med celler og dimensioner, der giver præberegning og hurtigere adgang til data.
Data mining udføres i en OLAP-stil ved at kombinere dimensionerne på forskellige granularitetsniveauer.
# 3) Transaktionsdata: Transaktionsdata registrerer en transaktion. Det har et transaktions-id og en liste over varer, der bruges i transaktionen.
hvordan man skriver en junit test
# 4) Andre typer data: Andre data kan omfatte: tidsrelaterede data, geodata, hypertekstdata og multimediedata.
Hvilke teknikker bruges i datamining?
Data Mining er et meget applikationsdrevet domæne. Mange teknikker såsom statistik, maskinindlæring, mønstergenkendelse, informationssøgning, visualisering osv. Har indflydelse på udviklingen af dataanalysemetoder.
Lad os diskutere nogle af dem her !!
Statistikker
Undersøgelsen af indsamling, analyse, fortolkning og præsentation af data kan udføres ved hjælp af statistiske modeller. For eksempel , kan statistikker bruges til at modellere støj og manglende data, og derefter kan denne model bruges i store datasæt til at identificere støj og manglende værdier i data.
Maskinelæring
ML bruges til at forbedre ydeevnen baseret på data. Det vigtigste forskningsområde er, at computerprogrammer automatisk lærer at genkende komplekse mønstre og træffe intelligente beslutninger baseret på dataene.
Machine Learning fokuserer på nøjagtighed og data mining fokuserer på effektiviteten og skalerbarheden af minedriftmetoder på det store datasæt, komplekse data osv.
Maskinindlæring er af tre typer:
- Overvåget læring: Målet datasættet er kendt, og maskinen trænes i henhold til målværdierne.
- Uovervåget læring: Målværdierne kendes ikke, og maskinerne lærer af sig selv.
- Semi-overvåget læring: Det bruger både teknikkerne til overvåget og ikke-overvåget læring.
Information hentning (IR)
Det er videnskaben om at søge efter dokumenter eller information i dokumenter.
Det bruger to principper:
- Data, der skal søges, er ustrukturerede.
- Forespørgslerne er hovedsageligt dannet af nøgleord.
Ved at bruge dataanalyse og IR kan vi finde store emner i indsamlingen af dokumenter og også de vigtigste emner, der er involveret i hvert dokument.
Større problemer i dataanalyse
Data Mining har en række problemer relateret til det som nævnt nedenfor:
Minedrift
- Da der er forskellige applikationer, fortsætter nye minedriftopgaver med at dukke op. Disse opgaver kan bruge den samme database på forskellige måder og kræver udvikling af nye data mining-teknikker.
- Mens vi søger efter viden i store datasæt, er vi nødt til at udforske flerdimensionelt rum. For at finde interessante mønstre skal forskellige kombinationer af dimensioner anvendes.
- Usikre, støjende og ufuldstændige data kan undertiden føre til fejlagtig afledning.
Brugerinteraktion
- Dataanalyseprocessen skal være meget interaktiv. Det er vigtigt for at lette minedriftsprocessen at være brugerinteraktiv.
- Domæne viden, baggrundsviden, begrænsninger osv. Skal alle indarbejdes i data mining processen.
- Den viden, der blev opdaget ved minedrift af dataene, skal kunne bruges til mennesker. Systemet skal anvende en udtryksfuld repræsentation af viden, brugervenlige visualiseringsteknikker osv.
Effektivitet og skalerbarhed
- Data mining algoritmer skal være effektive og skalerbare for effektivt at udtrække interessante data fra en enorm mængde data i datalagerne.
- Bred distribution af data, kompleksitet i beregning motiverer udviklingen af parallelle og distribuerede data-intensive algoritmer.
Mangfoldighed af databasetyper
- Opførelsen af effektive og effektive dataanalyseværktøjer til forskellige applikationer, bredt spektrum af datatyper fra ustrukturerede data, tidsdata, hypertekst, multimediedata og softwareprogrammekode er fortsat et udfordrende og aktivt forskningsområde.
Social indflydelse
- Videregivelse for at bruge dataene og den potentielle krænkelse af individuelt privatliv og beskyttelse af rettigheder er de områder, der bekymrer sig, der skal behandles.
Konklusion
Data Mining hjælper med beslutningstagning og analyse af en stor mængde data. I dag er det den mest almindelige forretningsteknik. Det giver mulighed for automatisk analyse af data og identificerer populære tendenser og adfærd.
Dataanalyse kan kombineres med maskinlæring, statistik, kunstig intelligens osv. Til avanceret dataanalyse og adfærdsundersøgelse.
Data Mining bør anvendes ved at tage forskellige faktorer i betragtning, såsom omkostningerne ved at udtrække information og mønster fra databaser (komplekse algoritmer, der kræver ekspertressourcer, skal anvendes), type information (da historiske data muligvis ikke er de samme, som de er i øjeblikket, så analysen vil ikke være nyttig).
Vi håber denne tutorial beriget din viden om begrebet Data Mining !!
Anbefalet læsning
- 10 bedste dataanalyseværktøjer til perfekt datahåndtering (2021 LIST)
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- De 10 bedste datakortningsværktøjer, der er nyttige i ETL-processen (2021 LIST)
- Hvad er testdata? Testdata Klargøringsteknikker med eksempel
- JMeter-dataparameterisering ved hjælp af brugerdefinerede variabler
- Top 15 Bedste gratis dataudvindingsværktøjer: Den mest omfattende liste
- 10+ bedste dataindsamlingsværktøjer med strategier til dataindsamling
- Data Pool-funktion i IBM Rational Quality Manager til testdatastyring