data mining process models
Denne selvstudie om dataudvindingsproces dækker dataudvindingsmodeller, trin og udfordringer involveret i dataudvindingsprocessen:
Data Mining teknikker blev forklaret detaljeret i vores tidligere tutorial i dette Komplet datauddannelse for alle . Data Mining er et lovende felt inden for videnskab og teknologi.
Data Mining, som også er kendt som Knowledge Discovery in Databases, er en proces til at opdage nyttige oplysninger fra store mængder data lagret i databaser og datalager. Denne analyse udføres for beslutningsprocesser i virksomhederne.
Data Mining udføres ved hjælp af forskellige teknikker såsom klyngedannelse, tilknytning og sekventiel mønsteranalyse og beslutningstræ.
Hvad du vil lære:
- Hvad er datamining?
- Dataudvinding som en proces
- Data Mining Modeller
- Trin i dataudvindingsprocessen
- Data Mining Process i Oracle DBMS
- Data Mining Process i Datawarehouse
- Hvad er anvendelsen af dataekstraktion?
- Data Mining Udfordringer
- Konklusion
- Anbefalet læsning
Hvad er datamining?
Data Mining er en proces til at opdage interessante mønstre og viden fra store datamængder. Datakilderne kan omfatte databaser, datalagre, internettet og andre informationsopbevaringssteder eller data, der streames dynamisk ind i systemet.
Hvorfor har virksomheder brug for dataudtrækning?
Med fremkomsten af Big Data er datamining blevet mere udbredt. Big data er ekstremt store datasæt, der kan analyseres af computere for at afsløre visse mønstre, associationer og tendenser, der kan forstås af mennesker. Big data har omfattende information om forskellige typer og varieret indhold.
Således med denne mængde data fungerer simpel statistik med manuel indgriben ikke. Dette behov opfyldes ved hjælp af dataminingsprocessen. Dette fører til skift fra simpel datastatistik til komplekse datamining-algoritmer.
Dataudvindingsprocessen udtrækker relevant information fra rådata, såsom transaktioner, fotos, videoer, flade filer og behandler automatisk oplysningerne for at generere rapporter, der er nyttige for virksomheder til at handle.
Dataudvindingsprocessen er således afgørende for virksomhederne til at træffe bedre beslutninger ved at opdage mønstre og tendenser i data, opsummere dataene og tage relevant information ud.
Dataudvinding som en proces
Ethvert forretningsproblem vil undersøge rådataene for at opbygge en model, der beskriver oplysningerne og fremlægger de rapporter, der skal bruges af virksomheden. Opbygning af en model fra datakilder og dataformater er en iterativ proces, da rådataene er tilgængelige i mange forskellige kilder og mange former.
Data stiger dag for dag, og når der findes en ny datakilde, kan de ændre resultaterne.
Nedenfor er oversigten over processen.
(billede kilde )
Data Mining Modeller
Mange industrier såsom fremstilling, markedsføring, kemikalier og luftfart drager fordel af datamining. Således øges efterspørgslen efter standard og pålidelige datamining-processer drastisk.
De vigtige datamining-modeller inkluderer:
Nr. 1) Standardproces på tværs af brancher til datamining (CRISP-DM)
CRISP-DM er en pålidelig datamining-model, der består af seks faser. Det er en cyklisk proces, der giver en struktureret tilgang til data mining processen. De seks faser kan implementeres i en hvilken som helst rækkefølge, men det vil undertiden kræve tilbagesporing til de foregående trin og gentagelse af handlinger.
forskel mellem røgtest og sundhedstest
De seks faser af CRISP-DM inkluderer:
# 1) Forretningsforståelse: I dette trin sættes målene for virksomhederne, og de vigtige faktorer, der kan hjælpe med at nå målet, opdages.
# 2) Dataforståelse: Dette trin samler hele dataene og udfylder dataene i værktøjet (hvis du bruger et værktøj). Dataene er angivet med deres datakilde, placering, hvordan de erhverves, og hvis der opstår et problem. Data visualiseres og forespørges for at kontrollere dens fuldstændighed.
# 3) Dataforberedelse: Dette trin involverer at vælge de relevante data, rense, konstruere attributter fra data, integrere data fra flere databaser.
# 4) Modellering: Valg af data miningsteknikken såsom beslutningstræ, generere testdesign til evaluering af den valgte model, opbygning af modeller fra datasættet og vurdering af den indbyggede model med eksperter for at diskutere resultatet sker i dette trin.
# 5) Evaluering: Dette trin bestemmer, i hvilken grad den resulterende model opfylder forretningskravene. Evaluering kan udføres ved at teste modellen på rigtige applikationer. Modellen gennemgås for eventuelle fejl eller trin, der skal gentages.
# 6) Implementering: I dette trin laves en implementeringsplan, der dannes en strategi til overvågning og vedligeholdelse af data mining-modelresultaterne for at kontrollere dens anvendelighed, der udarbejdes endelige rapporter, og gennemgang af hele processen udføres for at kontrollere enhver fejl og se om et trin gentages .
(billede kilde )
# 2) SEMMA (prøve, udforsk, modificer, model, vurder)
SEMMA er en anden data mining metode udviklet af SAS Institute. Forkortelsen SEMMA står for prøve, udforske, ændre, modellere, vurdere.
SEMMA gør det let at anvende sonderende statistiske og visualiseringsteknikker, vælge og transformere de signifikante forudsagte variabler, oprette en model ved hjælp af variablerne for at komme ud med resultatet og kontrollere dens nøjagtighed. SEMMA er også drevet af en meget iterativ cyklus.
Trin i SEMMA
- Prøve: I dette trin ekstraheres et stort datasæt, og en prøve, der repræsenterer de fulde data, udtages. Prøveudtagning reducerer beregningsomkostningerne og behandlingstiden.
- Udforske: Dataene undersøges for eventuelle outlier og anomalier for en bedre forståelse af dataene. Dataene kontrolleres visuelt for at finde ud af tendenser og grupperinger.
- Modificere: I dette trin foretages manipulation af data såsom gruppering og undergruppering ved at holde den model, der skal bygges i fokus.
- Model: Baseret på udforskningerne og modifikationerne konstrueres de modeller, der forklarer mønstrene i data.
- Vurdere: Nyttigheden og pålideligheden af den konstruerede model vurderes i dette trin. Test af modellen mod reelle data udføres her.
Både SEMMA- og CRISP-tilgangen fungerer for vidensopdagelsesprocessen. Når modeller er bygget, implementeres de til virksomheder og forskningsarbejde.
Trin i dataudvindingsprocessen
Data mining processen er opdelt i to dele, dvs. Data Preprocessing og Data Mining. Data Preprocessing involverer datarensning, dataintegration, datareduktion og datatransformation. Data mining-delen udfører data mining, mønsterevaluering og videnrepræsentation af data.
hvor er netværkssikkerhedsnøglen?
(billede kilde )
Hvorfor forbehandler vi dataene?
Der er mange faktorer, der bestemmer anvendeligheden af data såsom nøjagtighed, fuldstændighed, konsistens, aktualitet. Dataene skal have kvalitet, hvis de opfylder det tilsigtede formål. Forbehandling er således afgørende i data mining processen. De vigtigste trin involveret i forbehandling af data er forklaret nedenfor.
# 1) Datarengøring
Datarensning er det første skridt i datamining. Det er vigtigt, da beskidte data, hvis de bruges direkte i minedrift, kan forårsage forvirring i procedurer og give unøjagtige resultater.
Dybest set involverer dette trin fjernelse af støjende eller ufuldstændige data fra samlingen. Mange metoder, der generelt renser data i sig selv, er tilgængelige, men de er ikke robuste.
Dette trin udfører det rutinemæssige rengøringsarbejde ved at:
(i) Udfyld de manglende data:
Manglende data kan udfyldes ved hjælp af metoder som:
- Ignorerer tuplen.
- Fyld den manglende værdi manuelt.
- Brug målingen af central tendens, median eller
- Udfyldelse af den mest sandsynlige værdi.
(ii) Fjern de støjende data: Tilfældig fejl kaldes støjende data.
Metoder til fjernelse af støj er:
Binning: Bindingmetoder anvendes ved at sortere værdier i spande eller skraldespande. Udjævning udføres ved at høre de nærliggende værdier.
Binning udføres ved at udjævne med skraldespand, dvs. hver skraldespand erstattes af middelværdien af skraldespanden. Udjævning med en median, hvor hver bin-værdi erstattes af en bin-median. Udjævning efter bin-grænser, dvs. minimums- og maksimumværdierne i skraldespanden er bin-grænser, og hver bin-værdi erstattes af den nærmeste grænseværdi.
- Identificering af afvigende
- Løsning af uoverensstemmelser
# 2) Dataintegration
Når flere heterogene datakilder som databaser, datakuber eller filer kombineres til analyse, kaldes denne proces dataintegration. Dette kan hjælpe med at forbedre nøjagtigheden og hastigheden af data mining processen.
Forskellige databaser har forskellige navngivningskonventioner af variabler ved at forårsage afskedigelser i databaser. Yderligere datarengøring kan udføres for at fjerne afskedigelser og uoverensstemmelser fra dataintegrationen uden at påvirke pålideligheden af data.
Dataintegration kan udføres ved hjælp af datamigrationsværktøjer som Oracle Data Service Integrator og Microsoft SQL osv.
# 3) Datareduktion
Denne teknik anvendes til at opnå relevante data til analyse fra dataindsamlingen. Repræsentationens størrelse er meget mindre i volumen, samtidig med at integriteten opretholdes. Datareduktion udføres ved hjælp af metoder som Naive Bayes, Beslutningstræer, Neuralt netværk osv.
Nogle strategier for datareduktion er:
- Dimensionalitetsreduktion: Reduktion af antallet af attributter i datasættet.
- Numerosity Reduktion: Udskiftning af den oprindelige datamængde med mindre former for datarepræsentation.
- Datakomprimering: Komprimeret repræsentation af de originale data.
# 4) Datatransformation
I denne proces omdannes data til en form, der er egnet til dataudvindingsprocessen. Data konsolideres, så minedriftsprocessen er mere effektiv, og mønstrene er lettere at forstå. Datatransformation involverer datamappning og generering af kode.
Strategier til datatransformation er:
- Udjævning: Fjernelse af støj fra data ved hjælp af klyngedannelse, regressionsteknikker osv.
- Samling: Resuméhandlinger anvendes på data.
- Normalisering: Skalering af data falder inden for et mindre interval.
- Diskretisering: Råværdier for numeriske data erstattes af intervaller. For eksempel, Alder.
# 5) Data Mining
Data Mining er en proces til at identificere interessante mønstre og viden fra en stor mængde data. I disse trin anvendes intelligente mønstre til at udtrække datamønstrene. Dataene er repræsenteret i form af mønstre, og modeller er struktureret ved hjælp af klassificering og grupperingsteknikker.
# 6) Mønsterevaluering
Dette trin indebærer at identificere interessante mønstre, der repræsenterer viden baseret på interessanthedsmål. Dataopsummering og visualiseringsmetoder bruges til at gøre dataene forståelige for brugeren.
# 7) Videnrepræsentation
Videnrepræsentation er et trin, hvor datavisualisering og videnrepræsentationsværktøjer bruges til at repræsentere de udvindede data. Data visualiseres i form af rapporter, tabeller osv.
Data Mining Process i Oracle DBMS
RDBMS repræsenterer data i form af tabeller med rækker og kolonner. Du kan få adgang til data ved at skrive databaseforespørgsler.
Relationelle databasestyringssystemer såsom Oracle understøtter datamining ved hjælp af CRISP-DM. Faciliteterne i Oracle-databasen er nyttige til udarbejdelse og forståelse af data. Oracle understøtter data minedrift gennem java interface, PL / SQL interface, automatiseret data mining, SQL funktioner og grafiske brugergrænseflader.
Data Mining Process i Datawarehouse
Et datalager er modelleret til en flerdimensionel datastruktur kaldet datakub. Hver celle i en datakub lagrer værdien af nogle samlede målinger.
Dataudvinding i flerdimensionelt rum udført i OLAP-stil (Online Analytical Processing), hvor det giver mulighed for udforskning af flere kombinationer af dimensioner ved forskellige granularitetsniveauer.
Hvad er anvendelsen af dataekstraktion?
Liste over områder, hvor datamining ofte anvendes, inkluderer:
# 1) Analyse af finansielle data: Data Mining bruges i vid udstrækning inden for bank-, investerings-, kreditydelser, realkreditlån, bilån og forsikrings- og aktieinvesteringstjenester. Data indsamlet fra disse kilder er komplette, pålidelige og af høj kvalitet. Dette letter systematisk dataanalyse og datamining.
# 2) Detail- og telekommunikationsindustrier: Retail Sector samler enorme mængder data om salg, kundehistorik, varetransport, forbrug og service. Dataudvinding i detailleddet hjælper med at identificere kunders købsadfærd, mønstre og tendenser hos kunderne, forbedre kvaliteten af kundeservice, bedre kundebevarelse og tilfredshed.
standard gateway er ikke tilgængelig windows 7
# 3) Videnskab og teknik: Datamining edb-videnskab og teknik kan hjælpe med at overvåge systemstatus, forbedre systemets ydeevne, isolere softwarefejl, opdage softwareplagiering og genkende systemfejl.
# 4) Detektion og forebyggelse af indtrængen: Indtrængning defineres som ethvert sæt handlinger, der truer integriteten, fortroligheden eller tilgængeligheden af netværksressourcer. Dataudvindingsmetoder kan hjælpe med detektion og forebyggelse af indtrængen til at forbedre dets ydeevne.
# 5) Anbefalingssystemer: Anbefalingssystemer hjælper forbrugere ved at komme med produktanbefalinger, der er af interesse for brugerne.
Data Mining Udfordringer
Nedenfor er de forskellige udfordringer involveret i Data Mining.
- Data Mining har brug for store databaser og dataindsamling, som er svære at administrere.
- Dataudvindingsprocessen kræver domæneeksperter, der igen er svære at finde.
- Integration fra heterogene databaser er en kompleks proces.
- Praksis på organisationsniveau skal ændres for at bruge data mining resultaterne. Omstrukturering af processen kræver indsats og omkostninger.
Konklusion
Data Mining er en iterativ proces, hvor mineprocessen kan raffineres, og nye data kan integreres for at få mere effektive resultater. Data Mining opfylder kravet om effektiv, skalerbar og fleksibel dataanalyse.
Det kan betragtes som en naturlig evaluering af informationsteknologi. Som en vidensopdagelsesproces fuldender dataudarbejdelses- og dataudvindingsopgaver data miningprocessen.
Data mining processer kan udføres på enhver form for data såsom databasedata og avancerede databaser såsom tidsserier osv. Data mining processen kommer også med sine egne udfordringer.
Hold øje med vores kommende tutorial for at vide mere om Data Mining Eksempler !!
PREV-vejledning | NÆSTE vejledning
Anbefalet læsning
- Data Mining: Process, teknikker og større problemer i dataanalyse
- Data Mining Techniques: Algoritme, Metoder & Top Data Mining Tools
- De 10 bedste datakortningsværktøjer, der er nyttige i ETL-processen (2021 LIST)
- Top 10 databasedesignværktøjer til at opbygge komplekse datamodeller
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- Top 15 Bedste gratis dataudvindingsværktøjer: Den mest omfattende liste
- Test Data Management koncept, proces og strategi
- JMeter-dataparameterisering ved hjælp af brugerdefinerede variabler