data mining techniques
Denne dybdegående tutorial om dataudvindingsteknikker forklarer algoritmer, dataudvindingsværktøjer og metoder til at udtrække nyttige data:
Heri Dybdegående kurser i dataudvinding til alle , vi udforskede alt om Data Mining i vores tidligere tutorial.
I denne vejledning lærer vi om de forskellige teknikker, der bruges til dataekstraktion. Da vi ved, at datamining er et begreb om at udtrække nyttig information fra den enorme mængde data, anvendes nogle teknikker og metoder til store datasæt for at udtrække nyttig information.
Disse teknikker er dybest set i form af metoder og algoritmer, der anvendes til datasæt. Nogle af data mining teknikker inkluderer Minedrift hyppige mønstre, associeringer og korrelationer, klassifikationer, klyngedannelse, påvisning af outliers og nogle avancerede teknikker som statistisk, visuel og audio data mining.
Generelt bruges relationsdatabaser, transaktionsdatabaser og datalager til data miningsteknikker. Der er dog også nogle avancerede minedriftsteknikker til komplekse data såsom tidsserier, symbolske sekvenser og biologiske sekventielle data.
Hvad du vil lære:
- Formål med dataminingsteknikker
- Liste over teknikker til dataudvinding
- Top Data Mining Algoritmer
- Metoder til dataekstraktion
- Top Data Mining Tools
- Konklusion
- Anbefalet læsning
Formål med dataminingsteknikker
Med en enorm mængde data, der lagres hver dag, er virksomhederne nu interesserede i at finde ud af trends fra dem. Dataekstraktionsteknikkerne hjælper med at konvertere rådataene til nyttig viden. For at udvinde store mængder data kræves softwaren, da det er umuligt for et menneske at manuelt gennemgå den store datamængde.
En datamining-software analyserer forholdet mellem forskellige varer i store databaser, som kan hjælpe i beslutningsprocessen, lære mere om kunder, håndtere markedsføringsstrategier, øge salget og reducere omkostningerne.
Liste over teknikker til dataudvinding
Den dataminingsteknik, der skal anvendes, afhænger af perspektivet i vores dataanalyse.
Så lad os diskutere de forskellige teknikker til, hvordan dataekstraktion kan udføres på forskellige måder:
# 1) Hyppig mønsterudvinding / associeringsanalyse
Denne type data miningsteknik ser efter tilbagevendende forhold i det givne datasæt. Det vil lede efter interessante tilknytninger og korrelationer mellem de forskellige elementer i databasen og identificere et mønster.
bedste gratis mp3 download app til android
Et eksempel, af en sådan art ville være 'indkøbskurvanalyse': finde ud af 'hvilke produkter kunderne sandsynligvis vil købe sammen i butikken?' såsom brød og smør.
Ansøgning: Design af placeringen af produkterne i butikshylder, markedsføring, krydssalg af produkter.
Mønstrene kan repræsenteres i form af associeringsregler. Foreningsreglen siger, at støtte og tillid er parametrene for at finde ud af nytten af de tilknyttede emner. Transaktionerne, der havde begge varer købt sammen på én gang, er kendt som en support.
Transaktionerne, hvor kunderne købte begge varer, men den ene efter den anden, er tillid. Det minede mønster vil blive betragtet som interessant, hvis det har en minimumstærskel for støtte og minimums tillidstærskel værdi. Tærskelværdierne bestemmes af domæneeksperterne.
Brød => smør (støtte = 2%, tillid-60%)
Ovenstående erklæring er et eksempel på en associeringsregel. Det betyder, at der er en 2% transaktion, der købte brød og smør sammen, og der er 60% af kunderne, der købte brød såvel som smør.
Trin til implementering af associeringsanalyse:
- Find hyppige varesæt. Varesæt betyder et sæt varer. Et emnesæt, der indeholder k emner, er et k-emnesæt. Hyppigheden af et varesæt er antallet af transaktioner, der indeholder varesættet.
- Generering af stærke tilknytningsregler fra de hyppige varesæt. Med stærke foreningsregler mener vi, at minimumstærskelstøtte og tillid er opfyldt.
Der er forskellige hyppige minesætmetoder som Apriori-algoritme, mønstervæksttilgang og minedrift ved hjælp af det vertikale dataformat. Denne teknik er almindeligt kendt som Market Basket Analysis.
# 2) Korrelationsanalyse
Korrelationsanalyse er blot en udvidelse af associeringsregler. Nogle gange kan support- og tillidsparametrene stadig give brugerne uinteressante mønstre.
Et eksempel, der understøtter ovenstående udsagn, kan være: ud af 1000 analyserede transaktioner indeholdt 600 kun brød, mens 750 indeholdt smør og 400 indeholdt både brød og smør. Antag, at den mindste støtte til associeringsregelkørsel er 30%, og den mindste tillid er 60%.
Supportværdien på 400/1000 = 40% og konfidensværdien = 400/600 = 66% opfylder tærsklen. Vi ser dog, at sandsynligheden for at købe smør er 75%, hvilket er mere end 66%. Dette betyder, at brød og smør er negativt korreleret, da køb af den ene ville føre til et fald i køb af den anden. Resultaterne bedrager.
Fra ovenstående eksempel suppleres understøttelsen og tilliden med et andet interessant mål, dvs. korrelationsanalyse, der vil hjælpe med at udvinde interessante mønstre.
A => B (støtte, tillid, korrelation).
Korrelationsregel måles ved understøttelse, tillid og korrelation mellem varesæt A og B. Korrelation måles ved Lift og Chi-Square.
hvordan man åbner en bittorrent-fil
(jeg løfter: Som ordet selv siger, repræsenterer Lift den grad, hvor tilstedeværelsen af et emnesæt løfter forekomsten af andre emnesæt.
Elevationen mellem forekomsten af A og B kan måles ved:
Løft (A, B) = P (A U B) / P (A). P (B).
Hvis det er<1, then A and B are negatively correlated.
Hvis det er> 1. Derefter er A og B positivt korreleret, hvilket betyder, at forekomsten af den ene indebærer forekomsten af den anden.
Hvis det er = 1, er der ingen sammenhæng mellem dem.
(ii) Chi-firkant: Dette er en anden korrelationsmåling. Det måler den kvadratiske forskel mellem den observerede og forventede værdi for en slot (A og B-par) divideret med den forventede værdi.
Hvis det er> 1, er det negativt korreleret.
# 3) Klassifikation
Klassificering hjælper med at opbygge modeller af vigtige dataklasser. En model eller en klassifikator er konstrueret til at forudsige klassemærkerne. Etiketter er de definerede klasser med diskrete værdier som “ja” eller “nej”, “sikker” eller “risikabel”. Det er en type overvåget læring, da etiketklassen allerede er kendt.
Dataklassificering er en totrins proces:
- Læringstrin: Modellen er konstrueret her. En foruddefineret algoritme anvendes til dataene, der skal analyseres med en klassemærke, der leveres, og klassificeringsreglerne konstrueres.
- Klassificeringstrin: Modellen bruges til at forudsige klasselabels for givne data. Nøjagtigheden af klassificeringsreglerne estimeres af testdata, som, hvis de findes nøjagtige, bruges til klassificering af nye datatubletter.
Elementerne i artikelsættet tildeles målkategorierne for at forudsige funktioner på klassemærkatniveau.
Ansøgning: Banker til at identificere låneansøgere som lav, mellem eller høj risiko, virksomheder, der designer marketingkampagner baseret på aldersgruppeklassifikation. '
# 4) Beslutningstræinduktion
Beslutningstræer Induktion metode er omfattet af klassificeringsanalysen. Et beslutningstræ er en trælignende struktur, der er let at forstå og enkel og hurtig. I dette repræsenterer hver ikke-bladknude en test på en attribut, og hver gren repræsenterer resultatet af testen, og bladknuden repræsenterer klassemærket.
Attributværdierne i en tuple testes mod beslutningstræet fra roden til bladknuden. Beslutningstræer er populære, da det ikke kræver nogen viden om domæner. Disse kan repræsentere flerdimensionelle data. Beslutningstræerne kan let konverteres til klassificeringsregler.
Ansøgning: Beslutningstræerne er konstrueret inden for medicin, fremstilling, produktion, astronomi osv. Et eksempel kan ses nedenfor:
# 5) Bayes-klassifikation
Bayesian Classification er en anden metode til klassificeringsanalyse. Bayes-klassifikatorer forudsiger sandsynligheden for, at en given tuple tilhører en bestemt klasse. Den er baseret på Bayes sætning, som er baseret på sandsynlighed og beslutningsteori.
Bayes-klassificering arbejder på posterior sandsynlighed og tidligere sandsynlighed for beslutningsprocessen. Efter posterior sandsynlighed er hypotesen lavet ud fra den givne information, dvs. attributværdierne er kendte, mens hypoteserne for tidligere sandsynlighed er givet uanset attributværdierne.
# 6) Klyngeanalyse
Det er en teknik til opdeling af et datasæt i klynger eller grupper af objekter. Klyngedannelsen udføres ved hjælp af algoritmer. Det er en type ikke-overvåget læring, da etiketoplysningerne ikke kendes. Klyngemetoder identificerer data, der er ens eller adskiller sig fra hinanden, og der foretages analyse af karakteristika.
Klyngeanalyse kan bruges som et for-trin til anvendelse af forskellige andre algoritmer, såsom karakterisering, attributdelmængdevalg osv. Klyngeanalyse kan også bruges til Outlier-detektion, såsom høje indkøb i kreditkorttransaktioner.
Anvendelser: Billedgenkendelse, websøgning og sikkerhed.
# 7) Outlier Detection
Processen med at finde dataobjekter, der besidder enestående adfærd fra de andre objekter, kaldes outlier detection. Outlier afsløring og klyngeanalyse er relateret til hinanden. Outliermetoder er kategoriseret i statistisk, nærhedsbaseret, klyngebaseret og klassificeringsbaseret.
Der er forskellige typer af afvigende, nogle af dem er:
- Global Outlier: Dataobjektet afveg markant fra resten af datasættet.
- Kontekstuel afvigende: Det afhænger af visse faktorer som dag, tid og placering. Hvis et dataobjekt afviger markant med henvisning til en kontekst.
- Kollektiv Outlier: Når en gruppe af dataobjekter har en anden adfærd end hele datasættet.
Ansøgning: Opdagelse af kreditkortbedragerisici, afsløring af nyheder osv.
# 8) Sekventielle mønstre
En tendens eller nogle ensartede mønstre genkendes i denne type datamining. Forståelse af kundens købsadfærd og sekventielle mønstre bruges af butikkerne til at vise deres produkter i hylderne.
Ansøgning: Eksempel på e-handel, hvor når du køber vare A, vil det vise, at vare B ofte købes med vare A, der ser på den tidligere indkøbshistorik.
# 9) Regressionsanalyse
Denne type analyse overvåges og identificerer, hvilke artikelsæt blandt de forskellige relationer er relateret til eller er uafhængige af hinanden. Det kan forudsige salg, fortjeneste, temperatur, forudsige menneskelig adfærd osv. Det har en datasætværdi, der allerede er kendt.
Når der leveres et input, sammenligner regressionsalgoritmen input og forventet værdi, og fejlen beregnes for at komme til det nøjagtige resultat.
Ansøgning: Sammenligning af markedsføring og produktudviklingsindsats.
hvordan man repræsenterer en graf i java
Top Data Mining Algoritmer
Data Mining Techniques anvendes gennem algoritmerne bag det. Disse algoritmer kører på dataudvindingssoftwaren og anvendes baseret på forretningsbehovet.
Nogle af algoritmerne, der er meget brugt af organisationer til at analysere datasættene, er defineret nedenfor:
- K-betyder: Det er en populær klyngeanalyseteknik, hvor en gruppe af lignende emner er grupperet sammen.
- Apriori algoritme: Det er en hyppig varesætteknik og tilknytningsregler anvendes på transaktionsdatabaser. Det registrerer hyppige emnesæt og fremhæver generelle tendenser.
- K Nærmeste nabo: Denne metode bruges til klassificering og regressionsanalyse. Den nærmeste nabo er doven ved at lære, hvor den gemmer træningsdataene, og når der kommer nye umærkede data, klassificerer den inputdataene.
- Bayes skibe: Det er en gruppe af enkle probabilistiske klassificeringsalgoritmer, der antager, at hver dataobjektfunktion er uafhængig af den anden. Det er en anvendelse af Bayes sætning.
- AdaBoost: Det er en machine learning meta-algoritme, der bruges til at forbedre ydeevnen. Adaboost er følsom over for støjende data og outliers.
Metoder til dataekstraktion
Nogle avancerede dataudvindingsmetoder til håndtering af komplekse datatyper forklares nedenfor.
Dataene i nutidens verden er af forskellige typer, lige fra enkle til komplekse data. For at udvinde komplekse datatyper, såsom Time Series, Multi-dimensional, Spatial, & Multi-media data, er der behov for avancerede algoritmer og teknikker.
Nogle af dem er beskrevet nedenfor:
- KLIK: Det var den første klyngemetode, der fandt klyngerne i et flerdimensionelt underrum.
- P3C: Det er en velkendt klyngemetode til moderat til høj flerdimensionel data.
- SØ: Det er en k-middelbaseret metode, der sigter mod at gruppere data til moderat til høj dimensionalitet. Algoritmen opdeler dataene i k usammenhængende sæt af elementer ved at fjerne de mulige outliers.
- CURLER: Det er en korrelationsgrupperingsalgoritme, den ser både lineære og ikke-lineære korrelationer.
Top Data Mining Tools
Data Mining Tools er software, der bruges til minedata. Værktøjerne kører algoritmer i backend. Disse værktøjer er tilgængelige på markedet som Open Source, fri software og licenseret version.
Nogle af dataudvindingsværktøjerne inkluderer:
# 1) RapidMiner
RapidMiner er en open source-softwareplatform til analytics-teams, der forener datapræparation, maskinindlæring og implementering af forudsigelig model. Dette værktøj bruges til at udføre data mining analyse og oprette datamodeller. Det har store sæt til klassificering, klyngedannelse, tilknytning regel minedrift og regressionsalgoritmer.
# 2) Orange
Det er et open source-værktøj, der indeholder datavisualiserings- og analysepakke. Orange kan importeres i ethvert python-miljø, der fungerer. Det er velegnet til nye forskere og små projekter.
# 3) SPROG
KEEL (Knowledge Extraction based on Evolutionary Learning) er en open source ( GPLv3 ) Java-softwareværktøj, der kan bruges til et stort antal forskellige opdagelser af videndata.
# 4) SPSS
IBM SPSS Modeler er en software til dataudvinding og tekstanalyse fra IBM. Det bruges til at opbygge forudsigelige modeller og udføre andre analytiske opgaver.
# 5) RIDDE
Det er et gratis og open source-værktøj, der indeholder datarengørings- og analysepakke, specialiserede algoritmer inden for sentimentanalyse og analyse af sociale netværk. KNIME kan integrere data fra forskellige kilder i den samme analyse. Det har en grænseflade med Java, Python og R-programmering.
Vigtigt spørgsmål: Hvordan adskiller klassifikation sig fra forudsigelse?
Klassificering er en gruppering af data. Eksempel på klassificering er gruppering baseret på aldersgruppe, medicinsk tilstand osv. Mens forudsigelse udledes af et resultat ved hjælp af klassificerede data.
Et eksempel af forudsigende analyse forudsiger interesserne baseret på aldersgruppe, behandling for en medicinsk tilstand. Forudsigelse er også kendt som Estimation for kontinuerlige værdier.
Vigtig betegnelse: Forudsigelig dataudvinding
Forudsigelig datamining udføres for at forudsige eller forudsige visse datatendenser ved hjælp af business intelligence og andre data. Det hjælper virksomheder med at få bedre analyser og træffe bedre beslutninger. Predictive Analytics kombineres ofte med Predictive Data Mining.
Predictive Data Mining finder ud af de relevante data til analyse. Prediktiv analyse bruger data til at forudsige resultatet.
Konklusion
I denne vejledning har vi diskuteret de forskellige teknikker til dataudvinding, der kan hjælpe organisationer og virksomheder med at finde de mest nyttige og relevante oplysninger. Disse oplysninger bruges til at oprette modeller, der forudsiger kundernes adfærd for virksomhederne til at handle på det.
Når man læser alle de ovennævnte oplysninger om data mining teknikker, kan man bestemme dens troværdighed og gennemførlighed endnu bedre. Dataekstraktionsteknikker inkluderer arbejde med data, omformatering af data, omstrukturering af data. Formatet for de nødvendige oplysninger er baseret på den teknik og den analyse, der skal udføres.
Endelig hjælper alle teknikker, metoder og data mining-systemer med at opdage nye kreative innovationer.
PREV-vejledning | NÆSTE vejledning
Anbefalet læsning
- Data Mining: Process, teknikker og større problemer i dataanalyse
- 10 bedste datamodelleringsværktøjer til at styre komplekse designs
- Top 15 Bedste gratis dataudvindingsværktøjer: Den mest omfattende liste
- 10+ bedste dataindsamlingsværktøjer med strategier til dataindsamling
- Top 10 databasedesignværktøjer til at opbygge komplekse datamodeller
- 10+ bedste datastyringsværktøjer til at opfylde dine databehov i 2021
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- Top 14 BEDSTE testdatastyringsværktøjer i 2021