weka explorer visualization
Denne vejledning forklarer, hvordan man udfører datavisualisering, K-betyder klyngeanalyse og tilknytningsregelmining ved hjælp af WEKA Explorer:
I Forrige vejledning , vi lærte om WEKA-datasæt, klassifikator og J48-algoritme til beslutningstræ.
Som vi har set før, er WEKA et open source data mining værktøj, der bruges af mange forskere og studerende til at udføre mange maskinlæringsopgaver. Brugerne kan også opbygge deres maskinlæringsmetoder og udføre eksperimenter på eksempler på datasæt, der findes i WEKA-biblioteket.
Datavisualisering i WEKA kan udføres ved hjælp af eksempeldatasæt eller brugerfremstillede datasæt i .arff, .csv-format.
=> Læs gennem den komplette maskinlæringstræningsserie
Association Rule Mining udføres ved hjælp af Apriori-algoritmen. Det er den eneste algoritme, der leveres af WEKA, der udfører hyppig mønsterdrift.
Der er mange algoritmer til stede i WEKA til at udføre klyngeanalyse som FartherestFirst, FilteredCluster og HierachicalCluster osv. Ud af disse vil vi bruge SimpleKmeans, som er den enkleste metode til klyngedannelse.
Hvad du lærer:
- Association Rule Mining ved hjælp af WEKA Explorer
- K-betyder algoritme ved hjælp af WEKA Explorer
- Implementér datavisualisering ved hjælp af WEKA
- Konklusion
Association Rule Mining ved hjælp af WEKA Explorer
Lad os se, hvordan vi implementerer Association Rule Mining ved hjælp af WEKA Explorer.
Association Rule Mining
Det er udviklet og designet af Srikant og Aggarwal i 1994. Det hjælper os med at finde mønstre i dataene. Det er en dataudvindingsproces, der finder funktioner, der forekommer sammen, eller funktioner, der er korreleret.
youtube til mp4 konverter online gratis ingen download
Anvendelse af foreningsregler inkluderer markedsanalyse til analyse af de varer, der er købt i en enkelt kurv; Cross Marketing for at arbejde med andre virksomheder, hvilket øger vores forretningsproduktværdi, såsom bilforhandler og Oil Company.
Foreningsregler udvindes, efter at hyppige artikelsæt i et stort datasæt er fundet. Disse datasæt findes ved hjælp af minedriftsalgoritmer som Apriori og FP Growth. Hyppig Itemset-minedrift udvinder data ved hjælp af support- og tillidsforanstaltninger.
Support og tillid
Support måler sandsynligheden for, at to varer købes sammen i en enkelt transaktion, såsom brød og smør. Tillid er en foranstaltning, der angiver sandsynligheden for, at der købes to varer efter hinanden, men ikke sammen, f.eks. antivirussoftware til bærbar computer og computer.
Minimumstærskelstøtte og minimumstærskelværdier antages at antage at beskære transaktionerne og finde ud af de hyppigst forekommende varesæt.
Implementering ved hjælp af WEKA Explorer
WEKA indeholder en implementering af Apriori-algoritme for læringsforeningsregler. Apriori fungerer kun med binære attributter, kategoriske data (nominelle data), så hvis datasættet indeholder nogen numeriske værdier, konverteres dem først til nominelle.
Apriori finder ud af alle regler med mindst mulig støtte og tillidstærskel.
Følg nedenstående trin:
# 1) Forbered et Excel-fildatasæt og navngiv det som “ apriori.csv '.
#to) Åbn WEKA Explorer og vælg 'apriori.csv' -fil under fanen Forbehandling.
# 3) Filen indlæses nu i WEKA Explorer.
# 4) Fjern transaktionsfeltet ved at markere afkrydsningsfeltet og klikke på Fjern som vist på billedet nedenfor. Gem nu filen som “aprioritest.arff”.
# 5) Gå til fanen Associate. Apriori-reglerne kan udvindes herfra.
# 6) Klik på Vælg for at indstille support- og tillidsparametrene. De forskellige parametre, der kan indstilles her, er:
- ' lowerBoundMinSupport ”Og“ upperBoundMinSupport ”, Dette er det supportniveauinterval, hvor vores algoritme fungerer.
- Delta er stigningen i støtten. I dette tilfælde er 0,05 stigningen i understøttelsen fra 0,1 til 1.
- metricType kan være 'tillid', 'lift', 'gearing' og 'overbevisning'. Dette fortæller os, hvordan vi rangordner foreningsreglerne. Generelt vælges tillid.
- numRules fortæller antallet af foreningsregler, der skal udvindes. Som standard er den indstillet til 10.
- betydningNiveau skildrer, hvad der er betydningen af tillidsniveauet.
# 7) Tekstboksen ved siden af valgknappen viser “ Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, Som viser de opsummerede regler, der er angivet for algoritmen i fanen Indstillinger.
# 8) Klik på Start-knappen. Foreningsreglerne genereres i højre panel. Dette panel består af 2 sektioner. Først er algoritmen, det datasæt, der er valgt at køre. Den anden del viser Apriori-informationen.
Lad os forstå kørselsoplysningerne i højre panel:
- Ordningen brugte os Apriori.
- Forekomster og attributter: Den har 6 forekomster og 4 attributter.
- Minimum support og mindst tillid er henholdsvis 0,4 og 0,9. Ud af 6 forekomster findes der 2 forekomster med min support,
- Antallet af cyklusser, der er udført for minedriftforeningsreglen, er 12.
- De genererede store artikelsæt er 3: L (1), L (2), L (3), men disse er ikke rangeret, da deres størrelser er henholdsvis 7, 11 og 5.
- De fundne regler er rangeret. Fortolkningen af disse regler er som følger:
- Smør T 4 => Øl F 4: betyder ud af 6 viser 4 tilfælde, at for smør sandt, er øl falsk. Dette giver en stærk tilknytning. Tillidsniveau er 0,1.
Produktion
Foreningsreglerne kan udvindes ved hjælp af WEKA Explorer med Apriori Algorithm. Denne algoritme kan anvendes på alle typer datasæt, der er tilgængelige i WEKA-biblioteket, såvel som andre datasæt lavet af brugeren. Support og tillid og andre parametre kan indstilles ved hjælp af indstillingsvinduet i algoritmen.
K-betyder algoritme ved hjælp af WEKA Explorer
Lad os se, hvordan vi implementerer K-betyder-algoritmen til klyngedannelse ved hjælp af WEKA Explorer.
Hvad er klyngeanalyse
Clustering Algorithms er ikke-overvågede læringsalgoritmer, der bruges til at oprette grupper af data med lignende karakteristika. Det aggregerer objekter med ligheder i grupper og undergrupper, hvilket fører til opdeling af datasæt. Klyngeanalyse er processen med deling af datasæt i delmængder. Disse undergrupper kaldes klynger, og klyngesættet kaldes klyngedannelse.
Klyngeanalyse bruges i mange applikationer såsom billedgenkendelse, mønstergenkendelse, websøgning og sikkerhed i business intelligence såsom gruppering af kunder med lignende smag.
Hvad er K-betyder klyngedannelse
K betyder klyngedannelse er den enkleste klyngealgoritme. I K-Clustering-algoritmen er datasættet opdelt i K-klynger. En objektiv funktion bruges til at finde kvaliteten af partitioner, så lignende objekter er i en klynge og forskellige objekter i andre grupper.
I denne metode viser det sig, at centrum af en klynge repræsenterer en klynge. Centroid tages som centrum af klyngen, der beregnes som middelværdien af punkter i klyngen. Nu findes kvaliteten af klynger ved at måle den euklidiske afstand mellem punktet og centrum. Denne afstand skal være maksimal.
Hvordan fungerer K-Mean Clustering Algorithm
Trin 1: Vælg en værdi på K, hvor K er antallet af klynger.
Trin # 2: Iterer hvert punkt, og tildel klyngen, der har det nærmeste center til det. Når hvert element gentages, skal du beregne centroid for alle klynger.
Trin # 3: Iterér hvert element fra datasættet, og bereg den euklidiske afstand mellem punktet og centrum af hver klynge. Hvis der er et punkt i klyngen, som ikke er tættest på det, skal du tildele dette punkt til den nærmeste klynge, og efter at have udført dette til alle punkter i datasættet, skal du igen beregne centroid for hver klynge.
Trin # 4: Udfør trin 3, indtil der ikke er nogen ny opgave, der fandt sted mellem de to på hinanden følgende gentagelser.
K-betyder implementering af klyngedannelse ved hjælp af WEKA
Trin til implementering ved hjælp af Weka er som følger:
# 1) Åbn WEKA Explorer, og klik på Åbn fil i fanen Forbehandling. Vælg datasæt “vote.arff”.
#to) Gå til fanen 'Klynge' og klik på knappen 'Vælg'. Vælg klyngemetoden som “SimpleKMeans”.
# 3) Vælg Indstillinger, og indstil derefter følgende felter:
- Afstand fungerer som euklidisk
- Antallet af klynger som 6. Med flere klynger reduceres summen af den kvadrerede fejl.
- Frø som 10. af
Klik på Ok, og start algoritmen.
# 4) Klik på Start i venstre panel. Resultaterne af algoritmen vises på den hvide skærm. Lad os analysere kørselsoplysningerne:
- Skema, relation, forekomster og attributter beskriver egenskaben for datasættet og den anvendte klyngemetode. I dette tilfælde har datasættet vote.arff 435 forekomster og 13 attributter.
- Med Kmeans-klyngen er antallet af iterationer 5.
- Summen af den kvadrerede fejl er 1098.0. Denne fejl reduceres med en stigning i antallet af klynger.
- De 5 sidste klynger med centroider er repræsenteret i form af en tabel. I vores tilfælde er klyngens centroider 168.0, 47.0, 37.0, 122.0.33.0 og 28.0.
- Klyngede forekomster repræsenterer antallet og procentdelen af de samlede forekomster, der falder i klyngen.
# 5) Vælg 'Classes to Clusters Evaluations' og klik på Start.
Algoritmen tildeler klassemærket til klyngen. Klynge 0 repræsenterer republikaner og klynge 3 repræsenterer demokrat. Den forkert grupperede forekomst er 39,77%, hvilket kan reduceres ved at ignorere de uvigtige attributter.
# 6) At ignorere de uvigtige attributter. Klik på knappen 'Ignorer attributter', og vælg de attributter, der skal fjernes.
# 7) Brug fanen 'Visualiser' til at visualisere Clustering-algoritmeresultatet. Gå til fanen, og klik på et vilkårligt felt. Flyt jitteren til maks.
- X-aksen og Y-aksen repræsenterer attributten.
- Den blå farve repræsenterer klassemærket demokrat, og den røde farve repræsenterer klassemærket republikansk.
- Jitter bruges til at se klynger.
- Klik på feltet i højre side af vinduet for at ændre x-koordinatattributten og se klyngedannelse i forhold til andre attributter.
Produktion
K betyder klyngedannelse er en simpel klyngeanalysemetode. Antallet af klynger kan indstilles ved hjælp af fanen Indstilling. Centroid for hver klynge beregnes som gennemsnittet af alle punkter i klyngerne. Med stigningen i antallet af klynger reduceres summen af kvadratfejl. Objekterne i klyngen udviser lignende egenskaber og egenskaber. Klyngerne repræsenterer klassemærkerne.
Implementér datavisualisering ved hjælp af WEKA
Datavisualisering
Metoden til at repræsentere data gennem grafer og plot med det formål at forstå data klart er datavisualisering.
Der er mange måder at repræsentere data på. Nogle af dem er som følger:
# 1) Pixelorienteret visualisering: Her repræsenterer pixelens farve dimensionens værdi. Pixelens farve repræsenterer de tilsvarende værdier.
# 2) Geometrisk repræsentation: De flerdimensionale datasæt er repræsenteret i 2D-, 3D- og 4D-spredningsdiagrammer.
# 3) Ikonbaseret visualisering: Dataene er repræsenteret ved hjælp af Chernoffs ansigter og stickfigurer. Chernoffs ansigter bruger det menneskelige sinds evne til at genkende ansigtsegenskaber og forskelle mellem dem. Stickfiguren bruger 5 stickfigurer til at repræsentere flerdimensionelle data.
# 4) Hierarkisk datavisualisering: Datasættene er repræsenteret ved hjælp af treemaps. Det repræsenterer hierarkiske data som et sæt indlejrede trekanter.
Datavisualisering ved hjælp af WEKA Explorer
Datavisualisering ved hjælp af WEKA udføres på IRIS.arff-datasættet.
De involverede trin er som følger:
# 1) Gå til fanen Forbehandling og åbn datasættet IRIS.arff.
#to) Datasættet har 4 attributter og 1 klasselabel. Attributterne i dette datasæt er:
- Sepallængde: Type-nummer
- Sepalbredde: Typetal
- Blomsterlængde: Typetal
- Kronbladbredde: Typetal
- Klasse: Type-nominel
# 3) Gå til fanen Visualiser for at visualisere datasættet. Fanen viser attributter plot matrix. Datasætattributter er markeret på x-aksen og y-aksen, mens forekomsterne plottes. Kassen med attributten x-akse og attributten y-aksen kan forstørres.
# 4) Klik på feltet for plottet for at forstørre det. For eksempel, x: petallængde og y: kronbladbredde. Klassemærkerne er repræsenteret i forskellige farver.
- Klassemærke- Iris-setosa: blå farve
- Klassemærkning- Iris-versicolor: rød
- Klassemærke-Iris-virginica-grøn
Disse farver kan ændres. For at ændre farven skal du klikke på klassemærket i bunden, et farvevindue vises.
# 5) Klik på den forekomst, der er repræsenteret af 'x' i plottet. Det vil give instansen detaljer. For eksempel:
- Forekomst nummer: 91
- Sæplængde: 5.5
- Sepalbredde: 2.6
- Blomsterlængde: 4.4
- Kronbladbredde: 1.2
- Klasse: Iris-versicolor
Nogle af punkterne i plottet ser mørkere ud end andre punkter. Disse punkter repræsenterer 2 eller flere forekomster med den samme klassemærkning og den samme værdi af attributter, der er tegnet på grafen, såsom petalwidth og petallength.
Figuren nedenfor repræsenterer et punkt med 2 instansinformation.
# 6) X- og Y-akse-attributterne kan ændres fra højre panel i Visualiser graf. Brugeren kan se forskellige plot.
# 7) Jitteren bruges til at tilføje tilfældighed til plottet. Nogle gange overlapper punkterne. Med jitter repræsenterer de mørkere pletter flere forekomster.
# 8) For at få en klarere visning af datasættet og fjerne outliers kan brugeren vælge en instans fra rullemenuen. Klik på 'vælg forekomst' dropdown. Vælg 'Rektangel'. Med dette vil brugeren være i stand til at vælge punkter i plottet ved at plotte et rektangel.
# 9) Klik på 'Send'. Kun de valgte datasætpunkter vises, og de andre punkter udelukkes fra grafen.
Figuren nedenfor viser punkterne fra den valgte rektangulære form. Plottet repræsenterer point med kun 3 klassemærker. Brugeren kan klikke på 'Gem' for at gemme datasættet eller 'Nulstil' for at vælge en anden forekomst. Datasættet gemmes i en separat .ARFF-fil.
Produktion:
Datavisualisering ved hjælp af WEKA er forenklet ved hjælp af boksplottet. Brugeren kan se ethvert granularitetsniveau. Attributterne er tegnet på X-aksen og y-aksen, mens forekomsterne er tegnet mod X- og Y-aksen. Nogle punkter repræsenterer flere forekomster, som er repræsenteret af punkter med mørk farve.
Konklusion
WEKA er et effektivt data mining-værktøj til at udføre mange data mining-opgaver samt eksperimentere med nye metoder over datasæt. WEKA er udviklet af Institut for Datalogi, University of Waikato i New Zealand.
Dagens verden er overvældet af data lige fra shopping i supermarkedet til sikkerhedskameraer i vores hjem. Data mining bruger disse rådata, konverterer dem til information for at komme med forudsigelser. WEKA ved hjælp af Apriori-algoritmen hjælper med minesammenslutningsregler i datasættet. Apriori er en hyppig mønsterudvindingsalgoritme, der tæller antallet af forekomster af en varesæt i transaktionen.
Klyngeanalyse er en teknik til at finde ud af klynger af data, der repræsenterer lignende egenskaber. WEKA leverer mange algoritmer til at udføre klyngeanalyse, hvoraf simplekmeans er meget anvendte.
Datavisualisering i WEKA kan udføres på alle datasæt i WEKA-biblioteket. Rå datasættet kan ses såvel som andre resulterende datasæt for andre algoritmer såsom klassificering, klyngedannelse og tilknytning kan visualiseres ved hjælp af WEKA.
bedste sted at downloade youtube videoer
=> Besøg her for den eksklusive maskinlæringsserie
Anbefalet læsning
- Weka-vejledning - Sådan downloades, installeres og bruges Weka-værktøjet
- WEKA-datasæt, klassifikator og J48-algoritme til beslutningstræ
- 15 BEDSTE datavisualiseringsværktøjer og software i 2021
- D3.js Tutorial - Data Visualization Framework For Beginners
- D3.js Data Visualization Tutorial - Shapes, Graph, Animation
- 7 Principper for softwaretest: Fejlklyngedannelse og Pareto-princip
- Data Mining: Process, teknikker og større problemer i dataanalyse
- Data Mining Techniques: Algoritme, Methods & Top Data Mining Tools