weka dataset classifier
Denne tutorial forklarer WEKA-datasæt, klassifikator og J48-algoritme til beslutningstræ. Giver også oplysninger om eksempler på ARFF-datasæt til Weka:
I Forrige vejledning , vi lærte om Weka Machine Learning-værktøjet, dets funktioner, og hvordan man downloader, installerer og bruger Weka Machine Learning-software.
WEKA er et bibliotek med maskinlæringsalgoritmer til løsning af data mining-problemer på ægte data. WEKA giver også et miljø til at udvikle mange maskinindlæringsalgoritmer. Det har et sæt værktøjer til at udføre forskellige data mining-opgaver såsom dataklassificering, dataklyngedannelse, regression, attributvalg, hyppig minesæt-minedrift osv.
Alle disse opgaver kan udføres på sample.ARFF-filen, der er tilgængelig i WEKA-arkivet, eller brugere kan forberede deres datafiler. Eksemplet på .arff-filer er datasæt, der har indbyggede historiske data indsamlet af forskere.
=> Læs gennem den komplette maskinlæringstræningsserie
I denne vejledning ser vi nogle eksempler på datasæt i WEKA og udfører også beslutningstræalgoritmedatamining ved hjælp af weather.arff datasæt.
Hvad du lærer:
Udforskning af WEKA-datasæt
WEKA maskinindlæringsværktøjet giver en mappe med nogle eksempler på datasæt. Disse datasæt kan indlæses direkte i WEKA, så brugerne kan begynde at udvikle modeller med det samme.
WEKA-datasættene kan udforskes fra linket 'C: Program Files Weka-3-8 data'. Datasættene er i .arff-format.
Eksempel på WEKA-datasæt
Nogle eksempler på datasæt til stede i WEKA er anført i nedenstående tabel:
S. nr. | Eksempel på datasæt |
---|---|
7. | diabetes |
1. | airline.arff |
to. | brystkræft. tærske |
3. | kontakt-linse |
Fire. | cpu.arff |
5. | cpu.with-vendor.arff |
6. | kredit-g.arff |
8. | glas. tærske |
9. | hypothyroid.arff |
10. | ionospehre.arff |
elleve. | iris.2D.arff |
12. | iris.arff |
13. | arbejdskraft |
14. | ReutersCorn-train.arff |
femten. | ReutersCorn-test.arff |
16. | ReutersGrain-train.arff |
17. | ReutersGrain-test.arff |
18. | segment-challenge.arff |
19. | segment-test.arff |
tyve. | sojabønne |
enogtyve. | supermarked.arff |
22. | ubalanceret. forretning |
2. 3. | vote.arff |
24. | weather.numeric.arff |
25. | weather.nominal.arff |
Lad os se på nogle af disse:
kontakt-linse
contact-lens.arff datasæt er en database til montering af kontaktlinser. Det blev doneret af donoren, Benoit Julien i året 1990.
Database: Denne database er komplet. Eksemplerne i denne database er komplette og støjfrie. Databasen har 24 forekomster og 4 attributter.
Egenskaber: Alle fire attributter er nominelle. Der mangler ingen attributværdier. De fire attributter er som følger:
# 1) Patientens alder: Attributten alder kan have værdier:
- ung
- præ-presbyopisk
- presbyopisk
#to) Brillerecept: Denne attribut kan tage værdier:
- nærsynet
- hypermetrope
# 3) Astigmatic: Denne attribut kan tage værdier
- lade være med
- Ja
# 4) Riveproduktionshastighed: Værdierne kan være
- reduceret
- normal
Klasse: Her defineres tre klassemærker. Disse er:
- patienten skal være udstyret med hårde kontaktlinser.
- patienten skal være udstyret med bløde kontaktlinser.
- patienten bør ikke udstyres med kontaktlinser.
Klassedistribution: De forekomster, der klassificeres i klasselabels, er angivet nedenfor:
Klassemærke | Antal tilfælde | |
---|---|---|
1. | Hårde kontaktlinser | 4 |
to. | Bløde kontaktlinser | 5 |
3. | Ingen kontaktlinser | femten |
iris.arff
iris.arff datasættet blev oprettet i 1988 af Michael Marshall. Det er Iris Plants-databasen.
hvad er en dat-fil mac
Database: Denne database bruges til mønstergenkendelse. Datasættet indeholder 3 klasser med 50 forekomster. Hver klasse repræsenterer en type irisplante. Den ene klasse kan adskilles lineært fra den anden 2, men sidstnævnte kan ikke adskilles lineært fra hinanden. Det forudsiger, hvilken art af de 3 irisblomster, observationen tilhører. Dette kaldes et klassificeringsdatasæt i flere klasser.
Egenskaber: Det har 4 numeriske, forudsigelige attributter og klassen. Der mangler ingen attributter.
Attributterne er:
- sepal længde i cm
- sepal bredde i cm
- kronbladets længde i cm
- kronbladets bredde i cm
- klasse:
- Iris Setosa
- Iris Versicolor
- Iris Virginica
Resumé Statistik:
Min | Maks | Betyde | SD | Klassekorrelation | |
---|---|---|---|---|---|
sepal længde | 4.3 | 7.9 | 5,84 | 0,83 | 0,7826 |
sepal bredde | 2.0 | 4.4 | 3.05 | 0,43 | -0,4194 |
kronbladets længde | 1.0 | 6.9 | 3,76 | 1,76 | 0,9490 (høj!) |
kronbladets bredde | 0,1 | 2.5 | 1.20 | 0,76 | 0.9565 (høj!) |
Klassefordeling: 33,3% for hver af 3 klasser
Nogle andre datasæt:
diabetes
Databasen til dette datasæt er Pima Indians Diabetes. Dette datasæt forudsiger, om patienten er tilbøjelig til at være diabetiker i de næste 5 år. Patienterne i dette datasæt er alle kvinder på mindst 21 år fra Pima Indian Heritage. Det har 768 forekomster og 8 numeriske attributter plus en klasse. Dette er et binært klassificeringsdatasæt, hvor den forudsagte outputvariabel er nominel bestående af to klasser.
ionosphere.arff
Dette er et populært datasæt til binær klassificering. Forekomsten i dette datasæt beskriver egenskaberne for radarretur fra atmosfæren. Det bruges til at forudsige, hvor ionosfæren har en eller anden struktur. Det har 34 numeriske attributter og en klasse.
Klasseattributten er “god” eller “dårlig”, hvilket forudsiges ud fra 34 attributters observation. De modtagne signaler behandles af autokorrelationsfunktion, der tager tidspuls og pulsnummer som argumenter.
Regressionsdatasæt
Regressionsdatasættene kan downloades fra WEKA-websiden “ Samlinger af datasæt ”. Det har 37 regressionsproblemer opnået fra forskellige kilder. Den downloadede fil opretter numerisk / bibliotek med regressionsdatasæt i .arff-format.
De populære datasæt, der findes i biblioteket, er: Longley økonomiske datasæt (longley.arff), Boston husprisdatasæt (Housing.arff) og sove i pattedyr datasæt (sleep.arff).
Lad os nu se, hvordan man identificerer reelle værdier og nominelle attributter i datasættet ved hjælp af WEKA explorer.
Hvad er reelle værdier og nominelle attributter
Reelle værdiansatte attributter er numeriske attributter, der kun indeholder reelle værdier. Disse er målbare størrelser. Disse attributter kan skaleres interval, såsom temperatur eller skaleret forhold, såsom gennemsnit, median.
Nominelle attributter repræsenterer navne eller en vis repræsentation af ting. Der er ingen rækkefølge i sådanne attributter, og de repræsenterer en kategori. For eksempel, farve.
Følg nedenstående trin for at bruge WEKA til at identificere reelle værdier og nominelle attributter i datasættet.
# 1) Åbn WEKA, og vælg 'Explorer' under 'Applikationer'.
#to) Vælg fanen 'Forbehandling'. Klik på 'Åbn fil'. Med WEKA-bruger kan du få adgang til WEKA-eksempelfiler.
# 3) Vælg inputfilen fra mappen WEKA3.8, der er gemt på det lokale system. Vælg den foruddefinerede .arff-fil 'credit-g.arff' -fil, og klik på 'Åbn'.
# 4) En attributliste åbnes i venstre panel. Valgte attributstatistikker vises på højre panel sammen med histogrammet.
Analyse af datasættet:
I venstre panel viser den aktuelle relation:
- Forholdet navn: german_credit er prøvefilen.
- Forekomster: 1000 antal datarækker i datasættet.
- Egenskaber: 21 attributter i datasættet.
Panelet under den aktuelle relation viser navnet på attributter.
I højre panel, den valgte attributstatistik vises. Vælg attribut “kontrol_status”.
Det viser:
- Navnet på attributten
- Mangler: Eventuelle manglende værdier for attributten i datasættet. 0% i dette tilfælde.
- Tydelig: Attributten har 4 forskellige værdier.
- Type: Attributten er af den nominelle type, dvs. det tager ikke nogen numerisk værdi.
- Tælle: Blandt de 1000 forekomster skrives antallet af hver særskilt klasselabel i tællekolonnen.
- Histogram: Det viser outputklassemærket for attributten. Klassemærket i dette datasæt er enten godt eller dårligt. Der er 700 tilfælde af godt (markeret med blåt) og 300 tilfælde af dårligt (markeret med rødt).
- Til etiketten<0, the instances for good or bad are almost the same in number.
- For etiket, 0<= X<200, the instances with decision good are more than instances with bad.
- Tilsvarende for maksimum forekomster for etiket> = 200 forekommer for evigt, og ingen kontroletiket har flere forekomster med beslutning god.
For den næste attribut 'varighed'.
Det højre panel viser:
- Navn: Dette er navnet på attributten.
- Type: Attributttypen er numerisk.
- Manglende værdi: Attributten har ingen manglende værdi.
- Tydelig: Det har 33 forskellige værdier i 1000 tilfælde. Det betyder i 1000 tilfælde, at det har 33 forskellige værdier.
- Enestående: Det har 5 unikke værdier, der ikke matcher hinanden.
- Minimumsværdi: Den mindste værdi af attributten er 4.
- Maksimal værdi: Den maksimale værdi for attributten er 72.
- Betyde: Gennemsnit er at tilføje alle værdier divideret med forekomster.
- Standardafvigelse: Afvigelse af attributvarighed.
- Histogram: Histogrammet viser varigheden på 4 enheder, de maksimale forekomster forekommer for en god klasse. Da varigheden øges til 38 enheder, reduceres antallet af forekomster for etiketter af god klasse. Varigheden når 72 enheder, der kun har en forekomst, der klassificerer beslutningen som dårlig.
Klassen er klassificeringsfunktionen for den nominelle type. Det har to forskellige værdier: godt og dårligt. Den gode klasselabel har 700 forekomster, og den dårlige klasselabel har 300 forekomster.
For at visualisere alle attributterne i datasættet skal du klikke på “Visualiser alt”.
# 5) For at finde ud af kun numeriske attributter skal du klikke på knappen Filter. Derfra skal du klikke på Vælg -> WEKA> FILTER -> Uovervåget type -> Fjern type.
WEKA-filtre har mange funktioner til at omdanne attributværdierne i datasættet for at gøre det egnet til algoritmerne. For eksempel, den numeriske transformation af attributter.
Filtrering af de nominelle og reelle værdiansatte attributter fra datasættet er et andet eksempel på brug af WEKA-filtre.
# 6) Klik på Fjern type i filterfanen. Et vindue til objekteditor åbnes. Vælg attribut Skriv 'Slet numeriske attributter' og klik på OK.
# 7) Anvend filteret. Kun numeriske attributter vises.
Klasseattributten er af den nominelle type. Det klassificerer output og kan derfor ikke slettes. Således ses det med den numeriske attribut.
Produktion:
Attributterne med reelle værdier og nominelle værdier i datasættet identificeres. Visualisering med klassemærket ses i form af histogrammer.
Weka beslutningstræ klassificeringsalgoritmer
Nu vil vi se, hvordan vi implementerer beslutningstræsklassificering på weather.nominal.arff-datasættet ved hjælp af J48-klassifikatoren.
weather.nominal.arff
Det er et eksempeldatasæt, der findes direkte fra WEKA. Dette datasæt forudsiger, om vejret er egnet til at spille cricket. Datasættet har 5 attributter og 14 forekomster. Klassemærket 'play' klassificerer output som 'ja' eller 'nej'.
Hvad er beslutningstræ
Beslutningstræ er klassificeringsteknikken, der består af tre komponenter rodknude, gren (kant eller link) og bladknude. Rød repræsenterer testbetingelsen for forskellige attributter, grenen repræsenterer alle mulige resultater, der kan være der i testen, og bladknudepunkter indeholder etiketten for den klasse, den tilhører. Rodknuden er ved starten af træet, som også kaldes toppen af træet.
J48 klassifikator
Det er en algoritme, der genererer et beslutningstræ, der genereres af C4.5 (en udvidelse af ID3). Det er også kendt som en statistisk klassifikator. For klassificering af beslutningstræer har vi brug for en database.
Trin inkluderer:
# 1) Åbn WEKA explorer.
#to) Vælg weather.nominal.arff-fil fra 'vælg fil' under indstillingen fane forbehandling.
# 3) Gå til fanen 'Klassificer' for at klassificere de uklassificerede data. Klik på knappen 'Vælg'. Herfra skal du vælge “træer -> J48”. Lad os også se hurtigt på andre muligheder i knappen Vælg:
- Bayes: Det er en densitetsestimering for numeriske attributter.
- Meta: Det er en multi-respons lineær regression.
- Funktioner: Det er logistisk regression.
- Doven: Det indstiller blandingsentropien automatisk.
- Herske: Det er en regel elev.
- Træer: Træer klassificerer dataene.
# 4) Klik på Start-knappen. Klassificeringsudgangen kan ses på panelet til højre. Det viser kørselsoplysningerne i panelet som:
- Ordning: Klassificeringsalgoritmen, der anvendes.
- Forekomster: Antal datarækker i datasættet.
- Egenskaber: Datasættet har 5 attributter.
- Antallet af blade og størrelsen på træet beskriver beslutningstræet.
- Det tog tid at bygge modellen: Tid til output.
- Fuld klassificering af J48 beskåret med attributterne og antallet af forekomster.
# 5) For at visualisere træet skal du højreklikke på resultatet og vælge visualisere træet.
Produktion :
Outputtet er i form af et beslutningstræ. Hovedattributten er 'outlook'.
Hvis udsigterne er solrige, derefter analyserer træet yderligere fugtigheden. Hvis luftfugtigheden er høj, er klasse label play = “ja”.
Hvis udsigterne er overskyede, klassemærket, leg er 'ja'. Antallet af tilfælde, der overholder klassificeringen, er 4.
Hvis udsigten er regnfuld, yderligere klassificering finder sted for at analysere attributten 'blæsende'. Hvis blæsende = sandt, er spillet = “nej”. Antallet af tilfælde, der adlyder klassificeringen for udsigter = blæsende og blæsende = sandt, er 2.
Konklusion
WEKA tilbyder en bred vifte af eksempeldatasæt til anvendelse af algoritmer til maskinindlæring. Brugerne kan udføre maskinlæringsopgaver såsom klassificering, regression, attributvalg, tilknytning til disse eksempeldatasæt og kan også lære værktøjet ved hjælp af dem.
WEKA explorer bruges til at udføre flere funktioner, startende fra forbehandling. Forbehandling tager input som en .arff-fil, behandler input og giver et output, der kan bruges af andre computerprogrammer. I WEKA giver output af forbehandling de attributter, der er til stede i datasættet, som yderligere kan bruges til statistisk analyse og sammenligning med klassemærker.
WEKA tilbyder også mange klassificeringsalgoritmer til beslutningstræ. J48 er en af de populære klassificeringsalgoritmer, der outputter et beslutningstræ. Ved hjælp af fanen Klassificer kan brugeren visualisere beslutningstræet. Hvis beslutningstræet er for udfyldt, kan træbeskæring anvendes fra fanen Forbehandling ved at fjerne de attributter, der ikke kræves, og starte klassificeringsprocessen igen.
=> Besøg her for den eksklusive maskinlæringsserie
Anbefalet læsning
- Weka-vejledning - Sådan downloades, installeres og bruges Weka-værktøjet
- Sådan skriver du komplekse forretningslogiske testscenarier ved hjælp af beslutningstabellen
- WEKA Explorer: Visualisering, klyngedannelse, Association Rule Mining
- Eksempler på beslutningstræalgoritme i datamining
- Beslutningskonstruktioner i C ++
- B Tree og B + Tree Datastruktur i C ++
- Datastruktur for binært træ i C ++
- AVL-træ- og bunndatastruktur i C ++