WEKA-datasæt, klassifikator og J48-algoritme til beslutningstræ

weka dataset classifier

Prøv Vores Instrument Til At Fjerne Problemer

Vælg Operativsystemet Vælg Et Projektionsprojekt (Valgfrit)

Beskriv Dit Problem

Denne tutorial forklarer WEKA-datasæt, klassifikator og J48-algoritme til beslutningstræ. Giver også oplysninger om eksempler på ARFF-datasæt til Weka:

I Forrige vejledning , vi lærte om Weka Machine Learning-værktøjet, dets funktioner, og hvordan man downloader, installerer og bruger Weka Machine Learning-software.

WEKA er et bibliotek med maskinlæringsalgoritmer til løsning af data mining-problemer på ægte data. WEKA giver også et miljø til at udvikle mange maskinindlæringsalgoritmer. Det har et sæt værktøjer til at udføre forskellige data mining-opgaver såsom dataklassificering, dataklyngedannelse, regression, attributvalg, hyppig minesæt-minedrift osv.

Alle disse opgaver kan udføres på sample.ARFF-filen, der er tilgængelig i WEKA-arkivet, eller brugere kan forberede deres datafiler. Eksemplet på .arff-filer er datasæt, der har indbyggede historiske data indsamlet af forskere.

=> Læs gennem den komplette maskinlæringstræningsserie

MÅDE datasæt

I denne vejledning ser vi nogle eksempler på datasæt i WEKA og udfører også beslutningstræalgoritmedatamining ved hjælp af weather.arff datasæt.

Hvad du lærer:

Udforskning af WEKA-datasæt
- Eksempel på WEKA-datasæt
- Hvad er reelle værdier og nominelle attributter
Weka beslutningstræ klassificeringsalgoritmer
- Hvad er beslutningstræ
- J48 klassifikator
Konklusion
- Anbefalet læsning

Udforskning af WEKA-datasæt

WEKA maskinindlæringsværktøjet giver en mappe med nogle eksempler på datasæt. Disse datasæt kan indlæses direkte i WEKA, så brugerne kan begynde at udvikle modeller med det samme.

WEKA-datasættene kan udforskes fra linket 'C: Program Files Weka-3-8 data'. Datasættene er i .arff-format.

Udforsk datasæt

Eksempel på WEKA-datasæt

Nogle eksempler på datasæt til stede i WEKA er anført i nedenstående tabel:

S. nr.	Eksempel på datasæt
7.	diabetes
1.	airline.arff
to.	brystkræft. tærske
3.	kontakt-linse
Fire.	cpu.arff
5.	cpu.with-vendor.arff
6.	kredit-g.arff
8.	glas. tærske
9.	hypothyroid.arff
10.	ionospehre.arff
elleve.	iris.2D.arff
12.	iris.arff
13.	arbejdskraft
14.	ReutersCorn-train.arff
femten.	ReutersCorn-test.arff
16.	ReutersGrain-train.arff
17.	ReutersGrain-test.arff
18.	segment-challenge.arff
19.	segment-test.arff
tyve.	sojabønne
enogtyve.	supermarked.arff
22.	ubalanceret. forretning
2. 3.	vote.arff
24.	weather.numeric.arff
25.	weather.nominal.arff

Lad os se på nogle af disse:

kontakt-linse

contact-lens.arff datasæt er en database til montering af kontaktlinser. Det blev doneret af donoren, Benoit Julien i året 1990.

ontactLenses datasæt

Database: Denne database er komplet. Eksemplerne i denne database er komplette og støjfrie. Databasen har 24 forekomster og 4 attributter.

Egenskaber: Alle fire attributter er nominelle. Der mangler ingen attributværdier. De fire attributter er som følger:

# 1) Patientens alder: Attributten alder kan have værdier:

ung
præ-presbyopisk
presbyopisk

#to) Brillerecept: Denne attribut kan tage værdier:

nærsynet
hypermetrope

# 3) Astigmatic: Denne attribut kan tage værdier

lade være med
Ja

# 4) Riveproduktionshastighed: Værdierne kan være

reduceret
normal

Klasse: Her defineres tre klassemærker. Disse er:

patienten skal være udstyret med hårde kontaktlinser.
patienten skal være udstyret med bløde kontaktlinser.
patienten bør ikke udstyres med kontaktlinser.

Klassedistribution: De forekomster, der klassificeres i klasselabels, er angivet nedenfor:

	Klassemærke	Antal tilfælde
1.	Hårde kontaktlinser	4
to.	Bløde kontaktlinser	5
3.	Ingen kontaktlinser	femten

iris.arff

iris.arff datasættet blev oprettet i 1988 af Michael Marshall. Det er Iris Plants-databasen.

iris.arff

hvad er en dat-fil mac

Database: Denne database bruges til mønstergenkendelse. Datasættet indeholder 3 klasser med 50 forekomster. Hver klasse repræsenterer en type irisplante. Den ene klasse kan adskilles lineært fra den anden 2, men sidstnævnte kan ikke adskilles lineært fra hinanden. Det forudsiger, hvilken art af de 3 irisblomster, observationen tilhører. Dette kaldes et klassificeringsdatasæt i flere klasser.

Egenskaber: Det har 4 numeriske, forudsigelige attributter og klassen. Der mangler ingen attributter.

Attributterne er:

sepal længde i cm
sepal bredde i cm
kronbladets længde i cm
kronbladets bredde i cm
klasse:
- Iris Setosa
- Iris Versicolor
- Iris Virginica

Resumé Statistik:

	Min	Maks	Betyde	SD	Klassekorrelation
sepal længde	4.3	7.9	5,84	0,83	0,7826
sepal bredde	2.0	4.4	3.05	0,43	-0,4194
kronbladets længde	1.0	6.9	3,76	1,76	0,9490 (høj!)
kronbladets bredde	0,1	2.5	1.20	0,76	0.9565 (høj!)

Klassefordeling: 33,3% for hver af 3 klasser

Nogle andre datasæt:

diabetes

Databasen til dette datasæt er Pima Indians Diabetes. Dette datasæt forudsiger, om patienten er tilbøjelig til at være diabetiker i de næste 5 år. Patienterne i dette datasæt er alle kvinder på mindst 21 år fra Pima Indian Heritage. Det har 768 forekomster og 8 numeriske attributter plus en klasse. Dette er et binært klassificeringsdatasæt, hvor den forudsagte outputvariabel er nominel bestående af to klasser.

ionosphere.arff

Dette er et populært datasæt til binær klassificering. Forekomsten i dette datasæt beskriver egenskaberne for radarretur fra atmosfæren. Det bruges til at forudsige, hvor ionosfæren har en eller anden struktur. Det har 34 numeriske attributter og en klasse.

Klasseattributten er “god” eller “dårlig”, hvilket forudsiges ud fra 34 attributters observation. De modtagne signaler behandles af autokorrelationsfunktion, der tager tidspuls og pulsnummer som argumenter.

Regressionsdatasæt

Regressionsdatasættene kan downloades fra WEKA-websiden “ Samlinger af datasæt ”. Det har 37 regressionsproblemer opnået fra forskellige kilder. Den downloadede fil opretter numerisk / bibliotek med regressionsdatasæt i .arff-format.

De populære datasæt, der findes i biblioteket, er: Longley økonomiske datasæt (longley.arff), Boston husprisdatasæt (Housing.arff) og sove i pattedyr datasæt (sleep.arff).

Lad os nu se, hvordan man identificerer reelle værdier og nominelle attributter i datasættet ved hjælp af WEKA explorer.

Hvad er reelle værdier og nominelle attributter

Reelle værdiansatte attributter er numeriske attributter, der kun indeholder reelle værdier. Disse er målbare størrelser. Disse attributter kan skaleres interval, såsom temperatur eller skaleret forhold, såsom gennemsnit, median.

Nominelle attributter repræsenterer navne eller en vis repræsentation af ting. Der er ingen rækkefølge i sådanne attributter, og de repræsenterer en kategori. For eksempel, farve.

Følg nedenstående trin for at bruge WEKA til at identificere reelle værdier og nominelle attributter i datasættet.

# 1) Åbn WEKA, og vælg 'Explorer' under 'Applikationer'.

WEKA Explorer

#to) Vælg fanen 'Forbehandling'. Klik på 'Åbn fil'. Med WEKA-bruger kan du få adgang til WEKA-eksempelfiler.

Vælg Forbehandling

# 3) Vælg inputfilen fra mappen WEKA3.8, der er gemt på det lokale system. Vælg den foruddefinerede .arff-fil 'credit-g.arff' -fil, og klik på 'Åbn'.

Vælg den foruddefinerede .arff-fil

# 4) En attributliste åbnes i venstre panel. Valgte attributstatistikker vises på højre panel sammen med histogrammet.

Analyse af datasættet:

I venstre panel viser den aktuelle relation:

Forholdet navn: german_credit er prøvefilen.
Forekomster: 1000 antal datarækker i datasættet.
Egenskaber: 21 attributter i datasættet.

Panelet under den aktuelle relation viser navnet på attributter.

I højre panel, den valgte attributstatistik vises. Vælg attribut “kontrol_status”.

Det viser:

Navnet på attributten
Mangler: Eventuelle manglende værdier for attributten i datasættet. 0% i dette tilfælde.
Tydelig: Attributten har 4 forskellige værdier.
Type: Attributten er af den nominelle type, dvs. det tager ikke nogen numerisk værdi.
Tælle: Blandt de 1000 forekomster skrives antallet af hver særskilt klasselabel i tællekolonnen.
Histogram: Det viser outputklassemærket for attributten. Klassemærket i dette datasæt er enten godt eller dårligt. Der er 700 tilfælde af godt (markeret med blåt) og 300 tilfælde af dårligt (markeret med rødt).
- Til etiketten<0, the instances for good or bad are almost the same in number.
- For etiket, 0<= X<200, the instances with decision good are more than instances with bad.
- Tilsvarende for maksimum forekomster for etiket> = 200 forekommer for evigt, og ingen kontroletiket har flere forekomster med beslutning god.

vælg attribut

For den næste attribut 'varighed'.

Det højre panel viser:

Navn: Dette er navnet på attributten.
Type: Attributttypen er numerisk.
Manglende værdi: Attributten har ingen manglende værdi.
Tydelig: Det har 33 forskellige værdier i 1000 tilfælde. Det betyder i 1000 tilfælde, at det har 33 forskellige værdier.
Enestående: Det har 5 unikke værdier, der ikke matcher hinanden.
Minimumsværdi: Den mindste værdi af attributten er 4.
Maksimal værdi: Den maksimale værdi for attributten er 72.
Betyde: Gennemsnit er at tilføje alle værdier divideret med forekomster.
Standardafvigelse: Afvigelse af attributvarighed.
Histogram: Histogrammet viser varigheden på 4 enheder, de maksimale forekomster forekommer for en god klasse. Da varigheden øges til 38 enheder, reduceres antallet af forekomster for etiketter af god klasse. Varigheden når 72 enheder, der kun har en forekomst, der klassificerer beslutningen som dårlig.

attribut

histogram

Klassen er klassificeringsfunktionen for den nominelle type. Det har to forskellige værdier: godt og dårligt. Den gode klasselabel har 700 forekomster, og den dårlige klasselabel har 300 forekomster.

Klassemærkning

For at visualisere alle attributterne i datasættet skal du klikke på “Visualiser alt”.

Visualiser alt

# 5) For at finde ud af kun numeriske attributter skal du klikke på knappen Filter. Derfra skal du klikke på Vælg -> WEKA> FILTER -> Uovervåget type -> Fjern type.

WEKA-filtre har mange funktioner til at omdanne attributværdierne i datasættet for at gøre det egnet til algoritmerne. For eksempel, den numeriske transformation af attributter.

Filtrering af de nominelle og reelle værdiansatte attributter fra datasættet er et andet eksempel på brug af WEKA-filtre.

Installer filter

# 6) Klik på Fjern type i filterfanen. Et vindue til objekteditor åbnes. Vælg attribut Skriv 'Slet numeriske attributter' og klik på OK.

Slet numeriske attributter

# 7) Anvend filteret. Kun numeriske attributter vises.

Klasseattributten er af den nominelle type. Det klassificerer output og kan derfor ikke slettes. Således ses det med den numeriske attribut.

Kun numerisk

Produktion:

Attributterne med reelle værdier og nominelle værdier i datasættet identificeres. Visualisering med klassemærket ses i form af histogrammer.

Weka beslutningstræ klassificeringsalgoritmer

Nu vil vi se, hvordan vi implementerer beslutningstræsklassificering på weather.nominal.arff-datasættet ved hjælp af J48-klassifikatoren.

weather.nominal.arff

Det er et eksempeldatasæt, der findes direkte fra WEKA. Dette datasæt forudsiger, om vejret er egnet til at spille cricket. Datasættet har 5 attributter og 14 forekomster. Klassemærket 'play' klassificerer output som 'ja' eller 'nej'.

Hvad er beslutningstræ

Beslutningstræ er klassificeringsteknikken, der består af tre komponenter rodknude, gren (kant eller link) og bladknude. Rød repræsenterer testbetingelsen for forskellige attributter, grenen repræsenterer alle mulige resultater, der kan være der i testen, og bladknudepunkter indeholder etiketten for den klasse, den tilhører. Rodknuden er ved starten af træet, som også kaldes toppen af træet.

J48 klassifikator

Det er en algoritme, der genererer et beslutningstræ, der genereres af C4.5 (en udvidelse af ID3). Det er også kendt som en statistisk klassifikator. For klassificering af beslutningstræer har vi brug for en database.

Trin inkluderer:

# 1) Åbn WEKA explorer.

#to) Vælg weather.nominal.arff-fil fra 'vælg fil' under indstillingen fane forbehandling.

Vælg datasæt

# 3) Gå til fanen 'Klassificer' for at klassificere de uklassificerede data. Klik på knappen 'Vælg'. Herfra skal du vælge “træer -> J48”. Lad os også se hurtigt på andre muligheder i knappen Vælg:

Bayes: Det er en densitetsestimering for numeriske attributter.
Meta: Det er en multi-respons lineær regression.
Funktioner: Det er logistisk regression.
Doven: Det indstiller blandingsentropien automatisk.
Herske: Det er en regel elev.
Træer: Træer klassificerer dataene.

Fanen Klassificer

# 4) Klik på Start-knappen. Klassificeringsudgangen kan ses på panelet til højre. Det viser kørselsoplysningerne i panelet som:

Ordning: Klassificeringsalgoritmen, der anvendes.
Forekomster: Antal datarækker i datasættet.
Egenskaber: Datasættet har 5 attributter.
Antallet af blade og størrelsen på træet beskriver beslutningstræet.
Det tog tid at bygge modellen: Tid til output.
Fuld klassificering af J48 beskåret med attributterne og antallet af forekomster.

Klassificerede outputoplysninger

Visualiser træet

# 5) For at visualisere træet skal du højreklikke på resultatet og vælge visualisere træet.

Produktion :

Outputtet er i form af et beslutningstræ. Hovedattributten er 'outlook'.

Hvis udsigterne er solrige, derefter analyserer træet yderligere fugtigheden. Hvis luftfugtigheden er høj, er klasse label play = “ja”.

Hvis udsigterne er overskyede, klassemærket, leg er 'ja'. Antallet af tilfælde, der overholder klassificeringen, er 4.

Hvis udsigten er regnfuld, yderligere klassificering finder sted for at analysere attributten 'blæsende'. Hvis blæsende = sandt, er spillet = “nej”. Antallet af tilfælde, der adlyder klassificeringen for udsigter = blæsende og blæsende = sandt, er 2.

Konklusion

WEKA tilbyder en bred vifte af eksempeldatasæt til anvendelse af algoritmer til maskinindlæring. Brugerne kan udføre maskinlæringsopgaver såsom klassificering, regression, attributvalg, tilknytning til disse eksempeldatasæt og kan også lære værktøjet ved hjælp af dem.

WEKA explorer bruges til at udføre flere funktioner, startende fra forbehandling. Forbehandling tager input som en .arff-fil, behandler input og giver et output, der kan bruges af andre computerprogrammer. I WEKA giver output af forbehandling de attributter, der er til stede i datasættet, som yderligere kan bruges til statistisk analyse og sammenligning med klassemærker.

WEKA tilbyder også mange klassificeringsalgoritmer til beslutningstræ. J48 er en af de populære klassificeringsalgoritmer, der outputter et beslutningstræ. Ved hjælp af fanen Klassificer kan brugeren visualisere beslutningstræet. Hvis beslutningstræet er for udfyldt, kan træbeskæring anvendes fra fanen Forbehandling ved at fjerne de attributter, der ikke kræves, og starte klassificeringsprocessen igen.

=> Besøg her for den eksklusive maskinlæringsserie

WEKA-datasæt, klassifikator og J48-algoritme til beslutningstræ

Udforskning af WEKA-datasæt

Eksempel på WEKA-datasæt

kontakt-linse

iris.arff

diabetes

ionosphere.arff

Regressionsdatasæt

Hvad er reelle værdier og nominelle attributter

Weka beslutningstræ klassificeringsalgoritmer

Hvad er beslutningstræ

J48 klassifikator

Konklusion

Anbefalet læsning

Interessante Artikler

Redaktørens Valg

Indsæt flere dokumenter i MongoDB ved hjælp af arrays

Pokemon GO-understøttelse af Pokemon Scarlet & Violet går live i dag

Du kan flyve fra Pikes Peak i DiRT Rally

Sådan fuldfører du Eye on the Prize-missionen i Disney Dreamlight Valley

Udgivelsesdato for modstand 2, samlerudgave og betaprogrammer annonceret

Sony slår Nintendo i Metacritics seneste årlige spiludgiverrangering

Top 35 Puppet Interview Spørgsmål og svar

Sådan får du adgang til One Piece Odysseys forudbestillingstøj

Spil i Latinamerika

15 år senere er Four Swords Adventures stadig det bedste Zelda-spil

Alt vist ved dagens Day of the Devs 10-års jubilæum

Hvilken ubesunget kampperle ville du gerne se skinne på EVO?