weka tutorial how download
Denne WEKA-vejledning forklarer, hvad der er Weka Machine Learning-værktøj, dets funktioner, og hvordan man downloader, installerer og bruger Weka Machine Learning-software:
I Forrige vejledning , vi lærte om Support Vector Machine i ML og tilknyttede begreber som Hyperplane, Support Vectors & Applications of SVM.
Machine Learning er et videnskabsfelt, hvor maskiner fungerer som et kunstigt intelligent system. Maskinerne kan lære af sig selv uden at kræve nogen eksplicit kodning. Det er en iterativ proces, der får adgang til data, lærer af sig selv og forudsiger resultatet. Til udførelse af maskinlæringsopgaver kræves mange værktøjer og scripts.
WEKA er en maskinlæringsplatform, der består af mange værktøjer, der letter mange maskinlæringsaktiviteter.
=> Læs igennem den komplette serie af maskinlæringstræning
sql forespørgsler interview spørgsmål og svar til freshers
Hvad du vil lære:
- Hvad er WEKA
- Konklusion
Hvad er WEKA
Weka er et open source-værktøj designet og udviklet af forskerne / forskerne ved University of Waikato, New Zealand. WEKA står for Waikato Environment for Knowledge Analysis. Det er udviklet af det internationale videnskabelige samfund og distribueret under den gratis GNU GPL-licens.
WEKA er fuldt udviklet i Java. Det giver integration med SQL-databasen ved hjælp af Java Database-forbindelse. Det giver mange maskinlæringsalgoritmer til at implementere data mining-opgaver. Disse algoritmer kan enten bruges direkte ved hjælp af WEKA-værktøjet eller kan bruges med andre applikationer, der bruger Java-programmeringssprog.
Det giver en masse værktøjer til forbehandling af data, klassificering, klyngedannelse, regressionsanalyse, oprettelse af associeringsregel, ekstraktion af funktioner og datavisualisering. Det er et kraftfuldt værktøj, der understøtter udviklingen af nye algoritmer inden for maskinindlæring.
Hvorfor bruge WEKA Machine Learning Tool
Med WEKA er maskinindlæringsalgoritmerne let tilgængelige for brugerne. ML-specialisterne kan bruge disse metoder til at udtrække nyttige oplysninger fra store datamængder. Her kan specialisterne skabe et miljø til at udvikle nye maskinlæringsmetoder og implementere dem på ægte data.
WEKA bruges af maskinlæring og forskere inden for anvendt videnskab til læringsformål. Det er et effektivt værktøj til at udføre mange data mining-opgaver.
WEKA Download og installation
# 1) Download softwaren fra her .
Tjek konfigurationen af computersystemet, og download den stabile version af WEKA (i øjeblikket 3.8) fra denne side.
#to) Efter vellykket download skal du åbne filplaceringen og dobbeltklikke på den downloadede fil. Step Up-guiden vises. Klik på Næste.
# 3) Licensaftalens vilkår åbnes. Læs det grundigt, og klik på “Jeg er enig”.
# 4) I henhold til dine krav skal du vælge de komponenter, der skal installeres. Fuld komponentinstallation anbefales. Klik på Næste.
# 5) Vælg destinationsmappen, og klik på Næste.
# 6) Derefter starter installationen.
# 7) Hvis Java ikke er installeret i systemet, installerer det Java først.
# 8) Når installationen er afsluttet, vises følgende vindue. Klik på Næste.
# 9) Marker afkrydsningsfeltet Start Weka. Klik på Udfør.
# 10) Vinduet WEKA Tool og Explorer åbnes.
#elleve) WEKA-manualen kan downloades fra her.
Grafisk brugergrænseflade af WEKA
GUI af WEKA giver fem muligheder: Opdagelsesrejsende, eksperimentator, vidensflow, arbejdsbænk og enkel CLI. Lad os forstå hver af disse individuelt.
# 1) Enkel CLI
Simple CLI er Weka Shell med kommandolinje og output. Med “hjælp” kan oversigten over alle kommandoerne ses. Simple CLI giver adgang til alle klasser såsom klassifikatorer, klynger og filtre osv.
Nogle af de enkle CLI-kommandoer er:
- Pause: For at stoppe den aktuelle tråd
- Afslut: Gå ud af CLI
- Hjælp[] : Udsender hjælp til den angivne kommando
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: For at påberåbe sig en WEKA-klasse skal du præfikse den med Java. Denne kommando vil lede WEKA til at indlæse klassen og udføre den med givne parametre. I denne kommando påkaldes J48-klassifikator i IRIS-datasættet.
# 2) Stifinder
WEKA Explorer-vinduerne viser forskellige faner, der starter med forbehandling. Oprindeligt er fanebladet forbehandling aktiv, da først datasættet forbehandles, før algoritmer anvendes på det og udforskes datasættet.
Fanerne er som følger:
- Forbehandling: Vælg og rediger de indlæste data.
- Klassificer: Anvend trænings- og testalgoritmer på de data, der klassificerer og regresserer dataene.
- Klynge: Form klynger ud fra dataene.
- Associeret: Udrul associeringsregel for dataene.
- Vælg attributter: Foranstaltninger til valg af attributter anvendes.
- Visualiser: 2D-repræsentation af data ses.
- Statuslinje: Det nederste afsnit af vinduet viser statuslinjen. Dette afsnit viser, hvad der i øjeblikket sker i form af en besked, f.eks. En fil indlæses. Højreklik på dette, Hukommelse Information kan ses, og også Løb affald samler for at frigøre plads kan køres.
- Logknap: Den gemmer en logbog over alle handlinger i Weka med tidsstemplet. Logfiler vises i et separat vindue, når der klikkes på knappen Log.
- WEKA fugleikon: Til stede i nederste højre hjørne viser WEKA-fugl med repræsenterer antallet af processer, der kører samtidigt (ved x.). Når processen kører, vil fuglen bevæge sig rundt.
# 3) Eksperimentator
WEKA-eksperimentknappen giver brugerne mulighed for at oprette, køre og ændre forskellige ordninger i et eksperiment på et datasæt. Eksperimenteren har to typer konfiguration: Enkel og avanceret. Begge konfigurationer giver brugerne mulighed for at køre eksperimenter lokalt og på fjerncomputere.
- Knappen “Åbn” og “Ny” åbner et nyt eksperimentvindue, som brugerne kan gøre.
- Resultater: Indstil resultatdestinationsfilen fra ARFF, JDFC og CSV-fil.
- Eksperiment type: Brugeren kan vælge mellem krydsvalidering og deling af tog / testprocent. Brugeren kan vælge mellem Klassifikation og Regression baseret på det anvendte datasæt og klassifikator.
- Datasæt: Brugeren kan gennemse og vælge datasæt herfra. Afkrydsningsfeltet for den relative sti er markeret, hvis du arbejder på forskellige maskiner. Formatet for datasæt, der understøttes, er ARFF, C4.5, CSV, libsvm, bsi og XRFF.
- Iteration: Standard iterationsnummeret er indstillet til 10. Datasæt først, og algoritmer hjælper først med at skifte mellem datasæt og algoritmer, så algoritmer kan køres på alle datasæt.
- Algoritmer: Nye algoritmer tilføjes af “Ny knap”. Brugeren kan vælge en klassifikator.
- Gem eksperimentet ved hjælp af knappen Gem.
- Kør eksperimentet ved hjælp af knappen Kør.
# 4) Videnstrøm
Videnflow viser en grafisk gengivelse af WEKA-algoritmer. Brugeren kan vælge komponenterne og oprette en arbejdsgang til at analysere datasættene. Dataene kan håndteres batchvis eller trinvist. Parallelle arbejdsgange kan designes, og hver kører i en separat tråd.
De forskellige tilgængelige komponenter er Datakilder, dataservere, filtre, klassifikatorer, klynger, evaluering og visualisering.
# 5) Arbejdsbænk
WEKA har workbench-modul, der indeholder alle GUI'erne i et enkelt vindue.
Funktioner af WEKA Explorer
# 1) datasæt
Et datasæt er lavet af elementer. Det repræsenterer et objekt for eksempel: i marketingdatabasen vil den repræsentere kunder og produkter. Datasættene er beskrevet af attributter. Datasættet indeholder datatuppler i en database. Et datasæt har attributter, der kan være nominelle, numeriske eller streng. I Weka er datasættet repræsenteret af weka.core.Instances klasse.
Repræsentation af datasæt med 5 eksempler:
@data
solrig, FALSK, 85,85, nr
solrig, SAND, 80,90, nr
overskyet, FALSK, 83,86, ja
regnfuld, FALSK, 70,96, ja
regnfuld, FALSK, 68,80, ja
Hvad er en attribut?
En attribut er et datafelt, der repræsenterer karakteristikken for et dataobjekt. For eksempel, i en kundedatabase er attributterne customer_id, customer_email, customer_address osv. Attributter har forskellige typer.
Disse mulige typer er:
A) Nominelle attributter: Attribut, der vedrører et navn og har foruddefinerede værdier såsom farve, vejr. Disse attributter kaldes kategoriske attributter . Disse attributter har ingen rækkefølge, og deres værdier kaldes også enumerationer.
@attribute outlook {solrig, overskyet, regnfuld}: erklæring om den nominelle attribut.
B) Binære egenskaber: Disse attributter repræsenterer kun værdierne 0 og 1. Dette er typen af nominelle attributter med kun 2 kategorier. Disse attributter kaldes også boolsk.
C) Ordinære attributter: De attributter, der bevarer en vis orden eller rangordning blandt dem, er ordinære attributter. Efterfølgende værdier kan ikke forudsiges, men kun orden opretholdes. Eksempel: størrelse, lønklasse osv.
D) Numeriske attributter: Attributter, der repræsenterer målbare størrelser, er numeriske attributter. Disse er repræsenteret af reelle tal eller heltal. Eksempel: temperatur, fugtighed.
@attribute fugtighed ægte: erklæring af en numerisk attribut
E) Strengattributter: Disse attributter repræsenterer en liste med tegn, der er repræsenteret i dobbelt anførselstegn.
# 2) ARFF-dataformat
WEKA arbejder på ARFF-filen til dataanalyse. ARFF står for Attribute Relation File Format. Den har 3 sektioner: relation, attributter og data. Hvert afsnit starter med “@”.
ARFF-filer tager data- attributterne Nominel, Numerisk, String, Dato og relation. Nogle af de kendte datasæt til maskinindlæring er til stede i WEKA som ARFF.
Format for ARFF er:
@relation
@attribut
@data
Et eksempel på en ARFF-fil er:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) XRFF-dataformat
XRFF står for XML-attribut Relation File Format. Det repræsenterer data, der kan gemme kommentarer, attributter og instansvægte. Det har filtypenavnet .xrff og .xrff.gz (komprimeret format). XRFF-filerne repræsenterede data i XML-format.
# 4) Databaseforbindelse
Med WEKA er det let at oprette forbindelse til en database ved hjælp af en JDBC-driver. JDBC-driver er nødvendig for at oprette forbindelse til databasen, eksempel:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Oracle (oracle.jdbc.driver.OracleDriver)
# 5) Klassifikatorer
For at forudsige outputdata indeholder WEKA klassifikatorer. Klassifikationsalgoritmerne, der er tilgængelige til læring, er beslutningstræer, understøttende vektormaskiner, instansbaserede klassifikatorer og logistisk regression og Bayesiske netværk. Afhængigt af kravet ved hjælp af test og test kan brugeren finde ud af en passende algoritme til analyse af data. Klassifikatorer bruges til at klassificere datasættene baseret på egenskaberne ved attributterne.
# 6) Klyngedannelse
WEKA bruger fanen Cluster til at forudsige lighederne i datasættet. Baseret på klyngedannelse kan brugeren finde ud af de attributter, der er nyttige til analyse, og ignorere andre attributter. De tilgængelige algoritmer til klyngedannelse i WEKA er k-middel, EM, Spindelvæv, X-middel og FarhtestFirst.
# 7) Forening
Den eneste algoritme, der er tilgængelig i WEKA til at finde ud af tilknytningsregler, er Apriori.
# 8) Attributtersektionsforanstaltninger
WEKA bruger to tilgange til det bedste attributvalg til beregningsformål:
- Brug af søgemetodealgoritme: Bedste-første, fremadrettet valg, tilfældig, udtømmende, genetisk algoritme og ranking-algoritme.
- Brug af algoritmer til evalueringsmetode: Korrelationsbaseret, indpakning, informationsgevinst, chi-kvadrat.
# 9) Visualisering
WEKA understøtter 2D-repræsentation af data, 3D-visualiseringer med rotation og 1D-repræsentation af enkelt attribut. Det har 'Jitter' mulighed for nominelle attributter og 'skjulte' datapunkter.
Andre hovedtræk ved WEKA er:
- Det er et open source-værktøj med grafisk brugergrænseflade i form af “Explorer”, “Experimenter” og “Knowledge Flow”.
- Det er platformuafhængigt.
- Den indeholder 49 dataforbehandlingsværktøjer.
- 76 klassificerings- og regressionsalgoritmer, 8 klyngealgoritmer er til stede i WEKA
- Det har 15 attributudvælgelsesalgoritmer og 10 funktionsudvælgelsesalgoritmer.
- Det har 3 algoritmer til at finde tilknytningsregel.
- Brug af WEKA kan brugerne udvikle brugerdefineret kode til maskinindlæring.
Konklusion
I denne WEKA-vejledning gav vi en introduktion til open source WEKA Machine Learning Software og forklarede trin for trin download og installationsproces. Vi har også set de fem muligheder, der er tilgængelige for Weka grafisk brugergrænseflade, nemlig Explorer, Experimenter, Knowledge flow, Workbench og Simple CLI.
Vi har også lært om funktionerne i WEKA med eksempler. Funktionerne inkluderer datasæt, ARFF-dataformat, databaseforbindelse osv.
=> Besøg her for den eksklusive maskinlæringsserie
Anbefalet læsning
- WEKA-datasæt, klassifikator og J48-algoritme til beslutningstræ
- WEKA Explorer: Visualisering, klyngedannelse, Association Rule Mining
- 11 mest populære maskinlæringssoftwareværktøjer i 2021
- En komplet guide til kunstigt neuralt netværk inden for maskinlæring
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- Machine Learning Tutorial: Introduktion til ML og dens applikationer
- Top 13 BEDSTE maskinindlæringsvirksomheder [Opdateret 2021-liste]
- Hvad er SVM (Support Vector Machine) i maskinindlæring