Masih merupakan kelanjutan dari artikel sebelumnya, yakni Menangani Missing Value Data Numerik dengan Nilai Mean pada R. Sebagai pengingat, sebelumnya kita sudah belajar menangani missing value pada data numerik dengan menggunakan nilai rata-rata (mean) dari keseluruhan kolom yang bersangkutan.
Nah untuk latihan kali ini adalah membuat pohon keputusan dari dataset hasil praproses dengan 2 (dua) skema pembagian dataset untuk membuat model dan menguji model yaitu sebagai berikut.
- 80% record dari dataset menjadi data training untuk membuat model, dan 20% record dari dataset menjadi data testing.
- menggunakan 10-fold cross validation.
Hasil untuk model nomor 1, yakni Random Sampling adalah sebagai berikut.
Gambar 1. Pohon Keputusan dengan Metode Random Sampling |
1. Membuat Decision Tree (Pohon Keputusan) dengan Metode Random Sampling
# 3.1 Decision Tree (Random Sampling)
ads <- read.csv(file="D:/internet.csv", header=TRUE, sep=",", dec=".")
str(ads)
set.seed(1234)
library(party)
# Create training set and testing set
sampel <- sample(2, nrow(ads), replace=TRUE, prob=c(0.8, 0.2))
trainData <- ads[sampel==1,]
testData <- ads[sampel==2,]
# Creating the model
atribut <- names(ads)
atribut <- atribut[-1559]
atribut <- paste(atribut,collapse = "+")
model <- paste("class ~",atribut)
model <-eval(parse(text=model))
ads_ctree <- ctree(model, data=trainData)
# Check the prediction
table(predict(ads_ctree), trainData$class)
print(ads_ctree)
plot(ads_ctree)
plot(ads_ctree, type="simple")
# Predict on test data
testPred <- predict(ads_ctree, newdata = testData)
table(testPred, testData$class)
Gambar 2. Hasil Eksekusi pada Console |
Untuk model nomor 2, yakni menggunakan 10-fold cross validation, akan kita kerjakan pada kesempatan berikutnya, disini. Jangan lupa subscribe agar dapat berlangganan artikel terbaru disini. Untuk versi video running-nya akan segera menyusul juga.
Sekian dulu, selamat mencoba.
No comments