Klasifikasi Decision Tree, Naïve Bayes dan K-Nearest (KNN)
(ASSIGNMENT 5)
DECISION TREE
Decision Tree adalah salah satu metode klasifikasi yang paling popular karena mudah diinterpresikan oleh manusia. Decision Tree digunakan untuk pengenalan pola dan termasuk dalam pengenalan pola secara statistic.
Struktur Decision Tree dibagi menjadi 3 simpul yaitu:
- Simpul Leaf: membuat suatu keputusan akhir atau target untuk suatu keputusan yang tepat.
- Simpul Root: titik awal dari suatu decision tree.
- Simpul Perantara: berhubungan dengan pertanyaan atau pengujian.
Konsep data dalam decision tree:
- Data dinaytakan dalam bentuk table dengan atribut dan record.
- Atribut menyatakan suatu parameter yang dibuat sebangai kriteria dalam pembentukan tree. Misalkan untuk menentukan bermain golf, kriteria yang diperhatikan adalah cuaca, angina dan temperature. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut dengan target atribut.
- Atribut memiliki nilai – nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan.
NAIVE BAYES
Naive bayesian klasifikasi adalah suatu klasifikasi berpeluang sederhana berdasarkan aplikasi teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal ini, di asumsikan bahwa kehadiran atau ketiadaan dari suatu kejadian tertentu dari suatu kelompok tidak berhubungan dengan kehadiran atau ketiadaan dari kejadian lainnya.
Naive Bayesian dapat digunakan untuk berbagai macam keperluan antara lain untuk klasifikasi dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi lainnya. Dalam hal ini lebih disorot mengenai penggunaan teorema Naive Bayesian untuk spam filtering
Teorema Naive Bayesian memiliki beberapa kelebihan dan kekurangan yaitu sebagai berikut:
Keuntungan Naive Bayesian:
- Menangani kuantitatif dan data diskrit
- Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata – ratakan ketika mengestimasi peluang bersyarat data.
- Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi parameter (rata – rata dan variansi dari variabel) yang dibutuhkan untuk klasifikasi.
- Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan estimasi peluang
- Cepat dan efisiensi ruang
- Kokoh terhadap atribut yang tidak relevan
Kekurangan Naive Bayesian:
- Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas prediksi akan bernilai nol juga
- Mengasumsikan variabel bebas
Tahapan proses Naive Bayes:
- Menghitung jumlah kelas / label
- Menghitung Jumlah Kasus Per Kelas
- Kalikan Semua Variable Kelas
- Bandingkan Hasil Per Kelas
KNN
K-nearest neighbor adalah algoritma supervised learning dimana hasil dari instance yang baru diklasifikasikan berdasarkan mayoritas dari kategori K-tetangga terdekat. Tujuan dari algoritma ini adalah untuk mengklasifikasikan obyek baru berdasarkan atribut dan sampel-sampel dari data training. Algoritma K Nearest neighbor menggunakan neighborhood classification sebagai nilai prediksi dari nilai instance yang baru.
(ASSIGNMENT 4)
Sebelumnya saya akan menjelaskan tentang Mechine learning itu sendiri merupakan sebuah pembahasan mengenai bagaimana sebuah mesin belajar dalam mengenali bahasa manusia untuk di manfaat kedalam kehidupan manusia. Proses yang terlibat berupa rumus-rumus yang cukup rumit, dan proses trial dan error dari berbagai pihak. Ilmu ini memungkinkan komputer untuk dapat belajar tanpa perlu diprogram lagi. Mechine learning dapat mengkaji aneka algoritma yang dapat mempelajari suatu data kemudian membuat keputusan atau prediksi berdasarkan data tersebut.
Langkah awal yang saya lakukan adalah membuka aplikasi Orange dan membuat new workflow, kemudian langkah selanjutnya saya memasukan file data pemilu pada kolom file kemudian saya mengklik tree dan treeviewer seperti pada gambar ini.
Proses selanjutnya yaitu melanjutkan dengan saya mengklik ikon file lalu mengganti “numeric” menjadi “categorical” dan menggantikan menjadi “target”.
Setelah itu saya menyusun widget-widget dimana test dan score yang saya akan gunakan adalah dessicion tree, naive bayes dan kNN.
Setalah itu saya akan mengklik ikon tree viewer sehabis itu akan muncul visualisasi seperti gambar dibawah ini yang menjelaskan calon legislatif mana yang terpilih dan yang tidak terpilih.
Setelah itu kita mengklik scatter plot lalu akan muncul visualisasi data yang akan berbentuk titik yang dimana sumbu X adalah “Nama Partai Politik” dan sumbu Y “Suara Caleg” dan dapat saya simpulkan bahwa Partai Politik yang mempunyai suara caleg terbanyak akan terpilih nantinya menjadi bagian Legislatif.
Hasil dari Sampling Cross Validation menggunakan number 10 fold X Validation menggunakan NB dan kNN :
(ASSIGNMENT 3)
Dari data grafik diatas, dapat kita lihat bahwa presentase pengguna medsos di bulan Januari 2016 yaitu Facebook karena hampir semua orang menggunakan nya yakni mencapai angka 1,6 Miliar jiwa total populasi pemakai nya. Setelah itu kita lihat di posisi ke dua ada WhatsApp dengan jumlah 900 juta pengguna nya, applikasi kedua ini berbeda dengan Facebook karena WhatsApp lebih ke chat saja tidak seperti Facebook yang bisa meng-upload foto maupun video. Lalu di posisi ke tiga ada Facebook Messenger dengan perolehan pengguna nya 800 juta orang, kegunaan nya hanya untuk chat lewat smartphone saja, sedangkan kalo di PC maupun Laptop tidak perlu menggunakan Facebook Messenger karena sudah ada langsung tempat untuk chat dengan teman maupun kerabat lain-nya. Kita lihat posisi selanjutnya ada WeChat dengan jumlah pengguna nya 650 juta orang, applikasi ini bisa dibilang cepat buming pada masanya dan cepat hilang juga karena banyak nya pesain pada masa itu. Untuk selanjutnya di tempati oleh Tumblr applikasi satu ini berbeda dari yang sebelumnya karena manfaatnya pun berbeda. Tumblr adalah applikasi orang mencari foto yang bagus seperti yang kita inginkan misalnya paradise ataupun summer dll. Applikasi ini menduduki di posisi 555 juta pengikutnya dan sampe sekarangpun masih digunakan untuk inspirasi gambar atau lain nya. Dst.nya
Sekian lampiran yang saya post kali ini, Mohon maaf apabila masih ada keselahan-kesalahan. Terimakasih.
Sumber :
http://databoks.katadata.co.id/datapublish/2016/08/05/pengguna-media-sosial-januari-2016#
(ASSIGNMENT 2)
Berikut saya lampirkan lokasi postingan foto di Instagram yang saya post selama ini.
Lokasi Posting |
Jumlah |
Hutan Mangrove PIK |
3 |
Bistronomy Café |
3 |
Malang |
6 |
Yogya |
4 |
Bandung |
9 |
Telkom University |
3 |
Studio Foto NawaFactory |
2 |
Rs. OMNI |
1 |
Jonas Foto |
2 |
Jakarta |
8 |
Bisa kita lihat data diatas saya simpulkan bahwa tiga besar tempat yang paling saya sering datangi saat menggunakan applikasi Instagram di Bandung yang berpresentasi 22% pada urutan pertama dengan total 9 postingan, sedangkan untuk yang berada urutan kedua yang saya kunjungi adalah Jakarta dengan jumlah presentasi 20% dengan total 8 postingan, dan terakhir yang ketika tempat yang saya kunjungi yaitu Malang dengan jumlah presentasi 15% dengan total 6 postingan.
Selanjutnya, saya telah lampirkan data dari Instagram saya tentang bulan berapa saya sering memposting foto maupun video.
Bulan Posting |
Jumlah Posting |
February |
2 |
March |
2 |
May |
7 |
June |
3 |
July |
8 |
August |
7 |
September |
4 |
October |
3 |
November |
2 |
December |
3 |
Dari data yang saya lampirkan diatas, saya dapat menyimpulkan bahwa Instagram saya paling aktif memposting foto ataupun video pada urutan pertama adalah bulan July dengan total 8 postingan, diikuti bulan May dan August dengan total 7 postingan, dan terakhir bulan ketiga yang paling aktif adalah bulan September dengan total 4 kali posting.
Sekian lampiran yang saya post kali ini, mohon maaf apabila masih ada keselahan-kesalahan. Sekian dan Terimakasih.
Sumber :
Instagram @ghinadwir
(ASSIGNMENT 1)
Starbucks Corporation adalah sebuah perusahaan kopi dan jaringan kedai kopi global asal Amerika Serikat yang berkantor pusat di Seattle, Washington yang didirikan pada tahun 1971. Starbucks adalah perusahaan kedai kopi terbesar di dunia, dengan 20.336 kedai di 61 negara, termasuk 13.123 di Amerika Serikat, 1.299 di Kanada, 977 di Jepang, 793 di Britania Raya, 732 di Cina, 473 di Korea Selatan, 363 di Meksiko, 282 di Taiwan, 204 di Filipina, dan 164 di Thailand.
Starbucks menjual minuman panas dan dingin, biji kopi, salad, sandwich panas dan dingin, kue kering manis, camilan, dan barang-barang seperti gelas dan tumbler. Melalui divisi Starbucks Entertainment dan merek Hear Music, perusahaan ini juga memasarkan buku, musik, dan film. Banyak di antara produk perusahaan yang bersifat musiman atau spesifik terhadap daerah tempat kedai berdiri. Es krim dan kopi Starbucks juga dijual di toko grosir.
Sejak didirikan tahun 1971 di Seattle sebagai pemanggang dan pengecer biji kopi setempat, Starbucks meluas dengan cepat. Pada tahun 1990-an, Starbucks membuka kedai baru setiap hari kerja, satu tahap yang terus dilanjutkan sampai tahun 2000-an. Kedai pertama di luar Amerika Serikat atau Kanada dibuka pada pertengahan 1990-an, dan jumlah kedainya di luar negeri mewakili sepertiga dari total kedai Starbucks di seluruh dunia. Perusahaan ini berencana membuka 900 kedai baru di luar Amerika Serikat pada tahun 2009, dan telah menutup 300 kedai di Amerika Serikat sejak 2008.
PROBLEM
- Masalah dari starbucks ini adalah ingin membentuk Starbucks sebagai suatu brand yang terkenal, walaupun orang tidak mengetahui secara jelas bidang usaha yang dijalankan, tetapi masyarakat merasa familiar dengan merek starbucks.
- Menjadikan starbucks sebagai merek terkenal dan dihargai. Menjadi nomor satu atau diatas brand lainnya dalam jangka waktu tak terbatas.
- Starbucks ingin memperbanyak gerai dan pelanggannya di berbagai daerah agar dapat dikenal dengan banyak masyarakat di seluruh dunia dan juga Starbucks ingin membuat perusahaannya diakui sebagai Number One Coffe Store dimata pelanggan
SOLUTION IDEA
Starbucks Ubiquity adalah pengaturan dalam penempatan letak gerai baru yang akan dibangun oleh starbucks berdasarkan pengumpulan dari “big data”. Dalam pengimplementasiannya Starbucks memanfaatkan data dari ESRI (Environmental Systems Research Institut).
METHODOLOGY
Methodology yang digunakan adalah dengan Data mining yang memiliki pengertian Serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu big data dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.
Pengumpulan big data tersebut di dapat dari data demografi konsumen, kepadatan penduduk, tingkat pendapatan dan pola lalu lintas dari ESRI (Environmental Systems Research Institut). Dengan menganalisis secara data ini, Starbucks mampu memproyeksikan lalu lintas kaki dan rata-rata pelanggan menghabiskan waktu dari lokasi tertentu, sehingga membantu Starbucks untuk menentukan kelayakan ekonomi dari pembukaan lokasi gerai selanjutnya.
MODEL
Model data mining yang digunakan Starbucks Ubiquity adalah Association Analysis yaitu suatu teknik dalam data mining untuk menentukan hubungan antara satu hal dengan hal yang lain di dalam sekumpulan data. Model ini diturunkan dari terminologi market basket analysis, yaitu pencarian hubungan dari beberapa produk di dalam suatu transaksi.
Data yang terhubung antara lain :
- Pola lalu lintas
- Variabel Demografi
- Kepadatan penduduk
- Tingkat pendapatan
ACCURACY
Aplikasi yang digunakan oleh perusahaan Starbucks Coffe dengan menggunakan big data yang telah disediakan bahwa selalu mengalami kenaikan jumlah yang terus bertambah disetiap tahun nya. Berawal pada tahun 1987 yang hanya memiliki 17 kedai dan sekarang sudah mengalami kenaikan yang meningkat sejumlah 23.571 kedai di berbagai negara kurang lebih 60 negara.
REFERENSI
https://id.wikipedia.org/wiki/Starbucks
https://qz.com/208457/a-cartographic-guide-to-starbucks-global-domination/
http://www.dosenpendidikan.com/10-pengertian-dan-model-serta-metode-data-mining/
https://komunitas.bukalapak.com/s/mbr60s/strategi_starbucks_untuk_menjadi_kedai_kopi_terkemuka_di_dunia