Makalah Analisa Clustering

Oleh Dimas Alif

295,5 KB 4 tayangan 0 unduhan
 


Bagikan artikel

Transkrip Makalah Analisa Clustering

MAKALAH ANALISA CLUSTERING Oleh : Dedi Kurniawan (14.01.53.0081) Dimas Alif A (14.01.53.0065) Pradipta (14.01.53.0082) FAKULTAS TEKNOLOGI INFORMASI UNIVERSITAS STIKUBANK (UNISBANK) SEMARANG 2018 BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan(kemiripan).Clustering beda dengan group, kalau group berarti kelompok yang sama,kondisinya kalau tidak ya pasti bukan kelompoknya.Tetapi kalau cluster tidak harus sama akan tetapi pengelompokannya berdasarkan pada kedekatan dari suatu karakteristik sample yang ada, salah satunya dengan menggunakan rumus jarak ecluidean.Aplikasinya cluster ini sangat banyak, karena hamper dalam mengidentifikasi permasalahan atau pengambilan keputusan selalu tidak sama persis akan tetapi cenderung memiliki kemiripan saja Menurut Tan, 2006 clustering adalah sebuah proses untuk mengelompokan data ke dalam beberapa cluster atau kelompok sehingga data dalam satu cluster memiliki tingkat kemiripan yang maksimum dan data antar cluster memiliki kemiripan yang minimum. Analisis cluster terbagi atas dua metode,yaitu hirarki dan non hirarki.Dalam metode hirarki terdapat 3 metode antara lain metode Complete Linkage, Average Linkage dan Ward’sLinkage.Tujuannya yaitu untuk mengetahui daerah mana saja yang memiliki kedekatan ataukemiripan. Untuk mengetahui setiap kelompok memiliki perbedaan yang signifikan, maka digunakan uji MANOVA untuk dapat membuktikan perbedaan setiap kelompok. Fokus dari analisis cluster adalah membandingkan objek berdasarkan set variabel, hal inilah yang menyebabkan para ahli mendefinisikan set variabel sebagai tahap kritis dalam analisis cluster. Set variabel cluster adalah suatu set variabelyang mempresentasikan karakteristik yang dipakai objek-objek. Bedanya dengan analisis faktor adalah bahwa analisis cluster terfokus pada pengelompokan objek sedangkan analisis faktor terfokus pada kelompok variabel. Dari uraian mengenai permasalahan diatas penulis mengambil sebuah studi berupa data Panen Tanaman Hias di derah Jakarta yang datanya saya ambil dari web data.go.id sebagai bahan untuk di kelola lebih lanjut. Data tersebut akan penulis kelompokan ke dalam beberapa cluster dengan kesamaan karakteristik yang kuat, yaitu berdasarkan type dan merk . Ada pun salah satu jurnal yang dibuat oleh Amaliyah (2014) . Dalam jurnalnya penulis melakukan penelitian berjudul “Pengelompokan Kabupaten/Kota di Jawa Timur Berdasarkan Indikator Indonesia Sehat 2010”, terdapat 7 kelompok dengan metode Complete Linkage dari 38 kabupaten/ kota oleh karena itu pada penelitian ini menggunakan metode Analisis Cluster Hirarki untuk pengelompokan dan pemetaan kabupaten/kota di provinsi jawa timur berdasarkan indicator IPM sehingga nantinya dihasilkan beberapa kelompokkelompok yang berbeda yang dapat menunjukan karakteristik masing-masing dari setiap kelompok tersebut. Sebelum melakukan pengelompokan menggunakan analisis cluster, maka perlu dilakukan analisis faktor terlebih dahulu untuk mereduksi variable dan dilanjutkan dengan pengelompokan kabupaten/kota di Provinsi Jawa Timur menggunakan analisis Cluster. Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap penyelesaian/solusi tergantung pada beberapa elemen prosedur dan beberapa solusi yang berbeda dapat diperoleh dengan mengubah satu elemen atau lebih. Solusi cluster secara keseluruhan bergantung pada variabel-variaabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasi analisisi cluster.Clustering juga dikenal sebagai data segmentasi karena clustering mempartisi banyak data set ke dalam banyak group berdasarkan kesamaannya. Proses klastering akan dilakukan menggunakan bahasa dan software aplikasi RGui . Selain itu clustering juga bisa sebagai outlier detection. 1.2 Rumusan Masalah Berdasarkan uraian pada permasalahan yang penulis kemukakan diatas dapat dirumuskan permasalahannya yaitu : 1.2.1 Bagaimana kajian deduktif induktif metode Klastering Data dalam pembentukan kluster suatu data? 1.2.2 Bagaimana penerapan metode klastering data dalam pembentukan klaster pada panen tanaman hias di daerah Jakarta. BAB II TINJAUAN PUSTAKA 2.1 Kajian Deduktif 2.1.1 Definisi Analisi Cluster Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis cluster mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya dengan objek lain berada dalam cluster yang sama. Cluster-cluster yang terbentuk memiliki homogenitas internal yang tinggi dan heterogenitas eksternal yang tinggi. Ada lima metode aglomerasi dalam pembentukan cluster, yatiu : 1. Pautan Tunggal (Single Linkage) Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling pendek maka keduanya akan ditempatkan pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama pendekatan tetangga terdekat. 2. Pautan Lengkap (Complete Linkage) Disebut juga pendekatan tetangga terjauh. Dasarnya adalah jarak maksimum.Dalam metode ini seluruh objek dalam suatu cluster dikaitkan satu sama lain pada suatu jarak maksimum atau dengan kesamaan minimum. 3. Metode Ward (Ward’s Method) Dalam metode ini jarak antara dua cluster adalah jumlah kuadrat antara duacluster untuk seluruh variabel. Metode ini cenderung digunakan untuk mengkombinasi cluster-cluster dengan jumlah kecil. 4. Pautan Rata-rata (Average Linkage) Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai daritengan atau pasangan observasi dengan jarak paling mendekati jarak ratarata. 5. Metode Centroid Jarak antara dua cluster adalah jarak antar centroid cluster tersebut. Centroidcluster adalah nilai tengah observasi pada variabel dalam suatu set variabel cluster. 2.1.2 Bahasa R Pemrograman R (juga dikenal sebagai GNU S) adalah bahasa pemrograman dan perangkat lunak untuk analisis statistika dan grafik. R dibuat oleh Ross Ihaka dan Robert Gentleman di Universitas Auckland, Selandia Baru, dan kini dikembangkan oleh R Development Core Team, di mana Chambers merupakan anggotanya. R dinamakan sebagian setelah nama dua pembuatnya (Robert Gentleman dan Ross Ihaka), dan sebagian sebagian dari permainan nama dari S.Bahasa R kini menjadi standar de facto di antara statistikawan untuk pengembangan perangkat lunak statistika, serta digunakan secara luas untuk Kode sumbernya tersedia secara bebas di bawah Lisensi Publik Umum GNU, dan versi biner prekompilasinya tersedia untuk berbagai sistem operasi. R menggunakan antarmuka baris perintah, meski beberapa antarmuka pengguna grafik juga tersedia.R menyediakan berbagai teknik statistika (permodelan linier dan nonlinier, uji statistik klasik, analisis deret waktu, klasifikasi, klasterisasi, dan sebagainya) serta grafik. R, sebagaimana S, dirancang sebagai bahasa komputer sebenarnya, dan mengizinkan penggunanya untuk menambah fungsi tambahan dengan mendefinisikan fungsi baru. Kekuatan besar dari R yang lain adalah fasilitas grafiknya, yang menghasilkan grafik dengan kualitas publikasi yang dapat memuat simbol matematika. R memiliki format dokumentasi seperti LaTeX, yang digunakan untuk menyediakan dokumentasi yang lengkap, baik secara daring (dalam berbagai format) maupun secara cetakan (definisi: Wikipedia). 2.2 Kajian Induktif Menurut penelitian yang dilakukan oleh Amaliyah (2014) . Dalam jurnalnya penulis melakukan penelitian berjudul “Pengelompokan Kabupaten/Kota di Jawa Timur Berdasarkan Indikator Indonesia Sehat 2010”, terdapat 7 kelompok dengan metode Complete Linkage dari 38 kabupaten/ kota oleh karena itu pada penelitian ini menggunakan metode Analisis Cluster Hirarki untuk pengelompokan dan pemetaan kabupaten/kota di provinsi jawa timur berdasarkan indicator IPM sehingga nantinya dihasilkan beberapa kelompok-kelompok yang berbeda yang dapat menunjukan karakteristik masing-masing dari setiap kelompok tersebut. Sebelum melakukan pengelompokan menggunakan analisis cluster, maka perlu dilakukan analisis faktor terlebih dahulu untuk mereduksi variable dan dilanjutkan dengan pengelompokan kabupaten/kota di Provinsi Jawa Timur menggunakan analisis Cluster. Menurut penelitian oleh Nur Afifah Amalia(2016) dalam jurnal penelitiannya yang berjudul “Analisis Clustering Perusahaan Sub Sektor Perbankan berdasarkan rasio Keuangan CAMELS tahun 2014 menggunakan metodeFuzzy C-Means” menyatakan bahwa Sub sektor perbankan merupakan salah satu sub sektor keuangan yang memiliki kontribusi cukup tinggi dalam hal penginvestasian saham. Kondisi saham yang tidak menentu setiap tahunnya, membuat para investor kesulitan untuk memilih saham mana yang akan dipilih. Hal ini menyebabkan setiap bank harus mampu memperlihatkan suatu kinerja yang baik dan maksimal dimata para investor saham.. Setelah didapatkan data rasio keuangan, seorang investor sebaiknya melakukan pengelompokkan perusahaan berdasarkan rasio keuangan tersebut agar investasi yang dilakukan memberikan keuntungan yang maksimal. Selama ini, metode pengelompokkan yang sering digunakan berupa metode hirarki. Oleh karena itu, peneliti tertarik untuk mengelompokkan rasio keuangan menggunakan metode non hirarki yaitu Fuzzy C-Meansdan Fuzzy Gustafson Kessel.Pada penelitian ini diperoleh kondisi optimum untuk kedua metode berdasarkan nilai Index XB sebanyak 2 cluster dengan metode terbaik adalah metode Fuzzy Gustafson Kessel berdasarkan nilai icdrate terkecil yaitu sebesar 0,7232 .Hasil karakteristik berupa statistika deskriptif menghasilkan bahwa ada perbedaan nilai median di setiap cluster pada masing-masing rasio keuangan dengan rata-rata nilai median tertinggi terjadi pada hasil pengelompokkan di clusterke 2 dan ukuran penyebaran data terbesar terjadi pada cluster ke 1. Berdasarkan jumlah cluster optimum dan metode terbaik, maka hasil pengujian MANOVA menghasilkan bahwa tidak ada perbedaan karakteristik antar clusterterhadap respon. BAB III METODE PENELITIAN 3.1 OBJEK PENELITIAN Objek dari analisis Clustering data panen tanaman hias diambil dari website data.go.id 3.2 METODE PENGUMPULAN DATA Berikut adalah metode pengumpulan data dalam penelitian ini 3.2.1 Studi Literatur Pengumpulan data dilakukan dengan cara mempelajari, meneliti dan menelaah berbagai literatur yang bersumber dari buku, situs internet, jurnal ilmiah, dan sumber – sumber lainnya yang berkaitan dengan penelitian yang dilakukan. 3.2.2 Pengumpulan Data Panen Tanaman Hias Pengumpulan data panen tanaman hias dilakukan dengan menggunakan sumber data primer yang diambil dari website data.go.id 3.2.3 Observasi Observasi yang dilakukan ialah mengamati data panen tanaman hias yang akan di analisis yang bersinggungan dengan objek penelitian. 3.3 JENIS DATA Jenis data yang digunakan dalam penelitian ini adalah data primer yaitu data pada hasil panen tanaman hias di Jakarta yang tersedia di web data.go.id 3.4 ALUR PENELITIAN Berikut adalah tahapan – tahapan dalam penelitian Identifikas i data Penerapan metode algoritma Penerapan metode algoritma Pengujian tingkat akurasi Gambar 3.1 Alur Analisis Sentimen Berikut penjelasan dari alur analisis xtractio diatas : 1. Identifikasi Data Identifikasi data panen tanaman hias di Jakarta tahapan awal yang dilakukan pada penelitian ini. Pada tahap ini yang dilakukan adalah melakukan pengidentifikasian data menurut jenis tanaman. 2. Penerapan Metode Algoritma Information Retrieval Pada tahap ini data showroomt yang sudah diidentidikasi kemudian diterapkan algoritma information retrieval untuk mengetahui data mana yang mengandung xtractio dengan yang tidak, yang nantinya akan digunakan untuk perhitungan pada penerapan metode algoritma extraxtion 3. Penerapan Metode Algoritma Extraction Pada tahap ini data yang sudah di-retreve kemudian diekstrak menggunakan algoritma xtraction berupa klasifikasi yang sudah ditentukan 4. Pengujian Tingkat Akurasi Pada tahap ini data tanaman yang sudah memiliki kelas masing – masing diuji menggunakan metode pengujian, agar diketahui tingkat akurasi hasil yang tepat BAB IV HASIL DAN PEMBAHASAN 4.1 Pengumpulan data Analisis cluster merupakan suatu teknik yang lebih sederhana bukandalam asumsinya yang memusatkan jumlah kelompok-kelompok ataustruktur kelompok. Pengelompokkan setuju pada kesamaan dasar atau jarak (ketaksamaan). Masukanmasukan yang dibutuhkan merupakankesamaan ukuran atau data-data dari kesamaan-kesamaan yang dapat dihitung.Untuk menggambarkan sifat yang sulit dalam pendefinisian suatu pengelompokkan dasar, misalnya pengurutan 16 kartu dalam permainankartu biasa ke dalam cluster dari kesamaan objek-objek. Beberapa pengelompokkan digambarkan dalam gambar 12.1, ini dengan jelas bahwa maksud pembagian-pembagian tergantung pada pendefinisiankesamaan. Untuk permainan kartu contohnya, terdapat satu cara membentuk suatu kelompok tunggal pada 16 kartu; terdapat 32.767 cara untuk membagi kartu ke dalam dua kelompok (bermacam-macam ukuran );terdapat 7.141.686 cara untuk mengurutkan kartu-kartu ke dalam tigakelompok (bermacam-macam ukuran) dan seterusnya.Dengan jelas, batasan waktu membuat ini tidak mungkin untuk menetukan pengelompokkan terbaik pada kesamaan objek-objek darisuatu daftar dari semua struktur yang mungkin. Meskipun komputer-komputer besar dengan mudah meliputi jumlah kasus yang besar. Jadisatu kasus menyelesaikan pencarian algoritma yang baik, tetapi tidak memenuhi yang terbaik dalam pengelompokkan. Kembali lagi, pertamaharus dikembangkan suatu ukuran kuantitatif untuk assosiasi (kesamaan) ukuran antara objek-objek. 4.2 Pengolahan Data Secara garis besar ada tiga hal yang harus terjawab dalam proses pengolahan data cluster, yaitu : 1. Bagaimana mengukur kesamaan ? Ada tiga ukuran untuk mengukur kesamaaan antar objek, yaitu ukurankorelasi, ukuran jarak, dan ukuran asosiasi. 2. Bagaimana membentuk cluster ? Prosedur yang diterapkan harus dapat mengelompokkan objek-objek yangmemiliki kesamaan yang tinggi ke dalam sutau cluster yang sama. 3. Berapa banyak cluster/kelompok yang akan dibentuk ? Pada prinsipnya jika jumlah cluster berkurang maka homogenitas alamcluster secara otomatis akan menurun. 4.3 Proses Analisis Cluster Sebagaimana teknik multivariat lain proses analisis cluster dapatdijelaskan dalam enam tahap sebagai berikut : 4.3.1 Tahap Pertama : Tujuan Analisi Cluster Tujuan utama analisis cluster adalah mempartisi suatu set objek menjadi dua kelompok atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya.Dalam pembentukan kelompok/cluster dapat dicapai tiga tujuan, yaitu: 1. Deskripsi klasifikasi (taxonomy description) Penerapan anallisis cluster secara tradisisonal bertujuan mengeksplorasi dan membentuk suatu klasisfikasi/taksonomi secara empiris. Karena kemampuan partisinya analisis cluster dapatditerapkan secara luas. Meskipun secara empiris merupakan teknik eksplorasi analisis cluster dapat pula digunakan untuk tujuan konfirmasi. 4.3.2 Tahap Kedua : Desain Penelitian dalam Analisis Cluster Tiga hal penting dalam tahap ini adalah pendeteksian outlier,mengukur kesamaan, dan standarisasi data. 1. Pendeteksian Outlier Outlier adlah suatu objek yang sangat berbeda dengan objek lainnya.Outlier dapat digambarkan sebagai observasi yang secara nyata kebiasaan, tidak mewakili populasi umum, dan adanya under sampling dapat pula memunculkan outlier. Outlier menyebabkan struktur yang tidak benar dan cluster yang terbentuk menjadi tidak representatif. 2. Mengukur Kesamaan antar Objek Konsep kesamaan adalah hal yang fundamental dalam analisis cluster.Kesamaan antar objek merupakan ukuran korespondensi antar objek.Ada tiga metode yang dapat diterapkan, yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi. 3. Standarisasi Data a. Standarisasi Variabel Bentuk paling umum dalam standarisasi variabel adalah konversisetiap variabel terhadap skor atandar (dikenal dengan Z score) dengan melakukan substraksi nilai tengan dan membaginya dengans tandar deviasi tiap variabel. b. Standarisasi Data Berbeda dengan standarisasi variabel, standarisasi ndata dilakukanterhadap observasi/objek yang akan dikelompokkan. 4.3.3 Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster Seperti hal teknik analisis lain,analisis cluster juga menetapkanadanya suatu asumsi. Ada dua asumsi dalam analisis cluster, yaitu : 1. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh ekelompok sampel. Sampel yang digunakan dalam analisis cluster harus dapat mewakili populasi yang ingin dijelaskan, karena analisisini baik jika sampel representatif. Jumlah sampel yang diambiltergantung penelitinya, seorang peneliti harus yakin bahwa sampilyang diambil representatif terhadap populasi. 2. Pengaruh Multukolinieritas Ada atau tidaknya multikolinieritas antar variabel sangatdiperhatikan dalam analisis cluster karena hal itu berpengaruh,sehingga variabelvariabel yang bersifat multikolinieritas secaraeksplisit dipertimbangkan dengan lebih seksama. 4.3.4 Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhanAda dua proses penting yaitu algoritma cluster dalam pembentukancluster dan menentukan jumlah cluster yang akan dibentuk. Keduanyamempunyai implikasi substansial tidak hanya pada hasil yang diperolehtetapi juga pada interpretasi yang akan dilakukan terhadap hasil tersebut. Alternatif lain adalah dengan mengkombinasikan kedua metode ini. Pertama gunakan metode hirarkhi kemudian dilanjutkan dengan metode non hirarkhi 1. Metode Hirarkhi Tipe dasar dalam metode ini adalah aglomerasi dan pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai cluster tersendiri sehingga terdapat cluster sebanyak jumlah observasi. Kemudian dua cluster yang terdekat kesamaannyadigabung menjadi suatu cluster baru, sehingga jumlah cluster berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu cluster besar yang mengandung seluruh observasi,selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini dilakukan hinggatiap observasi menjadi cluster sendiri-sendiri.Hal penting dalam metode hirarkhi adalah bahwa hasil padatahap sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon. 2. Metode Non Hirarkhi Masalah utama dalam metoda non hirarkhi adalah bagaimanamemilih bakal cluster. Harus disadari pengaruh pemilihan bakal cluster terhadap hasil akhir analisis cluster. Bakal cluster pertama adalahobservasi pertama dalam set data tanpa missing value. Bakal kedua adalahobservasi lengkap berikutnya (tanpa missing data) yang dipisahkan dari bakal pertama oleh jarak minimum khusus. 4.3.5 Tahap Kelima : Interpretasi terhadap Cluster Tahap interpretasi meliputi pengujian tiap cluster dalam term untuk menamai dan menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian cluster. Proes ini dimulai dengan suatu ukuran yang sering digunakan yaitu centroid cluster. Membuat profil dan interpretasi cluster tidak hanya tidak hanya untuk memperoleh suatu gambaran saja melainkan pertama, menyediakan suatu rata-rata untuk menilai korespondensi pada cluster yang terbentuk,kedua, profil cluster memberikan araha bagi penilainan terhadap signifikansi praktis. 4.4 Source Code Klastering install.packages("cluster") install.packages("fpc") require(xlsx) library(ggplot2) library(fpc) library(cluster) setwd("G://datawarehouse"); setwd("D://"); data=read.xlsx("coba.xlsx", sheetName = "Sheet1") data data$luas_panen hasil<-kmeans(data[,3,4],3) hasil hasil$cluster hasil$centers hasil$size table(hasil$cluster, data$nama_kabkota) hasil$cluster <- as.factor(hasil$cluster) ggplot(data, aes(data$luas_panen, data$produksi, color = hasil$cluster)) + geom_point() dataSample <-data[,3,4] hc <- hclust(dist(dataSample), method="ave") hc plot(hc, hang = -1, labels=data$nama_kabkota) d <- dist(dataSample, method="euclidian") pamCluster <- pam(d, 3) clusplot(as.matrix(d), lines=0) pamCluster pamCluster$cluster, color=T, shade=T, labels=3, Gambar 4.1 Cluster Dendogram (“complete”) Gambar 4.2 Cluster clusplot Gambar 4.3 Cluster Dendogram (“mpg”) BAB V KESIMPULAN DAN REKOMENDASI 5.1 KESIMPULAN  Penelitian menggunakan metode clustering ini cukup efektif dan efisien untuk mengetahui data yang di bahas.  Pembahasan menggunakan metode Clustering ini menghasilkan grafik – grafik Dendogram yang menggambarkan grafik hasil panen tanaman hias di daerah Jakarta. 5.2 REKOMENDASI  Untuk perusahaan / instansi / komunitas yang sedang mengidentifikasi data, dapat menggunakan metode klastering ini karena cukup efektif untuk mencari data yang di inginkan sesuai kebutuhan.  Untuk penelitian lanjutan dan pembahasan lanjutan dengan metode clustering ini diharapkan untuk terus melakukan penelitian dan pembaruan sistem dan pembaruan data – data yang di kerjakan dalam metode clustering ini. DAFTAR PUSTAKA Achmad Sirojuddin (2016). Pengelompokan Kabupaten/kota di Jawa Timur Berdasarkan Indikator Indeks Pembangunan Manusia 2016 .Malang: Universitas Islam Negri Maulana Malik Ibrahim Malang http://www.batan.go.id/ppin/lokakarya/LKSTN_15/Entin.pdf (Unknown.Clustering. (Online) diakses pada tanggal 10 Januari 2018 https://kungfumas.wordpress.com/2016/11/28/modul-klastering-2/ http://data.go.id/dataset/luas-panen-dan-produksi-tanaman-hias-menurut-kota-adm-dkijakarta. (Online) diakses pada tanggal 16 Januari 2018

Judul: Makalah Analisa Clustering

Oleh: Dimas Alif


Ikuti kami