Salah satu hal yang membuat pusing banyak orang dengan adanya Internet adalah mendeteksi kebohongan berita atau yang lebih sering di kenal dengan hoax. Tidak kepalang, sampai para menteri bahkan Pak Presiden juga dibuat pusing dengan berita-berita bohong yang menyebar di Internet. Yang lebih parah lagi, banyak orang menyangka bahwa mereka yang menyebarkan berita bohong ini akan aman dan terlindung dengan kemampuan anonym login di Internet. Sepertinya tidak ada yang bisa menangkap para pelaku kebohongan, menipu, penyebar kebencian, hoax, pengadu domba, dan juga mereka yang menghasut untuk memperoleh keuntungan sesaat. Pada kesempatan ini, saya akan mencoba menjelaskan kemungkinan untuk mendeteksi kebohongan tersebut menggunakan teknik data mining.
Dalam data mining, deteksi anomali (juga deteksi outlier) adalah identifikasi hal, kejadian atau pengamatan yang tidak sesuai dengan pola yang diharapkan atau hal lainnya dalam dataset. Biasanya hal anomali akan diterjemahkan ke dalam beberapa jenis masalah seperti penipuan, fraud, cacat struktural, masalah medis atau kesalahan dalam teks. Anomali juga disebut sebagai outlier, hal baru, noise, penyimpangan dan pengecualian.
Secara khusus, dalam konteks serangan dan deteksi intrusi dalam jaringan, objek yang menarik seringkali bukan benda langka, tapi burst / semburan tak terduga dalam aktivitas. Pola ini tidak sesuai dengan definisi statistik umum dari outlier sebagai objek langka, dan banyak metode deteksi outlier (terutama metode tanpa pengawasan) akan gagal pada data tersebut, kecuali jika digabungkan secara tepat. Sebagai gantinya, algoritma analisis cluster mungkin dapat mendeteksi kelompok mikro yang dibentuk oleh pola ini.
Ada tiga kategori teknik deteksi anomali, yaitu,
- Teknik pendeteksian anomali yang tidak diawasi (unsupervised), mendeteksi anomali dalam data uji yang tidak berlabel yang ditetapkan berdasarkan asumsi bahwa sebagian besar contoh dalam kumpulan data normal dengan mencari contoh yang paling sesuai dengan sisa kumpulan data.
- Teknik deteksi anomali yang diawasi memerlukan kumpulan data yang telah diberi label sebagai "normal" dan "tidak normal" dan melibatkan pelatihan pengklasifikasi (perbedaan utama pada banyak masalah klasifikasi statistik lainnya adalah sifat deteksi outlier yang tidak seimbang).
- Teknik deteksi anomali semi-supervisi membangun model yang mewakili perilaku normal dari kumpulan data latihan normal yang diberikan, dan kemudian menguji kemungkinan contoh uji yang akan dihasilkan oleh model pembelajaran.
Aplikasi
Deteksi anomali dapat diterapkan di berbagai domain, seperti deteksi intrusi, deteksi kecurangan, deteksi kesalahan, pemantauan kesehatan sistem, deteksi kejadian di jaringan sensor, dan deteksi gangguan pada ekosistem. Hal ini sering digunakan dalam preprocessing untuk menghilangkan data anomali dari dataset. Dalam pembelajaran yang diawasi, menghilangkan data anomali dari kumpulan data seringkali menghasilkan peningkatan akurasi yang signifikan secara statistik.
Beberapa Teknik Yang Populer
Beberapa teknik deteksi anomali telah diajukan dalam literatur. Beberapa teknik yang populer adalah:
- Teknik berbasis kerapatan / densitas (k-nearest neighbor, local outlier factor, dan berbagai variasinya).
- Subspace- dan correlation-based outlier deteksi untuk high-dimensional data.
- One class support vector machine.
- Replicator neural network.
- Cluster analysis-based outlier detection.
- Deviasi dari association rule dan frequent itemset.
- Fuzzy logic based outlier detection.
- Teknik ensemble, menggunakan fitur bagging, score normalisasi dan berbagai sumber keanekaragaman.
Kinerja metode yang berbeda sangat bergantung pada kumpulan data dan parameter, dan metode memiliki sedikit keuntungan sistematis dibanding yang lain bila dibandingkan di banyak kumpulan data dan parameter.
Haters Akan Terdeteksi
Dengan berbagai teknik di atas maka kita akan dapat mendeteksi anomali pada sebuah posting di web / blog / instagram / twitter. Cantiknya data mining, dapat melakukan korelasi dengan berbagai posting yang lain bahkan dengan meta-data dan data pendukung dari posting tersebut. Akibatnya, kita dapat mendeteksi berbagai hal seperti,
- Penyebaran hoax / kabar buruk tersebut.
- Perilaku orang yang menerima hoax / kabar buruk.
- Siapa saja yang menyebarkan atau meng-RT twitter hoax / kabar buruk tersebut.
- Bagaimana latar belakang para penyebar hoax / kabar buruk.
- Siapa kah kira-kira aktor di belakang hoax / kabar buruk tersebut.
- dll.
Jika ini dilakukan oleh aparat penegak hukum di Indonesia, maka para penyidik ini biasanya mempunyai kemampuan untuk mengakses data yang ada di operator telekomunikasi kita. Para penyidik dapat memperoleh Call Detail Record (CDR), Call Detail Record IP (CDR-IP), IP Detail Record (IP-DR), nomor telepon smartphone, bahkan lokasi smartphone yang digunakan dan pergerakan smartphone tersebut. Smartphone tersebut digunakan untuk menelpon / SMS siapa saja, berapa lama, jam berapa, kapan?
Dengan menyatukan data dari operator dan data Internet maka lengkaplah sudah semua data yang dibutuhkan untuk menangkap pelaku hoax, haters yang ada di Internet. Bukti-bukti ini akan cukup menjebloskan seseorang untuk di penjara selama 6 tahun dan denda sebanyak beberapa ratus juta rupiah.
Oleh karenanya, sebaiknya berfikir 2-3 kali sebelum posting di Internet. Jangan pernah memposting hal-hal yang bohong, tidak baik, memaki seseorang dll. Bagi pengguna biasa, jangan pernah memforward, me-retweet, me-RT berita yang tidak baik, yang sumber-nya tidak / kurang bisa di percaya, jangan sampai kita terseret ke hal yang tidak baik tersebut.
No comments:
Post a Comment