Penggunaan Python untuk Data Mining
Python adalah scripting language yang berorientasi objek. Bahasa pemrograman ini dapat digunakan untuk pengembangan perangkat lunak dan bisa dijalankan melalui berbagai sistem operasi. Saat ini, Python juga merupakan bahasa yang populer bagi bidang data science dan analisis. Hal ini dikarenakan oleh dukungan bahasa Python terhadap library – library yang didalamnya menyediakan fungsi analisis data dan fungsi machine learning, data preprocessing tools, serta visualisasi data. Secara umum, Python memiliki ciri-ciri sebagai berikut:
- Banyak mendukung library
- Bahasa yang relatif mudah dipahami
- Memiliki aturan layout source code yang memudahkan pengecekan code
- Bahasa yang interpreted karena code dieksekusi satu per satu dan melakukan debugging lebih mudah dibandingkan dengan bahasa yang di-compile
- Bahasa yang portable karena hanya code satu kali untuk menjalankan di platform lain
- Bahasa yang open-source.
Berikut ini adalah beberapa alasan Python menjadi bahasa yang populer, khususnya dalam ranah analisis data dan data science :
- Ketersediaan akan open-source library, frameworks, tools untuk data mining, contohnya adalah SciKit Learn, TensorFlow, Keras.
- Relatif lebih mudah dipahami. Penulisan code di Python relatif lebih singkat dibandingkan bahasa pemrograman yang
- Multifungsi, tidak hanya untuk data processing, namun juga bisa untuk tugas lain seperti membuat website dan tampilan GUI (Graphical User Interface).
Dalam membuat sebuah proyek data mining dengan Python, dapat menggunakan Anaconda, dimana Anaconda telah menyediakan berbagai kelengkapan Python yang lebih dikhususkan untuk kebutuhan analisis data. IDE (Integrated Development Enviroment) yang dapat digunakan antara lain Jupyter Notebook dengan extension .ipynb yang sudah merupakan bawaan dari Anaconda Navigator atau dengan text editor seperti Sublime, Notepad, Notepad++ dengan extension .py.
Berikut adalah contoh proses yang dilakukan oleh Python untuk proyek data mining sederhana:
- Data mentah, dapat diimpor ke Python dengan menggunakan library Library ini mempunyai fungsi untuk mengimpor data dengan format csv ke Python.
- Eksplorasi data dan data preprocessing dapat dilakukan dengan lebih mudah, karena Python telah memiliki fungsi untuk melihat persebaran data dan melakukan manipulasi data untuk handle data yang tidak sesuai. Dalam kasus ini library yang berfungsi adalah sklearn (Sci – kit learn) dan NumPy. Untuk visualisasi data, salah satu library yang terkenal adalah Matplotlib, dimana dapat membuat visualisasi dari persebaran data termasuk plot dan chart.
- Pembuatan model data mining dapat dilakukan dengan cepat dengan tersedianya fitur – fitur machine learning yang cukup lengkap dari Sci – kit learn. Setelah memilih metode yang diinginkan, dapat langsung menggunakan fungsi didalam library yang Contoh metode yang tersedia adalah neural network, decision tree, SVM, random forest, regression tree, logistic regression. Tidak hanya Sci – kit learn, ada beberapa library lain yang dapat digunakan seperti Keras, TensorFlow. Pembagian data testing dan training juga dapat dilakukan dengan library mengikuti metode yang tersedia. Contohnya adalah cross – validation.
- Evaluasi model yang telah dibuat, seperti menghitung akurasi, spesifisitas, sensitivitas, presisi, error rate dapat ditampilkan dengan mudah dengan menggunakan fungsi classification_score yang tersedia pada Sci – kit learn. Hanya dengan satu baris, seluruh komponen evaluasi akan ditampilkan. Tidak hanya itu, fungsi pada Sci-kit learn juga dapat menampilkan confusion matrix yang berisi nilai prediksi dan aktual yang dilakukan dari data testing.
- Merepresentasikan hasil dari model dapat divisualisasikan dalam bentuk plot ataupun hasil dalam bentuk web. Ketika permintaan penampilan hasil dalam bentuk web, maka hasil dari model dapat disinkronkan karena Python juga mendukung untuk pembuatan web. Selain itu, untuk menampilkan model, dapat menggunakan library – library lain, contohnya adalah graphviz untuk menampilkan decision tree.
Referensi
- Han, J., Micheline Kamber, Jian Pei. 2011. Data Mining: Concepts and Techniques. Massachusetts : Morgan
- Sahrudin, AN., Kurniawan, T. 2018. Input dan Output dalam Python. Jurnal Dasar Pemrograman Python STMIK, Juni 2018.
http://www.academia.edu/36762577/Jurnal_Dasar_Pemrograman_Input_dan_Output_dalam_ Python.
Author : Timothy Orvin Edwardo (1901456205)
Supervisor : Dewi Suryani (D5878)