Feature Encoding
Penyajian seluruh data dalam tipe data numerik, merupakan hal penting ketika menerapkan teknik Machine Learning sebagai metode pemecahan masalah. Hal ini disebabkan karena dasar Machine Learning berakar pada persamaan matematis, kecuali untuk algoritma berbasis tree atau pendekatan Naïve Bayes. Oleh karena itu, penting untuk melakukan proses yang disebut feature encoding guna mengubah data non-numerik menjadi format numerik (Butcher & Smith, 2020).
Terdapat beberapa metode feature encoding, antara lain binary encoding, one hot encoding, mean dan frequency encoding.
- Binary Encoding. Binary Encoding merupakan metode yang digunakan untuk mengonversi data kategorikal menjadi nilai biner 1 atau 0. Binary encoding sering digunakan untuk merepresentasikan data kategorikal yang hanya memiliki dua nilai berbeda, seperti jenis kelamin (pria/wanita) atau status kelulusan (ya/tidak). Representasi satu nilai akan diwakili oleh simbol numerik 1, sedangkan nilai lainnya akan diwakili oleh simbol numerik 0 (Gambar 1)
Gambar 1. Contoh binary encoding untuk fitur Gender
- One-Hot Encoding. Proses one-hot encoding melibatkan transformasi data kategorikal menjadi serangkaian variabel biner, yang dikenal sebagai variabel dummy, yang sesuai dengan setiap nilai unik yang terkandung dalam data kategorikal. Hal ini memastikan bahwa semua nilai di dalam variabel, seperti variabel kota di Indonesia (misalnya, Medan, Bandung, Surabaya), dan variabel profesi (misalnya, dokter, guru, pengacara), diwakili pada tingkat yang sama. Namun demikian, proses tersebut akan meningkatkan dimensi data, terutama ketika nilai kategorikal menunjukkan variasi yang besar. Gambar 2 memberikan gambaran komprehensif tentang konsep one-hot encoding.

Gambar 2. Gambaran one-hot encoding untuk fitur Profesi
- Mean Encoding. Mean Encoding adalah teknik yang cocok untuk klasifikasi, karena menggabungkan nilai label target dalam proses encoding. Mean Encoding melibatkan perhitungan rasio frekuensi setiap nilai dalam data kategorikal dengan label 1 terhadap total nilai frekuensi. Contoh berikut akan memberikan ilustrasi cara memperoleh mean encoding. Diberikan sample data Profesi dengan label biner 1 dan 0, disajikan dalam Tabel 1. Nilai hasil encoding untuk setiap nilai data kategori ditunjukkan dalam Persamaan 1.
Table 1. Sampel data fitur profesi dengan nilai kategorikal beserta nilai target

Nilai mean encoding yang dihasilkan, ditunjukkan pada Gambar 3. Berbeda dengan proses one-hot encoding, yang memperluas dimensi data berdasarkan nilai data kategorikal, mean encoding memperluas dimensi data berdasarkan nilai label target. Fenomena ini akan lebih mudah terlihat dalam kumpulan data yang melibatkan klasifikasi multi-kelas.

Gambar 3. Hasil mean encoding untuk fitur Profesi
- Frequency Encoding. Pemanfaatan frequency encoding berlaku dalam skenario masalah yang tidak memiliki variabel target. Perhitungan encoding ini berasal dari perbandingan antara frekuensi nilai tertentu dalam data kategorikal dan keseluruhan data sampel. Konsep ini dijelaskan melalui contoh ilustratif yang disajikan dengan contoh data pada Tabel 2 dan perhitungan dalam Persamaan 2.
Table 2. Sampel data fitur profesi dengan nilai kategorikal

Nilai frequency encoding yang dihasilkan, ditunjukkan pada Gambar 4. Hasil encoding data ini akan menjadi input pada model machine learning untuk menyelesaikan task sesuai objektif yang telah ditentukan.

Gambar 4. Hasil frequency encoding untuk fitur Profesi
Penulis:
Lili Ayu Wulandhari, S.Si., M.Sc., Ph.D
References:
- Butcher, B., & Smith, B. J. (2020). Feature Engineering and Selection: A Practical Approach for Predictive Models: by Max Kuhn and Kjell Johnson. Boca Raton, FL: Chapman & Hall/CRC Press, 2019, xv+ 297 pp., $79.95 (H), ISBN: 978-1-13-807922-9. Taylor & Francis.
- Géron, A. (2022). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow. “ O’Reilly Media, Inc.”
- Han, J., Kamber, M., & Pei, J. (2012). Data mining concepts and techniques third edition. University of Illinois at Urbana-Champaign Micheline Kamber Jian Pei Simon Fraser University.
Comments :