Data Preparation dan Data Visualization

 Data Preparation

    Data preparation atau data preprocessing adalah proses mengumpulkan, menggabungkan, menyusun, dan mengatur data sehingga bisa dipakai dalam aplikasi business intelligence (BI), analitik, dan visualisasi data. Komponen data preparation seringkali melibatkan pengumpulan data dari sistem internal dan sumber eksternal yang berbeda.
    Secara sederhana, data preparation adalah teknik yang digunakan untuk mengubah data mentah dalam format yang berguna dan efisien. Hal ini diperlukan karena data mentah sering kali tidak lengkap dan memiliki format yang tidak konsisten, apalagi jika berasal dari kumpulan yang berbeda.
    Fungsi utama dari data preparation adalah untuk memastikan bahwa data mentah yang akan diproses serta dianalisis sudah akurat dan konsisten. Nantinya, ini akan berimbas pada hasil aplikasi BI dan analitik yang valid. Membenarkan data yang salah, memvalidasi kualitas data, dan mengkonsolidasikan kumpulan data adalah bagian besar dari proyek data preparation.


Tahapan Melakukan Data Preparation

1. Data collection

    Tahap data preparation yang pertama adalah mengumpulkan data yang relevan dari OS, data warehouse, data lake, atau tempat penyimpanan lainnya. Di tahap ini, para data scientist, anggota dari tim BI, dan end user yang mengumpulkan data wajib melakukan konfirmasi bahwa data tersebut telah sejalan dengan tujuan aplikasi analitik yang ditetapkan.

2. Data discovery and profiling

    Tahap berikutnya adalah mengeksplor data yang terkumpul untuk lebih memahami informasi yang ada di dalamnya. Selain itu, data preparation perlu dilakukan untuk menyiapkan data tersebut bagi penggunaan yang dimaksudkan.

    Untuk melakukannya, pola akan diidentifikasi melalui pembuatan profil data, hubungan, dan atribut lain dalam data. Anomali, inkonsistensi, dan nilai yang hilang merupakan contoh masalah yang akan dilihat agar dapat diatasi.

3. Data cleansing

    Selanjutnya, data yang salah dan bermasalah dibenarkan untuk membuat kumpulan data yang lengkap dan akurat. Misalnya, sebagai bagian dari proses data cleansing, data yang tidak tepat akan diperbaiki atau dihapus, entri yang tidak konsisten akan disesuaikan, dan nilai yang hilang akan diisi.

4. Data formatting

    Dengan memformat data, data akan dimodelkan dan diatur untuk memenuhi persyaratan analitik. Sebagai contoh, data yang disimpan sebagai file CSV atau dalam format file lain harus dikonversikan ke dalam tabel sehingga BI dan alat-alat analitik lainnya bisa mengakses data tersebut.

5. Data combining and analyzing

    Selain ditata agar terstruktur, data biasanya harus ditransformasi ke dalam format yang dapat digunakan dengan menggabungkan, memisahkan, atau memasukkan bersama kumpulan input. Setelah langkah menggabungkan data selesai, data tersebut siap dipindahkan ke staging area di data warehouse. Begitu data berada di staging area, ada kesempatan kedua untuk memvalidasi datanya.

6. Data validation and publishing

    Pada tahapan data preparation yang terakhir ini, rutinitas otomatis akan dijalankan untuk data guna memvalidasi konsistensi, kelengkapan, serta akurasinya. Data yang sudah dipersiapkan kemudian akan disimpan di dalam data lake, data warehouse, atau tempat penyimpanan lain. Data ini akan digunakan secara langsung oleh siapa pun yang menyiapkannya atau tersedia untuk diakses oleh pengguna lain.

Data Visualization

    Visualisasi dalam data mining adalah proses menggambarkan data dan hasil analisisnya secara visual. Ini melibatkan penggunaan berbagai teknik dan alat untuk mewakili informasi yang terkandung dalam data dengan cara yang mudah dipahami dan menarik. Tujuannya adalah untuk membantu pemahaman yang lebih baik tentang pola, tren, dan hubungan dalam data yang kompleks.

Beberapa teknik visualisasi yang umum digunakan dalam data mining meliputi:

  1. Grafik: Ini bisa berupa grafik batang, grafik garis, atau grafik lingkaran yang digunakan untuk memperlihatkan distribusi, perbandingan, atau tren dalam data.
  2. Diagram: Diagram seperti diagram alir atau diagram pohon digunakan untuk merepresentasikan alur pemrosesan atau struktur hierarkis dalam data.
  3. Heatmaps: Heatmaps adalah representasi visual dari data dalam bentuk matriks di mana intensitas warna digunakan untuk menyoroti nilai-nilai tertentu dalam data.
  4. Scatterplots: Scatterplots menunjukkan hubungan antara dua variabel dengan menempatkan titik data pada koordinat cartesian.
  5. Peta dan Geospasial: Visualisasi data geospasial menggunakan peta untuk menunjukkan pola dan tren berdasarkan lokasi geografis.
  6. Cloud Word: Word clouds atau awan kata adalah representasi visual dari frekuensi kata-kata dalam teks, di mana kata-kata yang paling sering muncul ditampilkan lebih besar.
  7. Treemaps: Treemaps membagi ruang pada bidang dua dimensi untuk merepresentasikan struktur hirarkis data, dengan ukuran area menunjukkan proporsi setiap bagian dari keseluruhan.

    Visualisasi dalam data mining membantu para analis dan pengambil keputusan dalam memahami dan menafsirkan informasi yang disimpan dalam data. Dengan memvisualisasikan data, mereka dapat menemukan pola, tren, anomali, dan wawasan yang mungkin tidak terlihat secara langsung melalui analisis data kuantitatif atau deskriptif saja.





Komentar