Data Preparation dan Data Visualization
Data Preparation
Data preparation atau data preprocessing adalah proses mengumpulkan, menggabungkan, menyusun, dan mengatur data sehingga bisa dipakai dalam aplikasi business intelligence (BI), analitik, dan visualisasi data. Komponen data preparation seringkali melibatkan pengumpulan data dari sistem internal dan sumber eksternal yang berbeda.
Secara sederhana, data preparation adalah teknik yang digunakan untuk mengubah data mentah dalam format yang berguna dan efisien. Hal ini diperlukan karena data mentah sering kali tidak lengkap dan memiliki format yang tidak konsisten, apalagi jika berasal dari kumpulan yang berbeda.
Fungsi utama dari data preparation adalah untuk memastikan bahwa data mentah yang akan diproses serta dianalisis sudah akurat dan konsisten. Nantinya, ini akan berimbas pada hasil aplikasi BI dan analitik yang valid. Membenarkan data yang salah, memvalidasi kualitas data, dan mengkonsolidasikan kumpulan data adalah bagian besar dari proyek data preparation.
Data Visualization
- Grafik: Ini bisa berupa grafik batang, grafik garis, atau grafik lingkaran yang digunakan untuk memperlihatkan distribusi, perbandingan, atau tren dalam data.
- Diagram: Diagram seperti diagram alir atau diagram pohon digunakan untuk merepresentasikan alur pemrosesan atau struktur hierarkis dalam data.
- Heatmaps: Heatmaps adalah representasi visual dari data dalam bentuk matriks di mana intensitas warna digunakan untuk menyoroti nilai-nilai tertentu dalam data.
- Scatterplots: Scatterplots menunjukkan hubungan antara dua variabel dengan menempatkan titik data pada koordinat cartesian.
- Peta dan Geospasial: Visualisasi data geospasial menggunakan peta untuk menunjukkan pola dan tren berdasarkan lokasi geografis.
- Cloud Word: Word clouds atau awan kata adalah representasi visual dari frekuensi kata-kata dalam teks, di mana kata-kata yang paling sering muncul ditampilkan lebih besar.
- Treemaps: Treemaps membagi ruang pada bidang dua dimensi untuk merepresentasikan struktur hirarkis data, dengan ukuran area menunjukkan proporsi setiap bagian dari keseluruhan.
Komentar
Posting Komentar