QUIZZ DATA MINING

Link file PDF : Quiz_DATA MINING_ILHAM RIDHO PRATAMA

1. Integrasi dan Pembersihan Data.

Cari IPS setiap semester permahasiswa. ini bisa memudahkan untuk normalisasi data

Perkalian SKS dengan Nilai: Pertama, dilakukan perhitungan nilai total untuk setiap mata kuliah dengan mengalikan jumlah SKS (Satuan Kredit Semester) dari setiap mata kuliah dengan nilai grade yang diperoleh mahasiswa dalam mata kuliah tersebut. Ini dilakukan dengan menggunakan kode df_transkip_nilai['nilai_total'] = df_transkip_nilai['sks_mk'] * df_transkip_nilai['nilai_grade'].

Pengelompokkan Data: Data kemudian dikelompokkan berdasarkan NIM (Nomor Induk Mahasiswa) dan semester. Ini dilakukan dengan menggunakan fungsi groupby pada dataframe df_transkip_nilai, dengan kolom-kolom 'nim' dan 'semester' sebagai kunci pengelompokan.

Aggregasi Data: Setelah pengelompokkan, dilakukan agregasi data untuk setiap kelompok. Jumlah SKS dan nilai total dijumlahkan untuk setiap kelompok menggunakan fungsi sum() pada kolom 'sks_mk' dan 'nilai_total'.

Reset Index: Indeks dari hasil pengelompokkan dan agregasi di-reset sehingga data dapat diakses lebih mudah.

Perhitungan IPS: IPS (Indeks Prestasi Semester) dihitung dengan membagi nilai total dengan jumlah SKS untuk setiap kelompok. Hasil perhitungan ini disimpan dalam kolom baru 'ips'.

Menampilkan Hasil: Data IPS per mahasiswa per semester ditampilkan menggunakan perintah print(ips_per_mahasiswa_semester).

Gabungkan IPS permahasiswa dengan dataset yang lainya ("ms_lulusan") berdasarkan NIM

pembersihan data, termasuk mengidentifikasi dan mengatasi nilai yang hilang atau tidak konsisten dalam data. Hilangkan mahasiswa pindahan.

Identifikasi Nilai yang Hilang: Pertama-tama, dilakukan pencarian nilai-nilai yang hilang dalam dataset dengan menggunakan metode .isnull() diikuti dengan .sum(). Ini menghasilkan jumlah nilai yang hilang untuk setiap kolom dalam dataset. Output dari perintah ini memberikan informasi tentang jumlah nilai yang hilang dalam setiap kolom.
Hapus Baris dengan Nilai yang Hilang: Setelah mengidentifikasi nilai yang hilang, baris-baris yang mengandung nilai yang hilang tersebut dihapus dari dataset menggunakan fungsi dropna(). Dengan demikian, baris-baris yang memiliki setidaknya satu nilai yang hilang dihapus dari dataset.
Hapus Mahasiswa Pindahan: Selanjutnya, baris-baris yang mewakili mahasiswa pindahan (diasumsikan sebagai mahasiswa yang memiliki status_masuk == 1) dihapus dari dataset. Ini dilakukan dengan menggunakan filtering pada kolom status_masuk, hanya menyertakan baris-baris dengan nilai status_masuk == 0.
Tampilkan Hasil: Hasil dari proses penghapusan nilai yang hilang dan mahasiswa pindahan ditampilkan menggunakan fungsi display(), sehingga dapat dilihat struktur dan isi dataset yang telah diubah.

Standardisasi format tanggal dan jenis kelamin untuk analisis lebih lanjut.

Konversi Kolom Tanggal: Kolom 'tanggal_lulus' dan 'tgl_masuk' diubah ke format tanggal yang standar menggunakan fungsi pd.to_datetime(). Ini membantu dalam memastikan bahwa nilai-nilai dalam kolom tersebut diinterpretasikan sebagai objek datetime, memungkinkan analisis waktu yang lebih mudah dilakukan.
Penggantian Nilai dalam Kolom 'jenis_kelamin': Nilai dalam kolom 'jenis_kelamin' diubah dari representasi numerik menjadi representasi kata dengan menggunakan fungsi replace(). Angka 1 diganti dengan 'Laki-laki', sedangkan angka 0 diganti dengan 'Perempuan'. Ini bertujuan untuk membuat interpretasi data menjadi lebih jelas dan intuitif.

2. Analisis

Cari pola atau tren yang paling mempengaruhi dengan lulusan tepat waktu atau lama masa studi, misal:

Analisis apakah ada hubungan antara nilai rata-rata mata kuliah atau IPS dengan lulusan tepat waktu.

Uji Hipotesis untuk Nilai Rata-rata Mata Kuliah:

a. Dilakukan uji t-student independen dengan menggunakan stats.ttest_ind().

b. Kelompok pertama adalah mahasiswa yang lulus tepat waktu, diwakili oleh merged_data[merged_data['status_lulus'] == 'Tepat Waktu']['nilai_total'].

c. Kelompok kedua adalah mahasiswa yang tidak lulus tepat waktu, diwakili oleh merged_data[merged_data['status_lulus'] == 'Tidak Tepat Waktu']['nilai_total'].

d. Hasil uji hipotesis ditampilkan dalam bentuk nilai t-statistic dan p-value untuk mengevaluasi signifikansi perbedaan antara kedua kelompok ini.

Uji Hipotesis untuk IPS:

e. Dilakukan uji t-student independen serupa untuk IPS.

f. Kelompok pertama adalah mahasiswa yang lulus tepat waktu, diwakili oleh merged_data[merged_data['status_lulus'] == 'Tepat Waktu']['ips'].

g. Kelompok kedua adalah mahasiswa yang tidak lulus tepat waktu, diwakili oleh merged_data[merged_data['status_lulus'] == 'Tidak Tepat Waktu']['ips'].

h. Hasil uji hipotesis juga ditampilkan dalam bentuk nilai t-statistic dan p-value.

Menampilkan Hasil:

Hasil dari kedua uji hipotesis ditampilkan dengan menggunakan perintah print() untuk t-statistic dan p-value dari masing-masing uji hipotesis.

Dengan demikian, kode tersebut memberikan evaluasi statistik tentang perbedaan nilai rata-rata mata kuliah dan IPS antara kelompok mahasiswa yang lulus tepat waktu dan yang tidak lulus tepat waktu. P-value yang rendah menunjukkan bahwa perbedaan antara kedua kelompok tersebut signifikan secara statistik.

Analisis apakah ada korelasi positif antara predikat kelulusan 'Pujian' dengan lulusan tepat waktu

· Uji Korelasi dengan Chi-Square Test:

a. Tabel kontingensi dibuat terlebih dahulu menggunakan fungsi pd.crosstab() untuk menghitung frekuensi setiap kombinasi predikat kelulusan dan status kelulusan tepat waktu.

b. Kemudian, dilakukan uji korelasi menggunakan chi-square test dengan fungsi chi2_contingency(). Hasil uji korelasi mencakup nilai chi-square (chi2), nilai p (p), derajat kebebasan (dof), dan nilai harapan (expected).

c. Untuk mengukur kekuatan korelasi, dilakukan perhitungan Cramer's V, yang merupakan akar kuadrat dari chi-square dibagi dengan jumlah total data dikalikan dengan (jumlah baris kolom terkecil - 1).

· Analisis Deskriptif:

a. Hasil tabel kontingensi ditampilkan menggunakan perintah print(), sehingga dapat dilihat distribusi frekuensi untuk setiap kombinasi predikat kelulusan dan status kelulusan tepat waktu.

· Visualisasi Tabel Kontingensi:

a. Tabel kontingensi juga divisualisasikan menggunakan heatmap dari library seaborn. Setiap sel pada heatmap menunjukkan frekuensi observasi untuk kombinasi predikat kelulusan dan status kelulusan tepat waktu.

b. Anotasi pada heatmap menampilkan nilai frekuensi untuk setiap sel.

Analisis untuk melihat apakah durasi studi lebih pendek berkorelasi dengan predikat kelulusan yang lebih baik

1) Pisahkan Data Menjadi Dua Kelompok:

· Data dipisahkan menjadi dua kelompok berdasarkan predikat kelulusan, yaitu 'baik' dan 'buruk'. Ini dilakukan dengan membuat dua series: predikat_baik yang berisi durasi studi untuk predikat kelulusan 'baik', dan predikat_buruk yang berisi durasi studi untuk predikat kelulusan 'buruk'.

2) Lakukan Uji T:

· Dilakukan uji t-student independen menggunakan fungsi ttest_ind() untuk membandingkan rata-rata durasi studi antara kedua kelompok.

· Hasil uji t-statistic dan p-value disimpan dalam variabel t_statistic dan p_value.

3) Interpretasi Hasil:

· Dilakukan interpretasi hasil berdasarkan nilai p-value yang dihasilkan.

4) Jika p-value kurang dari 0.05, maka terdapat perbedaan yang signifikan antara kedua kelompok. Interpretasi lebih lanjut dilakukan berdasarkan tanda t-statistic:

· Jika t_statistic positif, maka rata-rata durasi studi pada kelompok predikat kelulusan yang lebih baik lebih pendek daripada kelompok predikat kelulusan yang lebih buruk.

· Jika t_statistic negatif, maka rata-rata durasi studi pada kelompok predikat kelulusan yang lebih baik lebih panjang daripada kelompok predikat kelulusan yang lebih buruk.

· Jika p-value lebih besar dari 0.05, maka tidak terdapat perbedaan yang signifikan dalam durasi studi antara kedua kelompok predikat kelulusan yang berbeda.

5) Menampilkan Hasil:

· Hasil interpretasi ditampilkan menggunakan perintah print().

Hitung rata-rata nilai total untuk masing-masing jenis kelamin dan bandingkan untuk melihat apakah ada perbedaan signifikan dalam prestasi akademik berdasarkan jenis kelamin

· Pemisahan Data Berdasarkan Jenis Kelamin:

a. Data dipisahkan menjadi dua kelompok berdasarkan jenis kelamin: perempuan dan laki-laki. Ini dilakukan dengan membuat dua series: nilai_perempuan yang berisi nilai total untuk mahasiswa perempuan, dan nilai_laki_laki yang berisi nilai total untuk mahasiswa laki-laki.

· Perhitungan Rata-rata Nilai Total:

a. Rata-rata nilai total dihitung untuk masing-masing kelompok menggunakan metode .mean().

· Lakukan Uji T:

a. Dilakukan uji t-student independen menggunakan fungsi ttest_ind() untuk membandingkan nilai total antara kedua kelompok.

b. Hasil uji t-statistic dan p-value disimpan dalam variabel t_statistic dan p_value.

· Interpretasi Hasil:

a. Dilakukan interpretasi hasil berdasarkan nilai p-value yang dihasilkan.

· Jika p-value kurang dari 0.05, maka terdapat perbedaan yang signifikan antara kedua kelompok. Interpretasi lebih lanjut dilakukan berdasarkan tanda t-statistic:

a. Jika t_statistic positif, maka rata-rata nilai total untuk perempuan lebih tinggi daripada untuk laki-laki.

b. Jika t_statistic negatif, maka rata-rata nilai total untuk laki-laki lebih tinggi daripada untuk perempuan.

c. Jika p-value lebih besar dari 0.05, maka tidak terdapat perbedaan yang signifikan dalam prestasi akademik berdasarkan jenis kelamin.

· Menampilkan Hasil:

a. Hasil interpretasi ditampilkan menggunakan perintah print().

atau gabungan dari beberapa variabel yang mempengaruhi lulusatepat waktu

· Identifikasi Nilai yang Hilang:

a. Jumlah nilai yang hilang dalam kolom 'ips' dihitung menggunakan fungsi isnull().sum().

· Penanganan Nilai yang Hilang:

a. Misalnya, nilai-nilai yang hilang digantikan dengan rata-rata dari kolom 'ips' menggunakan fungsi fillna().

· Periksa Kembali Kriteria Pemilihan Data:

a. Dilakukan pengecekan kembali apakah ada mahasiswa yang lulus tepat waktu dalam dataset. Jika tidak ada, pesan akan dicetak bahwa tidak ada mahasiswa yang lulus tepat waktu dalam dataset. Namun, jika ada, maka dilakukan perhitungan rata-rata IPS untuk mahasiswa yang lulus tepat waktu setelah penanganan nilai yang hilang.

· Menampilkan Hasil:

a. Hasil dari penanganan nilai yang hilang dan perhitungan rata-rata IPS mahasiswa yang lulus tepat waktu setelah penanganan nilai yang hilang ditampilkan menggunakan perintah print().

3. Laporan dan Presentasi

Sajikan hasil analisis dalam bentuk laporan tertulis yang lengkap dengan grafik atau tabel yang mendukung hasil analisis.

· Data yang Digunakan:

a. Data yang digunakan berasal dari dua kolom dalam dataset: 'durasi_studi' yang berisi durasi studi dalam hari, dan 'predikat' yang merupakan variabel biner yang menunjukkan apakah mahasiswa tersebut mendapatkan predikat "Pujian" (1: Ya, 0: Tidak).

· Scatter Plot:

a. Scatter plot dibuat menggunakan fungsi plt.scatter().

b. Variabel 'durasi_studi' diplot pada sumbu x dan variabel 'predikat_pujian' diplot pada sumbu y.

c. Alpha digunakan untuk mengatur transparansi titik-titik pada plot.

· Judul dan Label SumBu:

a. Judul plot adalah "Hubungan antara Durasi Studi dan Proporsi Mahasiswa dengan Predikat 'Pujian' yang Lulus Tepat Waktu".

b. Label sumbu x adalah "Durasi Studi (hari)".

c. Label sumbu y adalah "Predikat 'Pujian' (1: Ya, 0: Tidak)".

· Tampilan Tambahan:

a. Grid ditampilkan pada plot menggunakan plt.grid(True) untuk membantu mempermudah dalam membaca plot.

· Menampilkan Plot:

a. Plot ditampilkan menggunakan fungsi plt.show().

Rata-rata nilai ips berdasarkan jenis kelamin

Perbandingan rata-rata nilai total berdasarkan jenis kelamin

Cari Blog Ini

Data Mining

QUIZZ DATA MINING

Komentar

Posting Komentar