QUIZZ DATA MINING
- Cari IPS setiap semester permahasiswa. ini bisa memudahkan untuk normalisasi data
- Perkalian SKS dengan Nilai: Pertama, dilakukan perhitungan nilai total untuk setiap mata kuliah dengan mengalikan jumlah SKS (Satuan Kredit Semester) dari setiap mata kuliah dengan nilai grade yang diperoleh mahasiswa dalam mata kuliah tersebut. Ini dilakukan dengan menggunakan kode df_transkip_nilai['nilai_total'] = df_transkip_nilai['sks_mk'] * df_transkip_nilai['nilai_grade'].
- Pengelompokkan Data: Data kemudian dikelompokkan berdasarkan NIM (Nomor Induk Mahasiswa) dan semester. Ini dilakukan dengan menggunakan fungsi groupby pada dataframe df_transkip_nilai, dengan kolom-kolom 'nim' dan 'semester' sebagai kunci pengelompokan.
- Aggregasi Data: Setelah pengelompokkan, dilakukan agregasi data untuk setiap kelompok. Jumlah SKS dan nilai total dijumlahkan untuk setiap kelompok menggunakan fungsi sum() pada kolom 'sks_mk' dan 'nilai_total'.
- Reset Index: Indeks dari hasil pengelompokkan dan agregasi di-reset sehingga data dapat diakses lebih mudah.
- Perhitungan IPS: IPS (Indeks Prestasi Semester) dihitung dengan membagi nilai total dengan jumlah SKS untuk setiap kelompok. Hasil perhitungan ini disimpan dalam kolom baru 'ips'.
- Menampilkan Hasil: Data IPS per mahasiswa per semester ditampilkan menggunakan perintah print(ips_per_mahasiswa_semester).
- Gabungkan IPS permahasiswa dengan dataset yang lainya ("ms_lulusan") berdasarkan NIM
- pembersihan data, termasuk mengidentifikasi dan mengatasi nilai yang hilang atau tidak konsisten dalam data. Hilangkan mahasiswa pindahan.
- Identifikasi Nilai yang Hilang: Pertama-tama, dilakukan pencarian nilai-nilai yang hilang dalam dataset dengan menggunakan metode .isnull() diikuti dengan .sum(). Ini menghasilkan jumlah nilai yang hilang untuk setiap kolom dalam dataset. Output dari perintah ini memberikan informasi tentang jumlah nilai yang hilang dalam setiap kolom.
- Hapus Baris dengan Nilai yang Hilang: Setelah mengidentifikasi nilai yang hilang, baris-baris yang mengandung nilai yang hilang tersebut dihapus dari dataset menggunakan fungsi dropna(). Dengan demikian, baris-baris yang memiliki setidaknya satu nilai yang hilang dihapus dari dataset.
- Hapus Mahasiswa Pindahan: Selanjutnya, baris-baris yang mewakili mahasiswa pindahan (diasumsikan sebagai mahasiswa yang memiliki status_masuk == 1) dihapus dari dataset. Ini dilakukan dengan menggunakan filtering pada kolom status_masuk, hanya menyertakan baris-baris dengan nilai status_masuk == 0.
- Tampilkan Hasil: Hasil dari proses penghapusan nilai yang hilang dan mahasiswa pindahan ditampilkan menggunakan fungsi display(), sehingga dapat dilihat struktur dan isi dataset yang telah diubah.
- Standardisasi format tanggal dan jenis kelamin untuk analisis lebih lanjut.
- Konversi Kolom Tanggal: Kolom 'tanggal_lulus' dan 'tgl_masuk' diubah ke format tanggal yang standar menggunakan fungsi pd.to_datetime(). Ini membantu dalam memastikan bahwa nilai-nilai dalam kolom tersebut diinterpretasikan sebagai objek datetime, memungkinkan analisis waktu yang lebih mudah dilakukan.
- Penggantian Nilai dalam Kolom 'jenis_kelamin': Nilai dalam kolom 'jenis_kelamin' diubah dari representasi numerik menjadi representasi kata dengan menggunakan fungsi replace(). Angka 1 diganti dengan 'Laki-laki', sedangkan angka 0 diganti dengan 'Perempuan'. Ini bertujuan untuk membuat interpretasi data menjadi lebih jelas dan intuitif.
- Analisis apakah ada hubungan antara nilai rata-rata mata kuliah atau IPS dengan lulusan tepat waktu.
Uji Hipotesis untuk Nilai Rata-rata Mata Kuliah:
a.
Dilakukan
uji t-student independen dengan menggunakan stats.ttest_ind().
b.
Kelompok
pertama adalah mahasiswa yang lulus tepat waktu, diwakili oleh
merged_data[merged_data['status_lulus'] == 'Tepat Waktu']['nilai_total'].
c.
Kelompok
kedua adalah mahasiswa yang tidak lulus tepat waktu, diwakili oleh
merged_data[merged_data['status_lulus'] == 'Tidak Tepat Waktu']['nilai_total'].
d.
Hasil
uji hipotesis ditampilkan dalam bentuk nilai t-statistic dan p-value untuk
mengevaluasi signifikansi perbedaan antara kedua kelompok ini.
Uji Hipotesis untuk IPS:
e.
Dilakukan
uji t-student independen serupa untuk IPS.
f.
Kelompok
pertama adalah mahasiswa yang lulus tepat waktu, diwakili oleh
merged_data[merged_data['status_lulus'] == 'Tepat Waktu']['ips'].
g.
Kelompok
kedua adalah mahasiswa yang tidak lulus tepat waktu, diwakili oleh
merged_data[merged_data['status_lulus'] == 'Tidak Tepat Waktu']['ips'].
h.
Hasil
uji hipotesis juga ditampilkan dalam bentuk nilai t-statistic dan p-value.
Menampilkan Hasil:
Hasil dari kedua uji hipotesis ditampilkan dengan menggunakan perintah print() untuk t-statistic dan p-value dari masing-masing uji hipotesis.
Dengan demikian, kode tersebut memberikan evaluasi statistik tentang perbedaan nilai rata-rata mata kuliah dan IPS antara kelompok mahasiswa yang lulus tepat waktu dan yang tidak lulus tepat waktu. P-value yang rendah menunjukkan bahwa perbedaan antara kedua kelompok tersebut signifikan secara statistik.
- Analisis apakah ada korelasi positif antara predikat kelulusan 'Pujian' dengan lulusan tepat waktu
·
Uji
Korelasi dengan Chi-Square Test:
a.
Tabel
kontingensi dibuat terlebih dahulu menggunakan fungsi pd.crosstab() untuk
menghitung frekuensi setiap kombinasi predikat kelulusan dan status kelulusan
tepat waktu.
b.
Kemudian,
dilakukan uji korelasi menggunakan chi-square test dengan fungsi
chi2_contingency(). Hasil uji korelasi mencakup nilai chi-square (chi2), nilai
p (p), derajat kebebasan (dof), dan nilai harapan (expected).
c.
Untuk
mengukur kekuatan korelasi, dilakukan perhitungan Cramer's V, yang merupakan
akar kuadrat dari chi-square dibagi dengan jumlah total data dikalikan dengan
(jumlah baris kolom terkecil - 1).
·
Analisis
Deskriptif:
a.
Hasil
tabel kontingensi ditampilkan menggunakan perintah print(), sehingga dapat
dilihat distribusi frekuensi untuk setiap kombinasi predikat kelulusan dan
status kelulusan tepat waktu.
·
Visualisasi
Tabel Kontingensi:
a.
Tabel
kontingensi juga divisualisasikan menggunakan heatmap dari library seaborn.
Setiap sel pada heatmap menunjukkan frekuensi observasi untuk kombinasi
predikat kelulusan dan status kelulusan tepat waktu.
b.
Anotasi
pada heatmap menampilkan nilai frekuensi untuk setiap sel.
- Analisis untuk melihat apakah durasi studi lebih pendek berkorelasi dengan predikat kelulusan yang lebih baik
1)
Pisahkan
Data Menjadi Dua Kelompok:
·
Data
dipisahkan menjadi dua kelompok berdasarkan predikat kelulusan, yaitu 'baik'
dan 'buruk'. Ini dilakukan dengan membuat dua series: predikat_baik yang berisi
durasi studi untuk predikat kelulusan 'baik', dan predikat_buruk yang berisi
durasi studi untuk predikat kelulusan 'buruk'.
2)
Lakukan
Uji T:
· Dilakukan
uji t-student independen menggunakan fungsi ttest_ind() untuk membandingkan
rata-rata durasi studi antara kedua kelompok.
·
Hasil
uji t-statistic dan p-value disimpan dalam variabel t_statistic dan p_value.
3)
Interpretasi
Hasil:
·
Dilakukan
interpretasi hasil berdasarkan nilai p-value yang dihasilkan.
4) Jika
p-value kurang dari 0.05, maka terdapat perbedaan yang signifikan antara kedua
kelompok. Interpretasi lebih lanjut dilakukan berdasarkan tanda t-statistic:
·
Jika
t_statistic positif, maka rata-rata durasi studi pada kelompok predikat
kelulusan yang lebih baik lebih pendek daripada kelompok predikat kelulusan yang
lebih buruk.
·
Jika
t_statistic negatif, maka rata-rata durasi studi pada kelompok predikat
kelulusan yang lebih baik lebih panjang daripada kelompok predikat kelulusan
yang lebih buruk.
5)
Menampilkan
Hasil:
·
Hasil
interpretasi ditampilkan menggunakan perintah print().
- Hitung rata-rata nilai total untuk masing-masing jenis kelamin dan bandingkan untuk melihat apakah ada perbedaan signifikan dalam prestasi akademik berdasarkan jenis kelamin
·
Pemisahan
Data Berdasarkan Jenis Kelamin:
a. Data dipisahkan
menjadi dua kelompok berdasarkan jenis kelamin: perempuan dan laki-laki. Ini dilakukan
dengan membuat dua series: nilai_perempuan yang berisi nilai total untuk
mahasiswa perempuan, dan nilai_laki_laki yang berisi nilai total untuk
mahasiswa laki-laki.
·
Perhitungan
Rata-rata Nilai Total:
a. Rata-rata nilai total dihitung untuk masing-masing
kelompok menggunakan metode .mean().
·
Lakukan
Uji T:
a. Dilakukan uji
t-student independen menggunakan fungsi ttest_ind() untuk membandingkan nilai
total antara kedua kelompok.
b. Hasil uji t-statistic dan p-value disimpan dalam
variabel t_statistic dan p_value.
·
Interpretasi
Hasil:
a.
Dilakukan
interpretasi hasil berdasarkan nilai p-value yang dihasilkan.
·
Jika
p-value kurang dari 0.05, maka terdapat perbedaan yang signifikan antara kedua
kelompok. Interpretasi lebih lanjut dilakukan berdasarkan tanda t-statistic:
a.
Jika
t_statistic positif, maka rata-rata nilai total untuk perempuan lebih tinggi
daripada untuk laki-laki.
b.
Jika
t_statistic negatif, maka rata-rata nilai total untuk laki-laki lebih tinggi
daripada untuk perempuan.
c.
Jika
p-value lebih besar dari 0.05, maka tidak terdapat perbedaan yang signifikan
dalam prestasi akademik berdasarkan jenis kelamin.
·
Menampilkan
Hasil:
a.
Hasil
interpretasi ditampilkan menggunakan perintah print().
- atau gabungan dari beberapa variabel yang mempengaruhi lulusatepat waktu
·
Identifikasi
Nilai yang Hilang:
a.
Jumlah
nilai yang hilang dalam kolom 'ips' dihitung menggunakan fungsi isnull().sum().
·
Penanganan
Nilai yang Hilang:
a.
Misalnya,
nilai-nilai yang hilang digantikan dengan rata-rata dari kolom 'ips'
menggunakan fungsi fillna().
·
Periksa
Kembali Kriteria Pemilihan Data:
a.
Dilakukan
pengecekan kembali apakah ada mahasiswa yang lulus tepat waktu dalam dataset.
Jika tidak ada, pesan akan dicetak bahwa tidak ada mahasiswa yang lulus tepat
waktu dalam dataset. Namun, jika ada, maka dilakukan perhitungan rata-rata IPS
untuk mahasiswa yang lulus tepat waktu setelah penanganan nilai yang hilang.
·
Menampilkan
Hasil:
a.
Hasil
dari penanganan nilai yang hilang dan perhitungan rata-rata IPS mahasiswa yang
lulus tepat waktu setelah penanganan nilai yang hilang ditampilkan menggunakan
perintah print().
- Sajikan hasil analisis dalam bentuk laporan tertulis yang lengkap dengan grafik atau tabel yang mendukung hasil analisis.
·
Data
yang Digunakan:
a. Data yang digunakan berasal dari dua kolom dalam
dataset: 'durasi_studi' yang berisi durasi studi dalam hari, dan 'predikat'
yang merupakan variabel biner yang menunjukkan apakah mahasiswa tersebut
mendapatkan predikat "Pujian" (1: Ya, 0: Tidak).
·
Scatter
Plot:
a. Scatter plot dibuat menggunakan fungsi plt.scatter().
b. Variabel 'durasi_studi' diplot pada sumbu x dan
variabel 'predikat_pujian' diplot pada sumbu y.
c. Alpha digunakan untuk mengatur transparansi
titik-titik pada plot.
·
Judul
dan Label SumBu:
a.
Judul
plot adalah "Hubungan antara Durasi Studi dan Proporsi Mahasiswa dengan
Predikat 'Pujian' yang Lulus Tepat Waktu".
b.
Label
sumbu x adalah "Durasi Studi (hari)".
c.
Label
sumbu y adalah "Predikat 'Pujian' (1: Ya, 0: Tidak)".
·
Tampilan
Tambahan:
a.
Grid
ditampilkan pada plot menggunakan plt.grid(True) untuk membantu mempermudah
dalam membaca plot.
·
Menampilkan
Plot:
a. Plot ditampilkan menggunakan fungsi plt.show().
- Rata-rata nilai ips berdasarkan jenis kelamin
- Perbandingan rata-rata nilai total berdasarkan jenis kelamin
Komentar
Posting Komentar