30 ALGORTIMA UNSUPERVISED

Unsupervised learning adalah tipe pembelajaran mesin di mana model dilatih menggunakan data yang tidak memiliki label atau target output yang ditentukan. Algoritma unsupervised mencoba menemukan pola atau struktur tersembunyi dalam data tanpa panduan dari label yang sudah ada. Ini berbeda dengan supervised learning, di mana model dilatih menggunakan data yang sudah diberi label.

1. K -MEANS CLASTERING

K-Means adalah algoritma clustering yang membagi dataset menjadi K cluster, di mana K adalah parameter yang ditentukan oleh pengguna. Prosesnya melibatkan langkah-langkah berikut:

Memilih K titik awal sebagai centroid awal.
Menetapkan setiap titik data ke centroid terdekat.
Menghitung ulang centroid sebagai rata-rata dari titik data dalam cluster.
Mengulangi proses sampai konvergensi, yaitu ketika posisi centroid tidak berubah signifikan.

2. Hierarchical Clustering

Hierarchical clustering adalah teknik yang membangun hierarki cluster. Ada dua pendekatan utama:

Agglomerative: Mulai dengan setiap titik data sebagai cluster tunggal dan secara iteratif menggabungkan cluster terdekat sampai semua titik berada dalam satu cluster atau kriteria tertentu terpenuhi.
Divisive: Mulai dengan semua titik data dalam satu cluster besar dan secara iteratif memecah cluster menjadi cluster yang lebih kecil.

3. DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

DBSCAN mengelompokkan titik data berdasarkan kepadatan. Algoritma ini dapat mendeteksi cluster dengan bentuk arbitrer dan menangani noise. Langkah-langkahnya meliputi:

Menentukan parameter epsilon (ε) sebagai jarak maksimum antara dua titik data yang dapat dianggap sebagai tetangga, dan MinPts sebagai jumlah minimum titik data dalam radius ε untuk membentuk cluster.
Mengidentifikasi titik inti, titik batas, dan titik noise berdasarkan ε dan MinPts.
Mengelompokkan titik data berdasarkan titik inti dan tetangga.

4. Gaussian Mixture Models (GMM)

GMM memodelkan data sebagai campuran dari beberapa distribusi Gaussian. Algoritma ini menggunakan Expectation-Maximization (EM) untuk menemukan parameter model. Prosesnya meliputi:

Menginisialisasi parameter distribusi Gaussian (mean, covariance, dan weight).
Menggunakan Expectation step untuk menghitung probabilitas setiap titik data berasal dari setiap distribusi Gaussian.
Menggunakan Maximization step untuk memperbarui parameter distribusi Gaussian berdasarkan probabilitas tersebut.
Mengulangi langkah E dan M sampai konvergensi.

5. Mean Shift

Mean Shift adalah algoritma clustering yang tidak memerlukan parameter jumlah cluster. Algoritma ini menemukan mode dalam distribusi titik data dan mengelompokkan titik berdasarkan mode tersebut. Prosesnya meliputi:

Memulai dengan setiap titik data sebagai centroid.
Menghitung vektor pergeseran untuk setiap titik data menuju area dengan kepadatan data tertinggi.
Memperbarui centroid berdasarkan vektor pergeseran dan mengulangi sampai konvergensi.

6. Spectral Clustering

Spectral clustering menggunakan spektrum (nilai eigen) dari matriks kesamaan untuk mengurangi dimensi dan mengelompokkan data di ruang baru. Langkah-langkahnya meliputi:

Menghitung matriks kesamaan berdasarkan jarak antara titik data.

7. Principal Component Analysis (PCA)

PCA adalah teknik pengurangan dimensi yang mengubah data ke dalam komponen utama yang ortogonal, menjelaskan variabilitas terbesar dalam data. Langkah-langkahnya meliputi:

Menghitung matriks kovarians dari data.
Menghitung nilai eigen dan vektor eigen dari matriks kovarians.
Memilih komponen utama berdasarkan nilai eigen terbesar.
Memproyeksikan data asli ke komponen utama yang dipilih.

8. t-Distributed Stochastic Neighbor Embedding (t-SNE)

t-SNE adalah teknik pengurangan dimensi yang sangat efektif untuk visualisasi data high-dimensional dalam 2D atau 3D. Langkah-langkahnya meliputi:

Menghitung probabilitas kesamaan antara titik data di ruang high-dimensional.
Menghitung probabilitas kesamaan antara titik data di ruang low-dimensional.
Meminimalkan perbedaan antara distribusi probabilitas di ruang high-dimensional dan low-dimensional menggunakan metode gradient descent.

9. Autoencoders

Autoencoder adalah neural network yang digunakan untuk pengurangan dimensi dan rekonstruksi data. Jaringan ini terdiri dari encoder yang mengubah data ke representasi low-dimensional dan decoder yang merekonstruksi data dari representasi tersebut. Proses pelatihan meliputi:

Menggunakan data asli sebagai input dan output.
Meminimalkan kesalahan rekonstruksi antara input dan output melalui backpropagation.

10. Latent Dirichlet Allocation (LDA)

LDA adalah model generatif yang digunakan untuk menemukan topik dalam kumpulan dokumen teks. Algoritma ini mengasumsikan bahwa dokumen adalah campuran dari beberapa topik dan setiap topik adalah distribusi kata. Prosesnya meliputi:

Menginisialisasi distribusi kata untuk setiap topik dan distribusi topik untuk setiap dokumen.
Menggunakan metode iteratif seperti Gibbs sampling untuk memperbarui distribusi berdasarkan dokumen yang diamati.
Mengidentifikasi topik dan distribusi kata setelah konvergensi.

11. Independent Component Analysis (ICA)

ICA adalah teknik untuk memisahkan sinyal campuran menjadi komponen independen. Algoritma ini sering digunakan dalam pemrosesan sinyal dan analisis data. Langkah-langkahnya meliputi:

Mengasumsikan bahwa data observasi adalah campuran linier dari beberapa sumber independen.
Menggunakan metode statistik untuk menemukan komponen independen dengan memaksimalkan ketidakterkaitan statistik antara komponen.

12. Non-Negative Matrix Factorization (NMF)

NMF adalah teknik pengurangan dimensi yang memfaktorkan matriks non-negatif menjadi dua matriks non-negatif yang lebih kecil. Ini berguna untuk menemukan representasi aditif dari data. Langkah-langkahnya meliputi:

Menginisialisasi dua matriks non-negatif acak.
Menggunakan metode iteratif untuk memperbarui matriks sampai produk kedua matriks mendekati matriks asli.

13. Locally Linear Embedding (LLE)

LLE adalah teknik pengurangan dimensi yang mempertahankan hubungan lokal antara titik data. Algoritma ini memproyeksikan data high-dimensional ke ruang low-dimensional. Langkah-langkahnya meliputi:

Menemukan tetangga terdekat untuk setiap titik data.
Menghitung bobot yang meminimalkan kesalahan rekonstruksi lokal.
Memproyeksikan data ke ruang low-dimensional dengan mempertahankan bobot tersebut.

14. Isomap

Isomap adalah teknik pengurangan dimensi yang menggabungkan prinsip MDS dan menjaga jarak geodesik antara titik data di manifold. Langkah-langkahnya meliputi:

Menghitung jarak geodesik antara titik data menggunakan tetangga terdekat.
Menggunakan MDS untuk memproyeksikan jarak geodesik ke ruang low-dimensional.

15. Kernel PCA

Kernel PCA adalah varian PCA yang menggunakan kernel untuk menangani data non-linear. Algoritma ini memproyeksikan data ke ruang fitur high-dimensional sebelum menerapkan PCA. Langkah-langkahnya meliputi:

Menggunakan fungsi kernel untuk menghitung matriks kernel.
Menerapkan PCA pada matriks kernel untuk menemukan komponen utama.

16. Factor Analysis

Factor Analysis adalah model statistik yang menjelaskan variabilitas di antara data observasi dengan beberapa variabel laten yang tidak terukur. Langkah-langkahnya meliputi:

Mengasumsikan bahwa data observasi adalah kombinasi linier dari faktor laten dan noise.
Menggunakan metode statistik untuk memperkirakan faktor laten dan koefisien regresi.

17. Multidimensional Scaling (MDS)

MDS adalah teknik pengurangan dimensi yang mempertahankan jarak antara titik data dalam ruang baru. Langkah-langkahnya meliputi:

Menghitung matriks jarak antara titik data.
Memproyeksikan data ke ruang low-dimensional dengan mempertahankan jarak tersebut menggunakan metode optimasi.

18. HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise)

HDBSCAN adalah versi DBSCAN yang lebih robust dan dapat menangani cluster dengan bentuk dan kepadatan yang beragam. Algoritma ini menggunakan pendekatan hierarki untuk menemukan cluster pada berbagai skala. Langkah-langkahnya meliputi:

Mengidentifikasi cluster dengan berbagai nilai kepadatan.
Menggabungkan cluster hierarkis berdasarkan kepadatan yang bervariasi.

19. OPTICS (Ordering Points To Identify the Clustering Structure)

OPTICS adalah algoritma berbasis kepadatan yang mengidentifikasi struktur cluster secara teratur. Ini berguna untuk menemukan cluster dengan kepadatan yang bervariasi. Langkah-langkahnya meliputi:

Mengurutkan titik data berdasarkan kepadatan lokal.
Mengidentifikasi cluster dan hierarki berdasarkan urutan kepadatan.

20. Biclustering

Biclustering adalah teknik yang mengelompokkan baris dan kolom matriks secara simultan untuk menemukan sub-matriks homogen. Ini sering digunakan dalam analisis genomik dan data mikroarray. Langkah-langkahnya meliputi:

Menggunakan metode statistik atau optimasi untuk menemukan sub-matriks dengan pola koheren.
Mengidentifikasi cluster yang melibatkan subset baris dan kolom yang berhubungan erat.

21. Self-Organizing Maps (SOM)

Self-Organizing Maps adalah jenis jaringan saraf tiruan yang digunakan untuk mengurangi dimensi dan visualisasi data. Algoritma ini memetakan data ke grid 2D atau 3D, mempertahankan struktur topologi. Langkah-langkahnya meliputi:

Memetakan input data ke neuron di grid.
Menyesuaikan bobot neuron dan tetangganya untuk lebih mendekati input data.
Mengulangi sampai peta stabil dan neuron merepresentasikan cluster dalam data.

22. Singular Value Decomposition (SVD)

SVD adalah teknik untuk dekomposisi matriks yang digunakan untuk pengurangan dimensi dan rekomendasi sistem. Langkah-langkahnya meliputi:

Memfaktorkan matriks menjadi tiga matriks: U, Σ, dan V.
Menggunakan komponen utama (nilai singular terbesar) untuk mengurangi dimensi dan mengungkap struktur laten dalam data.

23. t-SNE (t-Distributed Stochastic Neighbor Embedding)

t-SNE adalah teknik pengurangan dimensi yang sangat efektif untuk visualisasi data high-dimensional dalam 2D atau 3D. Langkah-langkahnya meliputi:

Menghitung probabilitas kesamaan antara titik data di ruang high-dimensional.
Menghitung probabilitas kesamaan antara titik data di ruang low-dimensional.
Meminimalkan perbedaan antara distribusi probabilitas di ruang high-dimensional dan low-dimensional menggunakan metode gradient descent.

24. UMAP (Uniform Manifold Approximation and Projection)

UMAP adalah teknik pengurangan dimensi yang efisien dan mempertahankan struktur data global. Langkah-langkahnya meliputi:

Membangun graf tetangga terdekat yang mempertahankan struktur lokal.
Menggunakan optimasi topologi untuk memetakan data ke ruang low-dimensional.

25. BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)

BIRCH adalah algoritma clustering hierarkis yang efisien untuk data besar. Langkah-langkahnya meliputi:

Membangun hierarki centroid menggunakan pohon CF (Clustering Feature).
Menggunakan centroid untuk mengelompokkan data pada skala yang berbeda, menggabungkan cluster yang serupa.

26. Affinity Propagation

Affinity Propagation adalah algoritma clustering yang mengidentifikasi "exemplars" untuk setiap cluster. Langkah-langkahnya meliputi:

Mengirim pesan antara titik data untuk mengukur kesesuaian sebagai exemplar.
Memperbarui pesan secara iteratif untuk mengidentifikasi cluster dengan exemplar terbaik.

27. HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise)

Mengidentifikasi cluster dengan berbagai nilai kepadatan.
Menggabungkan cluster hierarkis berdasarkan kepadatan yang bervariasi.

28. OPTICS (Ordering Points To Identify the Clustering Structure)

OPTICS adalah algoritma berbasis kepadatan yang mengidentifikasi struktur cluster secara teratur. Ini berguna untuk menemukan cluster dengan kepadatan yang bervariasi. Langkah-langkahnya meliputi:

Mengurutkan titik data berdasarkan kepadatan lokal.
Mengidentifikasi cluster dan hierarki berdasarkan urutan kepadatan.

29. Restricted Boltzmann Machines (RBM)

RBM adalah jenis jaringan saraf tiruan probabilistik yang digunakan untuk belajar representasi tersembunyi dari data input. Langkah-langkahnya meliputi:

Memodelkan data sebagai variabel tersembunyi dan terlihat yang saling berhubungan.
Menggunakan metode pembaruan seperti Contrastive Divergence untuk mempelajari bobot yang memaksimalkan probabilitas data.

30. Latent Semantic Analysis (LSA)

LSA adalah teknik pengurangan dimensi yang digunakan dalam pemrosesan teks dan analisis dokumen. Langkah-langkahnya meliputi:

Membuat matriks term-dokumen dari korpus teks.
Menggunakan SVD untuk memfaktorkan matriks dan mengidentifikasi representasi low-dimensional dari dokumen dan term.

Setiap algoritma ini memiliki keunikan dan aplikasi yang berbeda, dan pilihan algoritma tergantung pada jenis data dan tujuan analisis.

Cari Blog Ini

Data Mining

30 ALGORTIMA UNSUPERVISED

Komentar

Posting Komentar