PENAKSIRAN PARAMETER COX PROPORTIONAL HAZARD REGRESSION PADA DATA BESAR MENGGUNAKAN STOCHASTIC GRADIENT DESCENT

Penulis

  • Dion Orlando Sitohang Universitas Sumatera Utara
  • Sutarman Universitas Sumatera Utara

Kata Kunci:

Cox Proprtional Hazard, Log-Partial Likelihood, Newton-Raphson, Stochastic Gradient Descent, Concordance Index

Abstrak

Penaksiran parameter model regresi Cox Proportional Hazard (CoxPH) sering menghadapi tantangan pada dataset besar. Dalam penelitian ini, metode Newton-Raphson dibandingkan dengan metode Stochastic Gradient Descent (SGD) untuk mengevaluasi penaksiran parameter. Log-partial likelihood dimanfaatkan untuk menaksir parameter model, dan dievaluasi menggunakan nilai Concordance Index (C-Index) sebagai metrik utama. Hasil menunjukkan bahwa SGD lebih unggul dalam semua ukuran dataset yang diuji. Pada dataset berukuran 10.000 sampel, SGD mencapai C-Index 0,683, sementara Newton-Raphson hanya 0,674. Selain itu, pada dataset berukuran 50.000 dan 100.000, nilai C-Index untuk SGD masing-masing adalah 0,679 dan 0,684, sedangkan Newton-Raphson mengalami penurunan performa dengan C-Index 0,511 dan 0,551. Penelitian ini menunjukkan efektivitas SGD dalam menangkap kompleksitas data, menjadikannya pilihan yang lebih baik untuk penaksiran parameter CoxPH pada data besar.

Parameter estimation of Cox Proportional Hazard (CoxPH) regression models often faces challenges on large datasets. In this study, the Newton-Raphson method is compared with the Stochastic Gradient Descent (SGD) method to evaluate parameter estimation. Log-partial likelihood was utilized to estimate the model parameters, and evaluated using Concordance Index (C-Index) value as the main metric. Results show that SGD is superior in all tested dataset sizes. On a dataset of 10,000 samples, SGD achieved a C-Index of 0.683, while Newton-Raphson was only 0.674. Moreover, on datasets of 50,000 and 100,000, the C-Index values for SGD were 0.679 and 0.684, respectively, while Newton-Raphson experienced a decline in performance with C-Indexes of 0.511 and 0.551. This study demonstrates the effectiveness of SGD in capturing data complexity, making it a better choice for CoxPH parameter estimation on large data.

Unduhan

Diterbitkan

2024-11-29