Apa itu SynthMed?
Mengapa Data Sintesis?
Dalam penelitian kesehatan, akses ke data pasien seringkali terbatas karena regulasi privasi (HIPAA, GDPR). Data sintesis memungkinkan peneliti untuk:
- Memperbanyak dataset kecil menjadi dataset besar (1x - 100x lipat)
- Mempertahankan distribusi statistik yang sama dengan data asli
- Menghindari pelanggaran privasi pasien
- Meningkatkan akurasi model prediktif dengan lebih banyak data training
Fitur Utama
Upload & Analisis
Upload CSV, sistem otomatis deteksi tipe kolom dan distribusi data.
2 Arsitektur Neural
Pilih CTGAN untuk dataset mixed kategorik, atau TVAE untuk dataset numerik. Lihat data eksperimen →.
Laporan Kualitas
Perbandingan distribusi data asli vs sintetis otomatis.
Download Instan
Unduh dataset sintetis dalam format CSV langsung dari browser.
Quick Start
Ikuti 4 langkah sederhana untuk membuat dataset sintetis pertama Anda:
Upload Dataset CSV
Buka Synthesizer, upload file CSV atau klik "Gunakan Data Sample" untuk mencoba langsung.
Atur Konfigurasi
Pilih multiplier (1x-100x), kolom target, metode sintesis, dan intensitas training (epochs).
Generate Data
Klik "Mulai Sintesis" dan tunggu proses selesai. AI akan menganalisis pola dan menghasilkan data baru.
Review & Download
Periksa laporan kualitas, bandingkan distribusi, lalu unduh file CSV hasil sintesis.
Data Sample
Kami menyediakan dataset sample berisi 30 record pasien dengan 10 kolom untuk mencoba platform:
🏥 Data Pasien Kesehatan
Berisi data demografi, vital signs, lab results, dan diagnosis. Cocok untuk latihan augmentasi data klinik.
Detail Kolom
| Kolom | Tipe | Deskripsi | Contoh |
|---|---|---|---|
patient_id | Kategorikal | ID unik pasien | P001 |
age | Numerik | Usia pasien (tahun) | 45 |
gender | Kategorikal | Jenis kelamin | Laki-laki |
blood_pressure_systolic | Numerik | Tekanan darah sistolik (mmHg) | 130 |
blood_pressure_diastolic | Numerik | Tekanan darah diastolik (mmHg) | 85 |
heart_rate | Numerik | Detak jantung (bpm) | 78 |
cholesterol_total | Numerik | Total kolesterol (mg/dL) | 210 |
blood_sugar | Numerik | Gula darah (mg/dL) | 105 |
bmi | Numerik | Body Mass Index | 27.3 |
diagnosis | Kategorikal | Diagnosis utama | Hipertensi |
Arsitektur Neural AI
SynthMed menggunakan teknologi Deep Learning terbaru (Generative Adversarial Networks & Variational Autoencoders) untuk mensintesis data medis. Pilih model yang sesuai dengan karakteristik dataset Anda:
CTGAN Model
Model Generative Adversarial Network yang dioptimalkan untuk data tabular. Menggunakan generator dan discriminator untuk menciptakan data baru yang identik secara statistik.
🔧 Cara Kerja:
- Identifikasi korelasi antar kolom (multivariate analysis)
- Training Neural Network untuk menebak distribusi asli
- Generasi data sintetis dengan high-diversity
✅ Kelebihan:
- Unggul dataset mixed kategorik (+8.7%) dan kecil (<100 baris: 79.4% vs 71.3%) (Eksperimen F & A)
- Variansi antar-run rendah (±2.0%), gap TSTR rata-rata 4.8% (Eksperimen C & D)
TVAE Model
Tabular Variational Autoencoder yang menggunakan sistem encoder-decoder untuk memetakan data ke ruang laten.
🔧 Cara Kerja:
- Encoder mengompresi data asli ke bentuk matematis sederhana
- Decoder membangun ulang data dari representasi laten tersebut
- Regulasi statistik untuk menjaga akurasi distribusi
✅ Kelebihan:
- Sangat akurat — fidelity tertinggi 90.3% pada Breast Cancer (Eksperimen E), gap TSTR 4.0% (Eksperimen D)
- Sangat stabil — std dev hanya ±0.7% vs CTGAN ±2.0% (Eksperimen C). 3x lebih konsisten antar run
Parameter Konfigurasi
| Parameter | Rentang | Rekomendasi | Deskripsi |
|---|---|---|---|
| Multiplier | 2x – 100x | 2x – 10x | Berapa kali lipat data output dari data asli |
| Epochs | 100 – 1000 | 300 – 500 | Jumlah iterasi training (semakin tinggi, semakin akurat) |
| Model | CTGAN / TVAE | TVAE (numerik) | Arsitektur neural yang digunakan sesuai jenis data (numerik → TVAE, kategorik → CTGAN) |
Metrik Kualitas
Setiap hasil sintesis dilengkapi laporan kualitas otomatis. Metrik ringkas di bawah menggunakan perbandingan mean distribusi. Untuk evaluasi ilmiah lengkap menggunakan KSComplement dan TVComplement dari SDMetrics, lihat Eksperimen Robustness.
Distribution Similarity
Mengukur seberapa mirip distribusi data sintetis dengan data asli berdasarkan perbandingan mean:
similarity = 100 - |mean_asli - mean_sintetis| / |mean_asli| × 100
| Skor | Rating | Interpretasi |
|---|---|---|
| > 95% | 🟢 Sangat Baik | Distribusi hampir identik dengan data asli |
| 85% – 95% | 🟡 Baik | Perbedaan minor, masih layak untuk riset |
| 70% – 85% | 🟠 Cukup | Perlu evaluasi lebih lanjut |
| < 70% | 🔴 Kurang | Coba naikkan epochs, pilih TVAE, atau kurangi multiplier |
Informasi Tambahan
- Total Baris Generated — Jumlah baris data sintetis yang berhasil dibuat
- Kolom Disintesis — Jumlah kolom yang dipilih untuk diaugmentasi
- Faktor Augmentasi — Multiplier yang digunakan (misal: 5x)
- Tab Perbandingan — Mean, min, max data asli vs sintetis per kolom
Eksperimen Robustness
Tiga Pilar Kepercayaan
| Pilar | Pertanyaan | Metrik |
|---|---|---|
| Fidelity | Apakah distribusi sintetis mirip aslinya? | KSComplement, TVComplement |
| Utility | Apakah data sintetis berguna untuk ML? | TSTR vs TRTR F1 gap |
| Robustness | Apakah model stabil di berbagai kondisi? | Variance across sizes, seeds, ratios |
📊 Eksperimen A — Stabilitas Ukuran Dataset
Dataset Pima Diabetes disubsampling ke 5 ukuran berbeda. Setiap kombinasi dilatih dengan CTGAN dan TVAE (300 epoch).
| Ukuran (n) | CTGAN | TVAE |
|---|---|---|
| 50 | 72.7% | 68.7% |
| 100 | 79.4% | 71.3% |
| 200 | 86.6% | 83.4% |
| 500 | 80.7% | 78.1% |
| 768 | 81.5% | 79.1% |
📈 Eksperimen B — Konvergensi Epoch
Epoch divariasikan dari 50 hingga 500 untuk menemukan titik konvergensi optimal.
| Epoch | CTGAN | TVAE |
|---|---|---|
| 50 | 74.7% | 56.5% |
| 100 | 67.5% | 64.8% |
| 200 | 72.3% | 75.5% |
| 300 | 78.1% | 79.9% |
| 500 | 80.4% | 81.6% |
🎲 Eksperimen C — Stabilitas Antar Run (Seed Variance)
Training dijalankan 5x dengan random seed berbeda untuk mengukur konsistensi.
| Model | Mean | Std Dev | Status |
|---|---|---|---|
| CTGAN | 78.2% | ±2.0% | ✓ Stabil |
| TVAE | 78.7% | ±0.7% | ✓ Sangat Stabil |
⚡ Eksperimen D — ML Utility (TSTR vs TRTR)
Metrik paling kuat. Data sintetis dipakai untuk training model ML, lalu diuji pada data real. Gap <10% = acceptable (standar Xu et al. 2019).
| Dataset | Model | TRTR F1 | TSTR F1 | Gap | Verdict |
|---|---|---|---|---|---|
| Pima Diabetes | CTGAN | 72.8% | 67.2% | 7.7% | ✓ ACCEPTABLE |
| Pima Diabetes | TVAE | 72.8% | 68.9% | 5.3% | ✓ ACCEPTABLE |
| Breast Cancer | CTGAN | 95.3% | 93.5% | 1.9% | ✓ ACCEPTABLE |
| Breast Cancer | TVAE | 95.3% | 92.6% | 2.8% | ✓ ACCEPTABLE |
🏥 Eksperimen E — Multi-Dataset Generalizability
Eksperimen diulang di 3 dataset berbeda untuk membuktikan robustness lintas domain medis.
| Dataset | CTGAN | TVAE |
|---|---|---|
| Pima Diabetes (768 baris) | 83.6% | 80.4% |
| Heart Disease (303 baris) | 89.3% | 81.5% |
| Breast Cancer (569 baris) | 87.3% | 90.3% |
⚔️ Eksperimen F — CTGAN vs TVAE Head-to-Head
Perbandingan langsung berdasarkan tipe dataset untuk memberikan rekomendasi yang tepat.
| Tipe Dataset | Pemenang | Selisih |
|---|---|---|
| Fully Numerik (Breast Cancer) | TVAE | +2.9% |
| Numerik Dominan (Pima) | CTGAN | +3.3% |
| Mixed Kategorik (Heart) | CTGAN | +8.7% |
📊 Eksperimen G — Augmentation Ratio (1x-100x)
Validasi apakah kualitas tetap terjaga saat augmentasi sangat tinggi.
| Ratio | CTGAN | TVAE |
|---|---|---|
| 2x | 82.4% | 80.4% |
| 10x | 83.3% | 81.2% |
| 50x | 83.2% | 80.6% |
| 100x | 85.2% | 80.9% |
🔍 Eksperimen H — Column-Level Fidelity
Breakdown fidelity per kolom untuk transparansi teknis.
| Dataset | Model | Excellent | Good | Fair | Poor |
|---|---|---|---|---|---|
| Pima | CTGAN | 44% | 44% | 11% | 0% |
| Pima | TVAE | 44% | 44% | 0% | 11% |
| Heart | CTGAN | 93% | 7% | 0% | 0% |
| Heart | TVAE | 36% | 57% | 7% | 0% |
🎯 Rekomendasi Model Berdasarkan Data
| Kondisi Dataset | Rekomendasi | Alasan |
|---|---|---|
| Mayoritas numerik | TVAE | Lebih cepat, lebih stabil, score lebih tinggi |
| Mixed kategorik | CTGAN | Lebih baik menangani distribusi kategorik |
| Dataset kecil (<100) | CTGAN | Lebih stabil di data kecil |
| Prioritas konsistensi | TVAE | Std dev 3x lebih kecil |
| Prioritas kecepatan | TVAE | 5-10x lebih cepat training |
⚠️ Limitasi yang Diakui
- Evaluasi terbatas pada 3 dataset kecil-menengah. Generalisasi ke dataset >100k baris belum diuji.
- Metrik fidelity mengukur kesamaan distribusi statistik, bukan privasi diferensial.
- CTGAN memiliki variansi antar run lebih tinggi (~2%) dibanding TVAE (~0.7%).
- Kolom dengan distribusi sangat tidak seimbang menghasilkan fidelity lebih rendah.
FAQ (Pertanyaan Umum)
Apakah SynthMed benar-benar gratis?
Apakah data saya aman?
Berapa ukuran file maksimal yang bisa di-upload?
Format file apa saja yang didukung?
Model mana yang sebaiknya saya gunakan?
Apakah hasil sintesis bisa untuk publikasi ilmiah?
Berapa epochs yang disarankan?
Cara Sitasi
Jika Anda menggunakan SynthMed dalam penelitian, silakan sitasi:
SynthMed Team. (2026). SynthMed: Open Platform for Healthcare Dataset Synthesis. Retrieved from https://synthmed.id
@misc{synthmed2026,
title = {SynthMed: Open Platform for Healthcare Dataset Synthesis},
author = {SynthMed Team},
year = {2026},
url = {https://synthmed.id}
}
Referensi Ilmiah
SynthMed dibangun di atas fondasi ilmiah yang kuat. Berikut paper utama yang menjadi dasar pengembangan platform:
Xu, L., Skoularidou, M., Cuesta-Infante, A., & Veeramachaneni, K. (2019). Modeling Tabular Data using Conditional GAN. NeurIPS 2019. arXiv:1907.00503
Patki, N., Wedge, R., & Veeramachaneni, K. (2016). The Synthetic Data Vault. IEEE DSAA 2016.
Jordon, J., Yoon, J., & van der Schaar, M. (2022). Synthetic Data — what, why and how? arXiv:2205.03257.
Zhao, Z., Kunar, A., Birke, R., & Chen, L. Y. (2021). CTAB-GAN: Effective Table Data Synthesizing. AISTATS 2021. PMLR.
Walonoski, J., Kramer, M., Nichols, S., et al. (2018). Synthea: An approach, methodology, and software to generate synthetic patient data. JAMIA.