Dokumentasi

Panduan Lengkap SynthMed

Pelajari cara menggunakan platform sintesis dataset kesehatan dari awal hingga mahir.

Memulai

Apa itu SynthMed?

💡
SynthMed adalah platform riset terbuka dan 100% gratis yang membantu peneliti kesehatan untuk mengaugmentasi (memperbanyak) dataset mereka menggunakan metode AI Generative (CTGAN & TVAE). Data Anda diproses secara transien di server kami untuk proses training AI dan otomatis dihapus secara berkala untuk menjamin privasi.

Mengapa Data Sintesis?

Dalam penelitian kesehatan, akses ke data pasien seringkali terbatas karena regulasi privasi (HIPAA, GDPR). Data sintesis memungkinkan peneliti untuk:

  • Memperbanyak dataset kecil menjadi dataset besar (1x - 100x lipat)
  • Mempertahankan distribusi statistik yang sama dengan data asli
  • Menghindari pelanggaran privasi pasien
  • Meningkatkan akurasi model prediktif dengan lebih banyak data training

Fitur Utama

📤

Upload & Analisis

Upload CSV, sistem otomatis deteksi tipe kolom dan distribusi data.

🔬

2 Arsitektur Neural

Pilih CTGAN untuk dataset mixed kategorik, atau TVAE untuk dataset numerik. Lihat data eksperimen →.

📊

Laporan Kualitas

Perbandingan distribusi data asli vs sintetis otomatis.

📥

Download Instan

Unduh dataset sintetis dalam format CSV langsung dari browser.

Memulai

Quick Start

Ikuti 4 langkah sederhana untuk membuat dataset sintetis pertama Anda:

1

Upload Dataset CSV

Buka Synthesizer, upload file CSV atau klik "Gunakan Data Sample" untuk mencoba langsung.

2

Atur Konfigurasi

Pilih multiplier (1x-100x), kolom target, metode sintesis, dan intensitas training (epochs).

3

Generate Data

Klik "Mulai Sintesis" dan tunggu proses selesai. AI akan menganalisis pola dan menghasilkan data baru.

4

Review & Download

Periksa laporan kualitas, bandingkan distribusi, lalu unduh file CSV hasil sintesis.

🎯
Tips: Gunakan data sample terlebih dahulu untuk memahami cara kerja platform.
Memulai

Data Sample

Kami menyediakan dataset sample berisi 30 record pasien dengan 10 kolom untuk mencoba platform:

🏥 Data Pasien Kesehatan

Berisi data demografi, vital signs, lab results, dan diagnosis. Cocok untuk latihan augmentasi data klinik.

30 baris 10 kolom 7 numerik 3 kategorikal
📥 Download CSV

Detail Kolom

KolomTipeDeskripsiContoh
patient_idKategorikalID unik pasienP001
ageNumerikUsia pasien (tahun)45
genderKategorikalJenis kelaminLaki-laki
blood_pressure_systolicNumerikTekanan darah sistolik (mmHg)130
blood_pressure_diastolicNumerikTekanan darah diastolik (mmHg)85
heart_rateNumerikDetak jantung (bpm)78
cholesterol_totalNumerikTotal kolesterol (mg/dL)210
blood_sugarNumerikGula darah (mg/dL)105
bmiNumerikBody Mass Index27.3
diagnosisKategorikalDiagnosis utamaHipertensi
Referensi Teknis

Arsitektur Neural AI

SynthMed menggunakan teknologi Deep Learning terbaru (Generative Adversarial Networks & Variational Autoencoders) untuk mensintesis data medis. Pilih model yang sesuai dengan karakteristik dataset Anda:

🧬

CTGAN Model

Model Generative Adversarial Network yang dioptimalkan untuk data tabular. Menggunakan generator dan discriminator untuk menciptakan data baru yang identik secara statistik.

🔧 Cara Kerja:
  1. Identifikasi korelasi antar kolom (multivariate analysis)
  2. Training Neural Network untuk menebak distribusi asli
  3. Generasi data sintetis dengan high-diversity
✅ Kelebihan:
  • Unggul dataset mixed kategorik (+8.7%) dan kecil (<100 baris: 79.4% vs 71.3%) (Eksperimen F & A)
  • Variansi antar-run rendah (±2.0%), gap TSTR rata-rata 4.8% (Eksperimen C & D)
Terbaik untuk: Dataset mixed kategorik & dataset kecil (<100 baris)
🔬

TVAE Model

Tabular Variational Autoencoder yang menggunakan sistem encoder-decoder untuk memetakan data ke ruang laten.

🔧 Cara Kerja:
  1. Encoder mengompresi data asli ke bentuk matematis sederhana
  2. Decoder membangun ulang data dari representasi laten tersebut
  3. Regulasi statistik untuk menjaga akurasi distribusi
✅ Kelebihan:
  • Sangat akurat — fidelity tertinggi 90.3% pada Breast Cancer (Eksperimen E), gap TSTR 4.0% (Eksperimen D)
  • Sangat stabil — std dev hanya ±0.7% vs CTGAN ±2.0% (Eksperimen C). 3x lebih konsisten antar run
Terbaik untuk: Dataset mayoritas numerik & prioritas konsistensi

Parameter Konfigurasi

ParameterRentangRekomendasiDeskripsi
Multiplier2x – 100x2x – 10xBerapa kali lipat data output dari data asli
Epochs100 – 1000300 – 500Jumlah iterasi training (semakin tinggi, semakin akurat)
ModelCTGAN / TVAETVAE (numerik)Arsitektur neural yang digunakan sesuai jenis data (numerik → TVAE, kategorik → CTGAN)
⚠️
Perhatian: Epochs yang lebih tinggi menghasilkan model yang lebih akurat tetapi membutuhkan waktu training lebih lama. Untuk dataset medis, gunakan 300-500 epochs.
Referensi Teknis

Metrik Kualitas

Setiap hasil sintesis dilengkapi laporan kualitas otomatis. Metrik ringkas di bawah menggunakan perbandingan mean distribusi. Untuk evaluasi ilmiah lengkap menggunakan KSComplement dan TVComplement dari SDMetrics, lihat Eksperimen Robustness.

Distribution Similarity

Mengukur seberapa mirip distribusi data sintetis dengan data asli berdasarkan perbandingan mean:

Formula
similarity = 100 - |mean_asli - mean_sintetis| / |mean_asli| × 100
SkorRatingInterpretasi
> 95%🟢 Sangat BaikDistribusi hampir identik dengan data asli
85% – 95%🟡 BaikPerbedaan minor, masih layak untuk riset
70% – 85%🟠 CukupPerlu evaluasi lebih lanjut
< 70%🔴 KurangCoba naikkan epochs, pilih TVAE, atau kurangi multiplier

Informasi Tambahan

  • Total Baris Generated — Jumlah baris data sintetis yang berhasil dibuat
  • Kolom Disintesis — Jumlah kolom yang dipilih untuk diaugmentasi
  • Faktor Augmentasi — Multiplier yang digunakan (misal: 5x)
  • Tab Perbandingan — Mean, min, max data asli vs sintetis per kolom
Validasi Ilmiah

Eksperimen Robustness

🔬
Bukti ilmiah, bukan klaim kosong. Seluruh eksperimen dijalankan pada 3 dataset medis publik (Pima Diabetes, Heart Disease, Breast Cancer) yang dapat direproduksi oleh peneliti manapun. Menggunakan library SDV + SDMetrics yang sama dengan backend SynthMed.

Tiga Pilar Kepercayaan

PilarPertanyaanMetrik
FidelityApakah distribusi sintetis mirip aslinya?KSComplement, TVComplement
UtilityApakah data sintetis berguna untuk ML?TSTR vs TRTR F1 gap
RobustnessApakah model stabil di berbagai kondisi?Variance across sizes, seeds, ratios

📊 Eksperimen A — Stabilitas Ukuran Dataset

Dataset Pima Diabetes disubsampling ke 5 ukuran berbeda. Setiap kombinasi dilatih dengan CTGAN dan TVAE (300 epoch).

Ukuran (n)CTGANTVAE
5072.7%68.7%
10079.4%71.3%
20086.6%83.4%
50080.7%78.1%
76881.5%79.1%
Temuan: Kedua model optimal di n=200-500. Untuk dataset <100 baris, CTGAN lebih stabil. Rekomendasi: minimal 200 baris input.

📈 Eksperimen B — Konvergensi Epoch

Epoch divariasikan dari 50 hingga 500 untuk menemukan titik konvergensi optimal.

EpochCTGANTVAE
5074.7%56.5%
10067.5%64.8%
20072.3%75.5%
30078.1%79.9%
50080.4%81.6%
Temuan: 300 epoch mencapai >95% dari performa maksimal. Default di SynthMed adalah trade-off yang optimal antara kualitas dan waktu training.

🎲 Eksperimen C — Stabilitas Antar Run (Seed Variance)

Training dijalankan 5x dengan random seed berbeda untuk mengukur konsistensi.

ModelMeanStd DevStatus
CTGAN78.2%±2.0%✓ Stabil
TVAE78.7%±0.7%✓ Sangat Stabil
Temuan: TVAE 3x lebih konsisten dari CTGAN. Kedua model dalam batas aman (std <5 poin).

⚡ Eksperimen D — ML Utility (TSTR vs TRTR)

Metrik paling kuat. Data sintetis dipakai untuk training model ML, lalu diuji pada data real. Gap <10% = acceptable (standar Xu et al. 2019).

DatasetModelTRTR F1TSTR F1GapVerdict
Pima DiabetesCTGAN72.8%67.2%7.7%✓ ACCEPTABLE
Pima DiabetesTVAE72.8%68.9%5.3%✓ ACCEPTABLE
Breast CancerCTGAN95.3%93.5%1.9%✓ ACCEPTABLE
Breast CancerTVAE95.3%92.6%2.8%✓ ACCEPTABLE
Temuan: Semua kombinasi gap <10%. Mean gap CTGAN: 4.8%, TVAE: 4.0%. Data sintetis SynthMed layak untuk training model ML downstream.

🏥 Eksperimen E — Multi-Dataset Generalizability

Eksperimen diulang di 3 dataset berbeda untuk membuktikan robustness lintas domain medis.

DatasetCTGANTVAE
Pima Diabetes (768 baris)83.6%80.4%
Heart Disease (303 baris)89.3%81.5%
Breast Cancer (569 baris)87.3%90.3%

⚔️ Eksperimen F — CTGAN vs TVAE Head-to-Head

Perbandingan langsung berdasarkan tipe dataset untuk memberikan rekomendasi yang tepat.

Tipe DatasetPemenangSelisih
Fully Numerik (Breast Cancer)TVAE+2.9%
Numerik Dominan (Pima)CTGAN+3.3%
Mixed Kategorik (Heart)CTGAN+8.7%
💡
Rekomendasi: Dataset mayoritas numerik → pilih TVAE. Dataset dengan kolom kategorik → pilih CTGAN. Ini konsisten dengan fitur "Rekomendasi Model" di halaman Synthesizer.

📊 Eksperimen G — Augmentation Ratio (1x-100x)

Validasi apakah kualitas tetap terjaga saat augmentasi sangat tinggi.

RatioCTGANTVAE
2x82.4%80.4%
10x83.3%81.2%
50x83.2%80.6%
100x85.2%80.9%
Temuan: Tidak ada degradasi hingga 100x ratio. Klaim augmentasi di UI didukung oleh data eksperimen.

🔍 Eksperimen H — Column-Level Fidelity

Breakdown fidelity per kolom untuk transparansi teknis.

DatasetModelExcellentGoodFairPoor
PimaCTGAN44%44%11%0%
PimaTVAE44%44%0%11%
HeartCTGAN93%7%0%0%
HeartTVAE36%57%7%0%
⚠️
Transparansi: Kolom dengan banyak missing values (diisi 0) atau distribusi sangat tidak seimbang menghasilkan fidelity lebih rendah. Ini adalah limitasi fundamental dari model generatif tabular, bukan kelemahan spesifik SynthMed.

🎯 Rekomendasi Model Berdasarkan Data

Kondisi DatasetRekomendasiAlasan
Mayoritas numerikTVAELebih cepat, lebih stabil, score lebih tinggi
Mixed kategorikCTGANLebih baik menangani distribusi kategorik
Dataset kecil (<100)CTGANLebih stabil di data kecil
Prioritas konsistensiTVAEStd dev 3x lebih kecil
Prioritas kecepatanTVAE5-10x lebih cepat training

⚠️ Limitasi yang Diakui

  • Evaluasi terbatas pada 3 dataset kecil-menengah. Generalisasi ke dataset >100k baris belum diuji.
  • Metrik fidelity mengukur kesamaan distribusi statistik, bukan privasi diferensial.
  • CTGAN memiliki variansi antar run lebih tinggi (~2%) dibanding TVAE (~0.7%).
  • Kolom dengan distribusi sangat tidak seimbang menghasilkan fidelity lebih rendah.
Bantuan

FAQ (Pertanyaan Umum)

Apakah SynthMed benar-benar gratis?
Ya, 100% gratis tanpa batasan. Tidak ada paket berbayar, tidak perlu kartu kredit, dan akses penuh ke semua fitur.
Apakah data saya aman?
Ya. Meskipun data dikirim ke server untuk diproses oleh arsitektur AI (karena membutuhkan resource komputasi tinggi), data tersebut diproses secara stateless & transien. Data tidak disimpan permanen dan session otomatis dihapus setelah 1 jam.
Berapa ukuran file maksimal yang bisa di-upload?
Maksimal 10MB. Untuk file yang lebih besar, kami sarankan untuk membagi dataset menjadi beberapa bagian.
Format file apa saja yang didukung?
Saat ini hanya CSV (Comma-Separated Values) dengan header di baris pertama dan pemisah koma. Dukungan Excel (.xlsx) akan ditambahkan.
Model mana yang sebaiknya saya gunakan?
Berdasarkan eksperimen kami: Gunakan TVAE untuk dataset mayoritas numerik (lebih cepat, lebih stabil). Gunakan CTGAN untuk dataset dengan kolom kategorik (lebih baik menangani distribusi kategorik). Lihat bagian Eksperimen Robustness untuk data lengkap.
Apakah hasil sintesis bisa untuk publikasi ilmiah?
Ya. Data sintetis dari SynthMed telah diuji dengan protokol TSTR (Train on Synthetic, Test on Real) dan gap F1 <10% pada 3 dataset medis publik — memenuhi standar literatur (Xu et al. 2019). Lihat bagian Eksperimen Robustness untuk bukti lengkap.
Berapa epochs yang disarankan?
Untuk riset medis: 300-500 epochs biasanya sudah cukup. Berdasarkan Eksperimen B, 300 epoch mencapai >95% dari performa maksimal (500 epoch). Gunakan lebih tinggi (600-1000) jika hasil kualitas belum memuaskan, tapi perhatikan waktu training yang semakin lama.
Akademik

Cara Sitasi

Jika Anda menggunakan SynthMed dalam penelitian, silakan sitasi:

APA Format

SynthMed Team. (2026). SynthMed: Open Platform for Healthcare Dataset Synthesis. Retrieved from https://synthmed.id

BibTeX
@misc{synthmed2026,

  title  = {SynthMed: Open Platform for Healthcare Dataset Synthesis},

  author = {SynthMed Team},

  year   = {2026},

  url    = {https://synthmed.id}

}

Referensi Ilmiah

SynthMed dibangun di atas fondasi ilmiah yang kuat. Berikut paper utama yang menjadi dasar pengembangan platform:

CTGAN & TVAE (Model Utama)

Xu, L., Skoularidou, M., Cuesta-Infante, A., & Veeramachaneni, K. (2019). Modeling Tabular Data using Conditional GAN. NeurIPS 2019. arXiv:1907.00503

SDV Library (Backend)

Patki, N., Wedge, R., & Veeramachaneni, K. (2016). The Synthetic Data Vault. IEEE DSAA 2016.

Synthetic Data Overview

Jordon, J., Yoon, J., & van der Schaar, M. (2022). Synthetic Data — what, why and how? arXiv:2205.03257.

CTAB-GAN (Extension untuk Data Medis)

Zhao, Z., Kunar, A., Birke, R., & Chen, L. Y. (2021). CTAB-GAN: Effective Table Data Synthesizing. AISTATS 2021. PMLR.

Synthetic Patient Data

Walonoski, J., Kramer, M., Nichols, S., et al. (2018). Synthea: An approach, methodology, and software to generate synthetic patient data. JAMIA.

🙏
Terima kasih! Dengan menyitasi SynthMed, Anda membantu kami mengembangkan platform ini untuk lebih banyak peneliti.