SynthMed — Dokumentasi

Memulai

Apa itu SynthMed?

💡

SynthMed adalah platform riset terbuka dan 100% gratis yang membantu peneliti kesehatan untuk mengaugmentasi (memperbanyak) dataset mereka menggunakan metode AI Generative (CTGAN & TVAE). Data Anda diproses secara transien di server kami untuk proses training AI dan otomatis dihapus secara berkala untuk menjamin privasi.

Mengapa Data Sintesis?

Dalam penelitian kesehatan, akses ke data pasien seringkali terbatas karena regulasi privasi (HIPAA, GDPR). Data sintesis memungkinkan peneliti untuk:

Memperbanyak dataset kecil menjadi dataset besar (1x - 100x lipat)
Mempertahankan distribusi statistik yang sama dengan data asli
Menghindari pelanggaran privasi pasien
Meningkatkan akurasi model prediktif dengan lebih banyak data training

Fitur Utama

📤

Upload & Analisis

Upload CSV, sistem otomatis deteksi tipe kolom dan distribusi data.

🔬

2 Arsitektur Neural

Pilih CTGAN untuk dataset mixed kategorik, atau TVAE untuk dataset numerik. Lihat data eksperimen →.

📊

Laporan Kualitas

Perbandingan distribusi data asli vs sintetis otomatis.

📥

Download Instan

Unduh dataset sintetis dalam format CSV langsung dari browser.

Memulai

Quick Start

Ikuti 4 langkah sederhana untuk membuat dataset sintetis pertama Anda:

1

Upload Dataset CSV

Buka Synthesizer, upload file CSV atau klik "Gunakan Data Sample" untuk mencoba langsung.

2

Atur Konfigurasi

Pilih multiplier (1x-100x), kolom target, metode sintesis, dan intensitas training (epochs).

3

Generate Data

Klik "Mulai Sintesis" dan tunggu proses selesai. AI akan menganalisis pola dan menghasilkan data baru.

4

Review & Download

Periksa laporan kualitas, bandingkan distribusi, lalu unduh file CSV hasil sintesis.

🎯

Tips: Gunakan data sample terlebih dahulu untuk memahami cara kerja platform.

Memulai

Data Sample

Kami menyediakan dataset sample berisi 30 record pasien dengan 10 kolom untuk mencoba platform:

🏥 Data Pasien Kesehatan

Berisi data demografi, vital signs, lab results, dan diagnosis. Cocok untuk latihan augmentasi data klinik.

30 baris 10 kolom 7 numerik 3 kategorikal

📥 Download CSV

Detail Kolom

Kolom	Tipe	Deskripsi	Contoh
`patient_id`	Kategorikal	ID unik pasien	P001
`age`	Numerik	Usia pasien (tahun)	45
`gender`	Kategorikal	Jenis kelamin	Laki-laki
`blood_pressure_systolic`	Numerik	Tekanan darah sistolik (mmHg)	130
`blood_pressure_diastolic`	Numerik	Tekanan darah diastolik (mmHg)	85
`heart_rate`	Numerik	Detak jantung (bpm)	78
`cholesterol_total`	Numerik	Total kolesterol (mg/dL)	210
`blood_sugar`	Numerik	Gula darah (mg/dL)	105
`bmi`	Numerik	Body Mass Index	27.3
`diagnosis`	Kategorikal	Diagnosis utama	Hipertensi

Referensi Teknis

Arsitektur Neural AI

SynthMed menggunakan teknologi Deep Learning terbaru (Generative Adversarial Networks & Variational Autoencoders) untuk mensintesis data medis. Pilih model yang sesuai dengan karakteristik dataset Anda:

🧬

CTGAN Model

Model Generative Adversarial Network yang dioptimalkan untuk data tabular. Menggunakan generator dan discriminator untuk menciptakan data baru yang identik secara statistik.

🔧 Cara Kerja:

Identifikasi korelasi antar kolom (multivariate analysis)
Training Neural Network untuk menebak distribusi asli
Generasi data sintetis dengan high-diversity

✅ Kelebihan:

Unggul dataset mixed kategorik (+8.7%) dan kecil (<100 baris: 79.4% vs 71.3%) (Eksperimen F & A)
Variansi antar-run rendah (±2.0%), gap TSTR rata-rata 4.8% (Eksperimen C & D)

Terbaik untuk: Dataset mixed kategorik & dataset kecil (<100 baris)

🔬

TVAE Model

Tabular Variational Autoencoder yang menggunakan sistem encoder-decoder untuk memetakan data ke ruang laten.

🔧 Cara Kerja:

Encoder mengompresi data asli ke bentuk matematis sederhana
Decoder membangun ulang data dari representasi laten tersebut
Regulasi statistik untuk menjaga akurasi distribusi

✅ Kelebihan:

Sangat akurat — fidelity tertinggi 90.3% pada Breast Cancer (Eksperimen E), gap TSTR 4.0% (Eksperimen D)
Sangat stabil — std dev hanya ±0.7% vs CTGAN ±2.0% (Eksperimen C). 3x lebih konsisten antar run

Terbaik untuk: Dataset mayoritas numerik & prioritas konsistensi

Parameter Konfigurasi

Parameter	Rentang	Rekomendasi	Deskripsi
Multiplier	2x – 100x	2x – 10x	Berapa kali lipat data output dari data asli
Epochs	100 – 1000	300 – 500	Jumlah iterasi training (semakin tinggi, semakin akurat)
Model	CTGAN / TVAE	TVAE (numerik)	Arsitektur neural yang digunakan sesuai jenis data (numerik → TVAE, kategorik → CTGAN)

⚠️

Perhatian: Epochs yang lebih tinggi menghasilkan model yang lebih akurat tetapi membutuhkan waktu training lebih lama. Untuk dataset medis, gunakan 300-500 epochs.

Referensi Teknis

Metrik Kualitas

Setiap hasil sintesis dilengkapi laporan kualitas otomatis. Metrik ringkas di bawah menggunakan perbandingan mean distribusi. Untuk evaluasi ilmiah lengkap menggunakan KSComplement dan TVComplement dari SDMetrics, lihat Eksperimen Robustness.

Distribution Similarity

Mengukur seberapa mirip distribusi data sintetis dengan data asli berdasarkan perbandingan mean:

Formula

similarity = 100 - |mean_asli - mean_sintetis| / |mean_asli| × 100

Skor	Rating	Interpretasi
> 95%	🟢 Sangat Baik	Distribusi hampir identik dengan data asli
85% – 95%	🟡 Baik	Perbedaan minor, masih layak untuk riset
70% – 85%	🟠 Cukup	Perlu evaluasi lebih lanjut
< 70%	🔴 Kurang	Coba naikkan epochs, pilih TVAE, atau kurangi multiplier

Informasi Tambahan

Total Baris Generated — Jumlah baris data sintetis yang berhasil dibuat
Kolom Disintesis — Jumlah kolom yang dipilih untuk diaugmentasi
Faktor Augmentasi — Multiplier yang digunakan (misal: 5x)
Tab Perbandingan — Mean, min, max data asli vs sintetis per kolom

Validasi Ilmiah

Eksperimen Robustness

🔬

Bukti ilmiah, bukan klaim kosong. Seluruh eksperimen dijalankan pada 3 dataset medis publik (Pima Diabetes, Heart Disease, Breast Cancer) yang dapat direproduksi oleh peneliti manapun. Menggunakan library SDV + SDMetrics yang sama dengan backend SynthMed.

Tiga Pilar Kepercayaan

Pilar	Pertanyaan	Metrik
Fidelity	Apakah distribusi sintetis mirip aslinya?	KSComplement, TVComplement
Utility	Apakah data sintetis berguna untuk ML?	TSTR vs TRTR F1 gap
Robustness	Apakah model stabil di berbagai kondisi?	Variance across sizes, seeds, ratios

📊 Eksperimen A — Stabilitas Ukuran Dataset

Dataset Pima Diabetes disubsampling ke 5 ukuran berbeda. Setiap kombinasi dilatih dengan CTGAN dan TVAE (300 epoch).

Ukuran (n)	CTGAN	TVAE
50	72.7%	68.7%
100	79.4%	71.3%
200	86.6%	83.4%
500	80.7%	78.1%
768	81.5%	79.1%

✅

Temuan: Kedua model optimal di n=200-500. Untuk dataset <100 baris, CTGAN lebih stabil. Rekomendasi: minimal 200 baris input.

📈 Eksperimen B — Konvergensi Epoch

Epoch divariasikan dari 50 hingga 500 untuk menemukan titik konvergensi optimal.

Epoch	CTGAN	TVAE
50	74.7%	56.5%
100	67.5%	64.8%
200	72.3%	75.5%
300	78.1%	79.9%
500	80.4%	81.6%

✅

Temuan: 300 epoch mencapai >95% dari performa maksimal. Default di SynthMed adalah trade-off yang optimal antara kualitas dan waktu training.

🎲 Eksperimen C — Stabilitas Antar Run (Seed Variance)

Training dijalankan 5x dengan random seed berbeda untuk mengukur konsistensi.

Model	Mean	Std Dev	Status
CTGAN	78.2%	±2.0%	✓ Stabil
TVAE	78.7%	±0.7%	✓ Sangat Stabil

✅

Temuan: TVAE 3x lebih konsisten dari CTGAN. Kedua model dalam batas aman (std <5 poin).

⚡ Eksperimen D — ML Utility (TSTR vs TRTR)

Metrik paling kuat. Data sintetis dipakai untuk training model ML, lalu diuji pada data real. Gap <10% = acceptable (standar Xu et al. 2019).

Dataset	Model	TRTR F1	TSTR F1	Gap	Verdict
Pima Diabetes	CTGAN	72.8%	67.2%	7.7%	✓ ACCEPTABLE
Pima Diabetes	TVAE	72.8%	68.9%	5.3%	✓ ACCEPTABLE
Breast Cancer	CTGAN	95.3%	93.5%	1.9%	✓ ACCEPTABLE
Breast Cancer	TVAE	95.3%	92.6%	2.8%	✓ ACCEPTABLE

✅

Temuan: Semua kombinasi gap <10%. Mean gap CTGAN: 4.8%, TVAE: 4.0%. Data sintetis SynthMed layak untuk training model ML downstream.

🏥 Eksperimen E — Multi-Dataset Generalizability

Eksperimen diulang di 3 dataset berbeda untuk membuktikan robustness lintas domain medis.

Dataset	CTGAN	TVAE
Pima Diabetes (768 baris)	83.6%	80.4%
Heart Disease (303 baris)	89.3%	81.5%
Breast Cancer (569 baris)	87.3%	90.3%

⚔️ Eksperimen F — CTGAN vs TVAE Head-to-Head

Perbandingan langsung berdasarkan tipe dataset untuk memberikan rekomendasi yang tepat.

Tipe Dataset	Pemenang	Selisih
Fully Numerik (Breast Cancer)	TVAE	+2.9%
Numerik Dominan (Pima)	CTGAN	+3.3%
Mixed Kategorik (Heart)	CTGAN	+8.7%

💡

Rekomendasi: Dataset mayoritas numerik → pilih TVAE. Dataset dengan kolom kategorik → pilih CTGAN. Ini konsisten dengan fitur "Rekomendasi Model" di halaman Synthesizer.

📊 Eksperimen G — Augmentation Ratio (1x-100x)

Validasi apakah kualitas tetap terjaga saat augmentasi sangat tinggi.

Ratio	CTGAN	TVAE
2x	82.4%	80.4%
10x	83.3%	81.2%
50x	83.2%	80.6%
100x	85.2%	80.9%

✅

Temuan: Tidak ada degradasi hingga 100x ratio. Klaim augmentasi di UI didukung oleh data eksperimen.

🔍 Eksperimen H — Column-Level Fidelity

Breakdown fidelity per kolom untuk transparansi teknis.

Dataset	Model	Excellent	Good	Fair	Poor
Pima	CTGAN	44%	44%	11%	0%
Pima	TVAE	44%	44%	0%	11%
Heart	CTGAN	93%	7%	0%	0%
Heart	TVAE	36%	57%	7%	0%

⚠️

Transparansi: Kolom dengan banyak missing values (diisi 0) atau distribusi sangat tidak seimbang menghasilkan fidelity lebih rendah. Ini adalah limitasi fundamental dari model generatif tabular, bukan kelemahan spesifik SynthMed.

🎯 Rekomendasi Model Berdasarkan Data

Kondisi Dataset	Rekomendasi	Alasan
Mayoritas numerik	TVAE	Lebih cepat, lebih stabil, score lebih tinggi
Mixed kategorik	CTGAN	Lebih baik menangani distribusi kategorik
Dataset kecil (<100)	CTGAN	Lebih stabil di data kecil
Prioritas konsistensi	TVAE	Std dev 3x lebih kecil
Prioritas kecepatan	TVAE	5-10x lebih cepat training

⚠️ Limitasi yang Diakui

Evaluasi terbatas pada 3 dataset kecil-menengah. Generalisasi ke dataset >100k baris belum diuji.
Metrik fidelity mengukur kesamaan distribusi statistik, bukan privasi diferensial.
CTGAN memiliki variansi antar run lebih tinggi (~2%) dibanding TVAE (~0.7%).
Kolom dengan distribusi sangat tidak seimbang menghasilkan fidelity lebih rendah.

Bantuan

FAQ (Pertanyaan Umum)

Apakah SynthMed benar-benar gratis?

Ya, 100% gratis tanpa batasan. Tidak ada paket berbayar, tidak perlu kartu kredit, dan akses penuh ke semua fitur.

Apakah data saya aman?

Ya. Meskipun data dikirim ke server untuk diproses oleh arsitektur AI (karena membutuhkan resource komputasi tinggi), data tersebut diproses secara stateless & transien. Data tidak disimpan permanen dan session otomatis dihapus setelah 1 jam.

Berapa ukuran file maksimal yang bisa di-upload?

Maksimal 10MB. Untuk file yang lebih besar, kami sarankan untuk membagi dataset menjadi beberapa bagian.

Format file apa saja yang didukung?

Saat ini hanya CSV (Comma-Separated Values) dengan header di baris pertama dan pemisah koma. Dukungan Excel (.xlsx) akan ditambahkan.

Model mana yang sebaiknya saya gunakan?

Berdasarkan eksperimen kami: Gunakan TVAE untuk dataset mayoritas numerik (lebih cepat, lebih stabil). Gunakan CTGAN untuk dataset dengan kolom kategorik (lebih baik menangani distribusi kategorik). Lihat bagian Eksperimen Robustness untuk data lengkap.

Apakah hasil sintesis bisa untuk publikasi ilmiah?

Ya. Data sintetis dari SynthMed telah diuji dengan protokol TSTR (Train on Synthetic, Test on Real) dan gap F1 <10% pada 3 dataset medis publik — memenuhi standar literatur (Xu et al. 2019). Lihat bagian Eksperimen Robustness untuk bukti lengkap.

Berapa epochs yang disarankan?

Untuk riset medis: 300-500 epochs biasanya sudah cukup. Berdasarkan Eksperimen B, 300 epoch mencapai >95% dari performa maksimal (500 epoch). Gunakan lebih tinggi (600-1000) jika hasil kualitas belum memuaskan, tapi perhatikan waktu training yang semakin lama.

Akademik

Cara Sitasi

Jika Anda menggunakan SynthMed dalam penelitian, silakan sitasi:

APA Format

SynthMed Team. (2026). SynthMed: Open Platform for Healthcare Dataset Synthesis. Retrieved from https://synthmed.id

BibTeX

@misc{synthmed2026,

  title  = {SynthMed: Open Platform for Healthcare Dataset Synthesis},

  author = {SynthMed Team},

  year   = {2026},

  url    = {https://synthmed.id}

}

Referensi Ilmiah

SynthMed dibangun di atas fondasi ilmiah yang kuat. Berikut paper utama yang menjadi dasar pengembangan platform:

CTGAN & TVAE (Model Utama)

Xu, L., Skoularidou, M., Cuesta-Infante, A., & Veeramachaneni, K. (2019). Modeling Tabular Data using Conditional GAN. NeurIPS 2019. arXiv:1907.00503

SDV Library (Backend)

Patki, N., Wedge, R., & Veeramachaneni, K. (2016). The Synthetic Data Vault. IEEE DSAA 2016.

Synthetic Data Overview

Jordon, J., Yoon, J., & van der Schaar, M. (2022). Synthetic Data — what, why and how? arXiv:2205.03257.

CTAB-GAN (Extension untuk Data Medis)

Zhao, Z., Kunar, A., Birke, R., & Chen, L. Y. (2021). CTAB-GAN: Effective Table Data Synthesizing. AISTATS 2021. PMLR.

Synthetic Patient Data

Walonoski, J., Kramer, M., Nichols, S., et al. (2018). Synthea: An approach, methodology, and software to generate synthetic patient data. JAMIA.

🙏

Terima kasih! Dengan menyitasi SynthMed, Anda membantu kami mengembangkan platform ini untuk lebih banyak peneliti.