Dokumentasi

Panduan Lengkap SynthMed

Pelajari cara menggunakan platform sintesis dataset kesehatan dari awal hingga mahir.

Memulai

Apa itu SynthMed?

💡
SynthMed adalah platform riset terbuka dan 100% gratis yang membantu peneliti kesehatan untuk mengaugmentasi (memperbanyak) dataset mereka menggunakan metode AI Generative (GAN & TVAE). Data Anda diproses secara transien di server kami untuk proses training AI dan otomatis dihapus secara berkala untuk menjamin privasi.

Mengapa Data Sintesis?

Dalam penelitian kesehatan, akses ke data pasien seringkali terbatas karena regulasi privasi (HIPAA, GDPR). Data sintesis memungkinkan peneliti untuk:

  • Memperbanyak dataset kecil menjadi dataset besar (2x - 100x lipat)
  • Mempertahankan distribusi statistik yang sama dengan data asli
  • Menghindari pelanggaran privasi pasien
  • Meningkatkan akurasi model prediktif dengan lebih banyak data training

Fitur Utama

📤

Upload & Analisis

Upload CSV, sistem otomatis deteksi tipe kolom dan distribusi data.

🔬

2 Arsitektur Neural

Pilih antara CTGAN untuk dataset besar atau TVAE untuk dataset kecil/sensitif.

📊

Laporan Kualitas

Perbandingan distribusi data asli vs sintetis otomatis.

📥

Download Instan

Unduh dataset sintetis dalam format CSV langsung dari browser.

Memulai

Quick Start

Ikuti 4 langkah sederhana untuk membuat dataset sintetis pertama Anda:

1

Upload Dataset CSV

Buka Synthesizer, upload file CSV atau klik "Gunakan Data Sample" untuk mencoba langsung.

2

Atur Konfigurasi

Pilih multiplier (2x-100x), kolom target, metode sintesis, dan intensitas training (epochs).

3

Generate Data

Klik "Mulai Sintesis" dan tunggu proses selesai. AI akan menganalisis pola dan menghasilkan data baru.

4

Review & Download

Periksa laporan kualitas, bandingkan distribusi, lalu unduh file CSV hasil sintesis.

🎯
Tips: Gunakan data sample terlebih dahulu untuk memahami cara kerja platform.
Memulai

Data Sample

Kami menyediakan dataset sample berisi 30 record pasien dengan 10 kolom untuk mencoba platform:

🏥 Data Pasien Kesehatan

Berisi data demografi, vital signs, lab results, dan diagnosis. Cocok untuk latihan augmentasi data klinik.

30 baris 10 kolom 7 numerik 3 kategorikal
📥 Download CSV

Detail Kolom

KolomTipeDeskripsiContoh
patient_idKategorikalID unik pasienP001
ageNumerikUsia pasien (tahun)45
genderKategorikalJenis kelaminLaki-laki
blood_pressure_systolicNumerikTekanan darah sistolik (mmHg)130
blood_pressure_diastolicNumerikTekanan darah diastolik (mmHg)85
heart_rateNumerikDetak jantung (bpm)78
cholesterol_totalNumerikTotal kolesterol (mg/dL)210
blood_sugarNumerikGula darah (mg/dL)105
bmiNumerikBody Mass Index27.3
diagnosisKategorikalDiagnosis utamaHipertensi
Referensi Teknis

Arsitektur Neural AI

SynthMed menggunakan teknologi Deep Learning terbaru (Generative Adversarial Networks & Variational Autoencoders) untuk mensintesis data medis. Pilih model yang sesuai dengan karakteristik dataset Anda:

🧬

CTGAN Model

Model Generative Adversarial Network yang dioptimalkan untuk data tabular. Menggunakan generator dan discriminator untuk menciptakan data baru yang identik secara statistik.

🔧 Cara Kerja:
  1. Identifikasi korelasi antar kolom (multivariate analysis)
  2. Training Neural Network untuk menebak distribusi asli
  3. Generasi data sintetis dengan high-diversity
✅ Kelebihan:
  • Mampu menangani dataset besar (>1000 baris)
  • Sangat variatif dan inovatif dalam menghasilkan data baru
Terbaik untuk: Dataset besar & kompleks
🔬

TVAE Model

Tabular Variational Autoencoder yang menggunakan sistem encoder-decoder untuk memetakan data ke ruang laten.

🔧 Cara Kerja:
  1. Encoder mengompresi data asli ke bentuk matematis sederhana
  2. Decoder membangun ulang data dari representasi laten tersebut
  3. Regulasi statistik untuk menjaga akurasi distribusi
✅ Kelebihan:
  • Sangat akurat (Similarity Score tinggi)
  • Sangat stabil untuk dataset kecil (30-500 baris)
Terbaik untuk: Dataset kecil & sensitif (EHR)

Parameter Konfigurasi

ParameterRentangRekomendasiDeskripsi
Multiplier2x – 100x2x – 10xBerapa kali lipat data output dari data asli
Epochs100 – 1000300 – 500Jumlah iterasi training (semakin tinggi, semakin akurat)
ModelCTGAN / TVAETVAE (small)Arsitektur neural yang digunakan sesuai ukuran data
⚠️
Perhatian: Epochs yang lebih tinggi menghasilkan model yang lebih akurat tetapi membutuhkan waktu training lebih lama. Untuk dataset medis, gunakan 300-500 epochs.
Referensi Teknis

Metrik Kualitas

Setiap hasil sintesis dilengkapi laporan kualitas otomatis. Berikut metrik yang digunakan:

Distribution Similarity

Mengukur seberapa mirip distribusi data sintetis dengan data asli berdasarkan perbandingan mean:

Formula
similarity = 100 - |mean_asli - mean_sintetis| / |mean_asli| × 100
SkorRatingInterpretasi
> 95%🟢 Sangat BaikDistribusi hampir identik dengan data asli
85% – 95%🟡 BaikPerbedaan minor, masih layak untuk riset
70% – 85%🟠 CukupPerlu evaluasi lebih lanjut
< 70%🔴 KurangCoba naikkan epochs, pilih TVAE, atau kurangi multiplier

Informasi Tambahan

  • Total Baris Generated — Jumlah baris data sintetis yang berhasil dibuat
  • Kolom Disintesis — Jumlah kolom yang dipilih untuk diaugmentasi
  • Faktor Augmentasi — Multiplier yang digunakan (misal: 5x)
  • Tab Perbandingan — Mean, min, max data asli vs sintetis per kolom
Bantuan

FAQ (Pertanyaan Umum)

Apakah SynthMed benar-benar gratis?
Ya, 100% gratis tanpa batasan. Tidak ada paket berbayar, tidak perlu kartu kredit, dan akses penuh ke semua fitur.
Apakah data saya aman?
Ya. Meskipun data dikirim ke server untuk diproses oleh arsitektur AI (karena membutuhkan resource komputasi tinggi), data tersebut diproses secara stateless & transien. Data tidak disimpan permanen dan session otomatis dihapus setelah 1 jam.
Berapa ukuran file maksimal yang bisa di-upload?
Maksimal 10MB. Untuk file yang lebih besar, kami sarankan untuk membagi dataset menjadi beberapa bagian.
Format file apa saja yang didukung?
Saat ini hanya CSV (Comma-Separated Values) dengan header di baris pertama dan pemisah koma. Dukungan Excel (.xlsx) akan ditambahkan.
Model mana yang sebaiknya saya gunakan?
Gunakan CTGAN jika data Anda kompleks dan memiliki banyak baris (>1000). Gunakan TVAE jika dataset Anda lebih kecil (<500 baris) karena arsitektur VAE lebih stabil dalam memetakan ruang laten dataset kecil.
Apakah hasil sintesis bisa untuk publikasi ilmiah?
Ya, tentu. Pastikan untuk menjelaskan metode augmentasi yang digunakan dalam bagian metodologi paper Anda. Lihat bagian Cara Sitasi di bawah.
Berapa epochs yang disarankan?
Untuk riset medis: 300-500 epochs biasanya sudah cukup. Gunakan lebih tinggi (600-1000) jika hasil kualitas belum memuaskan, tapi perhatikan waktu training yang semakin lama.
Akademik

Cara Sitasi

Jika Anda menggunakan SynthMed dalam penelitian, silakan sitasi:

APA Format

SynthMed Team. (2026). SynthMed: Open Platform for Healthcare Dataset Synthesis. Retrieved from https://synthmed.id

BibTeX
@misc{synthmed2026,
  title  = {SynthMed: Open Platform for Healthcare Dataset Synthesis},
  author = {SynthMed Team},
  year   = {2026},
  url    = {https://synthmed.id}
}
🙏
Terima kasih! Dengan menyitasi SynthMed, Anda membantu kami mengembangkan platform ini untuk lebih banyak peneliti.