Apa itu SynthMed?
Mengapa Data Sintesis?
Dalam penelitian kesehatan, akses ke data pasien seringkali terbatas karena regulasi privasi (HIPAA, GDPR). Data sintesis memungkinkan peneliti untuk:
- Memperbanyak dataset kecil menjadi dataset besar (2x - 100x lipat)
- Mempertahankan distribusi statistik yang sama dengan data asli
- Menghindari pelanggaran privasi pasien
- Meningkatkan akurasi model prediktif dengan lebih banyak data training
Fitur Utama
Upload & Analisis
Upload CSV, sistem otomatis deteksi tipe kolom dan distribusi data.
2 Arsitektur Neural
Pilih antara CTGAN untuk dataset besar atau TVAE untuk dataset kecil/sensitif.
Laporan Kualitas
Perbandingan distribusi data asli vs sintetis otomatis.
Download Instan
Unduh dataset sintetis dalam format CSV langsung dari browser.
Quick Start
Ikuti 4 langkah sederhana untuk membuat dataset sintetis pertama Anda:
Upload Dataset CSV
Buka Synthesizer, upload file CSV atau klik "Gunakan Data Sample" untuk mencoba langsung.
Atur Konfigurasi
Pilih multiplier (2x-100x), kolom target, metode sintesis, dan intensitas training (epochs).
Generate Data
Klik "Mulai Sintesis" dan tunggu proses selesai. AI akan menganalisis pola dan menghasilkan data baru.
Review & Download
Periksa laporan kualitas, bandingkan distribusi, lalu unduh file CSV hasil sintesis.
Data Sample
Kami menyediakan dataset sample berisi 30 record pasien dengan 10 kolom untuk mencoba platform:
🏥 Data Pasien Kesehatan
Berisi data demografi, vital signs, lab results, dan diagnosis. Cocok untuk latihan augmentasi data klinik.
Detail Kolom
| Kolom | Tipe | Deskripsi | Contoh |
|---|---|---|---|
patient_id | Kategorikal | ID unik pasien | P001 |
age | Numerik | Usia pasien (tahun) | 45 |
gender | Kategorikal | Jenis kelamin | Laki-laki |
blood_pressure_systolic | Numerik | Tekanan darah sistolik (mmHg) | 130 |
blood_pressure_diastolic | Numerik | Tekanan darah diastolik (mmHg) | 85 |
heart_rate | Numerik | Detak jantung (bpm) | 78 |
cholesterol_total | Numerik | Total kolesterol (mg/dL) | 210 |
blood_sugar | Numerik | Gula darah (mg/dL) | 105 |
bmi | Numerik | Body Mass Index | 27.3 |
diagnosis | Kategorikal | Diagnosis utama | Hipertensi |
Arsitektur Neural AI
SynthMed menggunakan teknologi Deep Learning terbaru (Generative Adversarial Networks & Variational Autoencoders) untuk mensintesis data medis. Pilih model yang sesuai dengan karakteristik dataset Anda:
CTGAN Model
Model Generative Adversarial Network yang dioptimalkan untuk data tabular. Menggunakan generator dan discriminator untuk menciptakan data baru yang identik secara statistik.
🔧 Cara Kerja:
- Identifikasi korelasi antar kolom (multivariate analysis)
- Training Neural Network untuk menebak distribusi asli
- Generasi data sintetis dengan high-diversity
✅ Kelebihan:
- Mampu menangani dataset besar (>1000 baris)
- Sangat variatif dan inovatif dalam menghasilkan data baru
TVAE Model
Tabular Variational Autoencoder yang menggunakan sistem encoder-decoder untuk memetakan data ke ruang laten.
🔧 Cara Kerja:
- Encoder mengompresi data asli ke bentuk matematis sederhana
- Decoder membangun ulang data dari representasi laten tersebut
- Regulasi statistik untuk menjaga akurasi distribusi
✅ Kelebihan:
- Sangat akurat (Similarity Score tinggi)
- Sangat stabil untuk dataset kecil (30-500 baris)
Parameter Konfigurasi
| Parameter | Rentang | Rekomendasi | Deskripsi |
|---|---|---|---|
| Multiplier | 2x – 100x | 2x – 10x | Berapa kali lipat data output dari data asli |
| Epochs | 100 – 1000 | 300 – 500 | Jumlah iterasi training (semakin tinggi, semakin akurat) |
| Model | CTGAN / TVAE | TVAE (small) | Arsitektur neural yang digunakan sesuai ukuran data |
Metrik Kualitas
Setiap hasil sintesis dilengkapi laporan kualitas otomatis. Berikut metrik yang digunakan:
Distribution Similarity
Mengukur seberapa mirip distribusi data sintetis dengan data asli berdasarkan perbandingan mean:
similarity = 100 - |mean_asli - mean_sintetis| / |mean_asli| × 100
| Skor | Rating | Interpretasi |
|---|---|---|
| > 95% | 🟢 Sangat Baik | Distribusi hampir identik dengan data asli |
| 85% – 95% | 🟡 Baik | Perbedaan minor, masih layak untuk riset |
| 70% – 85% | 🟠 Cukup | Perlu evaluasi lebih lanjut |
| < 70% | 🔴 Kurang | Coba naikkan epochs, pilih TVAE, atau kurangi multiplier |
Informasi Tambahan
- Total Baris Generated — Jumlah baris data sintetis yang berhasil dibuat
- Kolom Disintesis — Jumlah kolom yang dipilih untuk diaugmentasi
- Faktor Augmentasi — Multiplier yang digunakan (misal: 5x)
- Tab Perbandingan — Mean, min, max data asli vs sintetis per kolom
FAQ (Pertanyaan Umum)
Apakah SynthMed benar-benar gratis?
Apakah data saya aman?
Berapa ukuran file maksimal yang bisa di-upload?
Format file apa saja yang didukung?
Model mana yang sebaiknya saya gunakan?
Apakah hasil sintesis bisa untuk publikasi ilmiah?
Berapa epochs yang disarankan?
Cara Sitasi
Jika Anda menggunakan SynthMed dalam penelitian, silakan sitasi:
SynthMed Team. (2026). SynthMed: Open Platform for Healthcare Dataset Synthesis. Retrieved from https://synthmed.id
@misc{synthmed2026,
title = {SynthMed: Open Platform for Healthcare Dataset Synthesis},
author = {SynthMed Team},
year = {2026},
url = {https://synthmed.id}
}