Yapay zeka destekli görsel üretimi, son üç yılda pazarlama, e-ticaret ve tasarım sektörlerini dönüştürdü. Midjourney ve DALL-E gibi SaaS hizmetler popüler olsa da, ciddi hacimde içerik üreten ya da hassas verilerle çalışan ekipler için kendi GPU sunucunuzda yapay zeka ile fotoğraf oluşturma çok daha mantıklı bir seçenek. Bu rehberde generative AI modellerinin nasıl çalıştığını, hangi GPU’nun yeterli olduğunu, gerçek maliyet karşılaştırmalarını ve bulut GPU sunucusu üzerinde Stable Diffusion’ı nasıl başlatacağınızı anlatıyoruz.
Yapay zeka ile fotoğraf oluşturma nedir?
Yapay zeka ile fotoğraf oluşturma, doğal dil komutları (prompt) verildiğinde sıfırdan yeni görseller üretebilen makine öğrenimi modellerinin kullanımıdır. Modern sistemler büyük ölçüde diffusion modellerine dayanır: model önce gürültülü bir görüntüden başlar ve adım adım onu istenen içeriğe dönüştürür.
Generative AI ve diffusion modellerinin temelleri
Diffusion modelleri, milyonlarca görsel-açıklama çiftiyle eğitilir. Bir text encoder (genellikle CLIP) prompt’u sayısal vektöre çevirir; ardından bir UNet mimarisi gürültüden başlayarak iteratif olarak görüntü oluşturur. Tüm bu süreç GPU üzerinde paralel matris çarpımları olarak gerçekleşir — bu yüzden CPU’da çalıştırmak pratik olarak imkansızdır. Tek bir 1024×1024 piksel görsel için tipik olarak 20-50 inference adımı, her adımda milyarlarca floating-point işlem gerekir.
Hangi yapay zeka modelleri görsel üretir?
Stable Diffusion (açık kaynak)
Stability AI tarafından geliştirilen Stable Diffusion, açık kaynak ekosisteminin temelidir. Tek bir consumer GPU’da bile çalışabilir, sayısız fine-tuned model varyasyonu mevcuttur ve tamamen yerel olarak kullanılabilir. Civitai ve Hugging Face üzerinde 100.000’den fazla checkpoint indirilebilir.
FLUX, SDXL, ControlNet
SDXL (Stable Diffusion XL) yüksek çözünürlük ve daha gerçekçi sonuçlar sunar. FLUX, 2024’te çıkan ve detayda Midjourney seviyesini yakalayan açık model. ControlNet ise mevcut bir referans görsele dayalı kompozisyon kontrolü sağlar — mimari ve ürün görseli üretimi için kritik. LoRA (Low-Rank Adaptation), kendi marka stilinizi sadece 20-30 referans görseliyle 1-2 saatte fine-tune etmenizi sağlar.
SaaS alternatifler (Midjourney, DALL-E, Firefly)
Midjourney, DALL-E 3 ve Adobe Firefly gibi servisler hızlı başlangıç sunar ama veri sizin elinizden çıkar, telif kuralları sağlayıcıya bağlıdır ve büyük hacimde aylık ücret hızla yükselir. Farklı AI/ML sağlayıcılarını karşılaştıran rehberimizde bu servislerin artı ve eksilerini ayrıntılı ele alıyoruz.
SaaS vs kendi GPU sunucunuz: hangisi size uygun?
Maliyet karşılaştırması (gerçek rakamlar)
| Senaryo | SaaS (Midjourney Pro) | Cloud4U RTX A6000 |
|---|---|---|
| 100 görsel/ay | 60 USD | ~50 USD (saatlik) |
| 1.000 görsel/ay | 60 USD (limit) | ~80 USD (saatlik) |
| 10.000 görsel/ay | Mega plan ~120 USD | ~250 USD |
| 100.000 görsel/ay | N/A (limit aşımı) | ~600 USD |
| Custom fine-tuned model | İmkansız | Dahil |
| Veri Türkiye’de mi? | Hayır (ABD/AB) | Evet |
Yüksek hacim + custom model gereksinimi olan ekipler için kendi GPU sunucusu kazanır. Düşük hacim + hızlı başlangıç için SaaS daha pratik.
Veri gizliliği ve KVKK
Müşteri logoları, mahrem ürün görselleri veya finansal raporlardan üretilen infografikler — bunlar SaaS sağlayıcılarının ABD/AB sunucularına gönderilirse KVKK ve sektörel düzenlemeler açısından risk oluşturur. Türkiye’deki bir GPU sunucusunda çalışan model, verinin ülke dışına çıkmasını engeller.
Özelleştirme ve fine-tuning özgürlüğü
Kendi marka stilinize fine-tune edilmiş bir model, SaaS’ta mümkün değildir. LoRA veya DreamBooth ile birkaç saat eğitim yaparak markanızın görsel kimliğini taşıyan tutarlı çıktılar üretebilirsiniz.
Yapay zeka görsel üretimi için hangi GPU gerekir?
VRAM gereksinimleri (12 / 24 / 48 GB)
- 12 GB (RTX 3060): Klasik Stable Diffusion 1.5 yeterli, SDXL kısıtlı
- 24 GB (RTX 3090, 4090, A5000): SDXL, FLUX, ControlNet rahat çalışır
- 48 GB (RTX A6000): Çoklu LoRA, batch generation, video diffusion
NVIDIA A100, H100, RTX A6000 karşılaştırması
| GPU | VRAM | Tipik kullanım | Görsel/dakika (SDXL) |
|---|---|---|---|
| RTX 4090 | 24 GB | Geliştirme, küçük takım | 25-40 |
| RTX A6000 | 48 GB | Stüdyo production | 30-50 |
| A100 80 GB | 80 GB | Eğitim ve büyük batch | 60-80 |
| H100 | 80 GB | Üretken AI eğitimi | 100+ |
Tek GPU vs çoklu GPU senaryoları
Inference (görsel üretimi) için tek bir güçlü GPU yeterlidir. Ancak fine-tuning veya video diffusion için çoklu GPU sunucusu üretkenliği lineer arttırır. Production-grade GPU sunucu altyapınızı oluştururken dedicated sunucu kiralama alternatiflerini de göz önünde bulundurabilirsiniz.
Bulut GPU sunucu üzerinde Stable Diffusion kurulumu adım adım
Sunucu kiralama ve OS seçimi
Cloud4U Türkiye’de Ubuntu 22.04 + NVIDIA driver pre-install seçeneğiyle 5 dakikada GPU sunucu hazır hale gelir. SSH erişimi sağlandıktan sonra aşağıdaki adımları izleyebilirsiniz.
CUDA ve PyTorch kurulumu
nvidia-smi # GPU ve sürücü kontrolü
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121
Model indirme ve inference çalıştırma
Hugging Face Hub üzerinden model ağırlıklarını indirin:
pip install diffusers transformers accelerate
huggingface-cli login
İlk inference için Python:
from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0"
).to("cuda")
img = pipe("İstanbul boğazında modern ofis, fotoğraf gerçekliği").images[0]
img.save("out.png")
Web arayüzü (Automatic1111, ComfyUI)
Komut satırı yerine görsel arayüz tercih edenler için AUTOMATIC1111 WebUI ve ComfyUI popüler seçeneklerdir. Tek komutla Docker üzerinden ayağa kalkar, takım üyelerinizle paylaşılabilir.
Türk işletmeler için pratik kullanım senaryoları
Pazarlama görselleri ve sosyal medya — gerçek vaka
Bir İstanbul-merkezli digital agency, müşteri başına ayda 200+ banner üretirken Photoshop’ta her birine 30 dakika harcıyordu. Cloud4U RTX A6000 sunucusu üzerinde Stable Diffusion + ControlNet kurulumundan sonra ölçümler:
- Banner başına süre: 30 dk → 4 dk (%87 düşüş)
- Aylık tasarımcı saati: 100 saat → 14 saat
- Aylık altyapı maliyeti: 0 → ~80 USD
- Ek banner kapasitesi: ayda 200 → 1.500
ROI ilk ayında pozitif, üçüncü ayda %1.200.
E-ticaret ürün görselleri
Bir tekstil markası ürün fotoğraflarını farklı modeller, mekanlar ve ışıklarda yeniden ürettirerek stüdyo çekim maliyetini %70 azalttı.
Mimari ve iç tasarım konseptleri
Mimari ofisler, müşteriye yüzlerce konsept varyasyonu sunmak için ControlNet ile mevcut planlardan fotoğraf gerçekliğinde render üretiyor.
LoRA fine-tuning adım adım
Markanızın görsel kimliğini öğreten LoRA modeli oluşturmak için tipik akış:
# 1. Eğitim verisi: 20-30 referans görsel, hepsi 1024x1024 px
mkdir training_data && cd training_data
# Her görsele eşlik eden caption.txt: "marka_x stili, modern ofis, ışık..."
# 2. Kohya_ss SDXL LoRA training
git clone https://github.com/bmaltais/kohya_ss
cd kohya_ss && ./setup.sh
accelerate launch --num_cpu_threads_per_process=2 \
sdxl_train_network.py \
--pretrained_model="stabilityai/stable-diffusion-xl-base-1.0" \
--train_data_dir="./training_data" \
--output_dir="./output" \
--network_module=networks.lora \
--network_dim=32 \
--max_train_steps=2000 \
--learning_rate=1e-4 \
--train_batch_size=2
24 GB VRAM’lı RTX A5000’de yaklaşık 90 dakika sürer; A100’de 35 dakika. Sonuç ~150 MB’lık bir LoRA dosyası — Stable Diffusion’a yüklediğinizde markanızın stilinde tutarlı görseller üretir.
Türkçe için prompt mühendisliği
Çoğu açık model İngilizce eğitildiği için Türkçe promptlar zayıf çalışır. Pratik yaklaşım: Türkçe konsepti İngilizce prompt’a çevirmek.
| Türkçe niyet | Etkili İngilizce prompt |
|---|---|
| “İstanbul ofisi, modern” | “modern Istanbul office, glass walls, Bosphorus view, photorealistic, 8K” |
| “Türk geleneksel halı” | “traditional Turkish kilim rug, handwoven, geometric patterns, warm colors” |
| “İş kadını portre” | “professional Turkish businesswoman, confident expression, natural lighting, headshot” |
İpucu: Negative prompt eklemek de kritik — low quality, blurry, distorted, watermark, text gibi.
ComfyUI vs Automatic1111
| Özellik | Automatic1111 | ComfyUI |
|---|---|---|
| Öğrenme eğrisi | Düşük (panel-tabanlı) | Yüksek (node-tabanlı) |
| Esneklik | Orta | Çok yüksek |
| Workflow paylaşımı | Çoğunlukla preset | JSON workflow dosyası |
| API erişimi | REST API addon | Native API |
| Hız | Daha yavaş | %20-30 hızlı |
| Tipik kullanıcı | Pazarlama, tasarımcı | Geliştirici, AI mühendisi |
Çoğu takım her ikisini paralel kullanır: A1111 günlük üretim, ComfyUI özel workflow geliştirme için.
Aylık maliyet hesaplayıcı
200 banner/gün üreten bir agency için ROI:
- Tasarımcı saati maliyeti: 350 TL/saat
- Manual üretim: 200 banner × 30 dk = 100 saat = 35.000 TL
- AI ile üretim: 200 × 4 dk = 13 saat = 4.550 TL
- GPU sunucu maliyeti: ~80 USD = ~2.500 TL
- Aylık tasarruf: 35.000 - 4.550 - 2.500 = 27.950 TL
- Yıllık tasarruf: ~335.000 TL
Yatırım (LoRA fine-tuning + ekip eğitimi): ~50.000 TL bir kez. Geri dönüş süresi: 2 ay.
Cloud4U GPU Sunucu Kiralama ile başlayın
Cloud4U Türkiye GPU Sunucu Kiralama hizmeti ile NVIDIA A100, H100 ve RTX serisi GPU’lara saatlik veya aylık faturalandırma ile erişebilirsiniz. Türkiye’deki veri merkezimizde çalışan sunucularda yapay zeka ile fotoğraf oluşturma dahil tüm generative AI iş yüklerinizi düşük gecikmeyle çalıştırabilir, modellerinizi kendi denetiminizde tutabilirsiniz. POC için ücretsiz danışmanlık talep edin.