Yapay Zeka ile Fotoğraf Oluşturma: GPU Sunucu Üzerinde Stable Diffusion ve Daha Fazlası

Yapay zeka destekli görsel üretimi, son üç yılda pazarlama, e-ticaret ve tasarım sektörlerini dönüştürdü. Midjourney ve DALL-E gibi SaaS hizmetler popüler olsa da, ciddi hacimde içerik üreten ya da hassas verilerle çalışan ekipler için kendi GPU sunucunuzda yapay zeka ile fotoğraf oluşturma çok daha mantıklı bir seçenek. Bu rehberde generative AI modellerinin nasıl çalıştığını, hangi GPU’nun yeterli olduğunu, gerçek maliyet karşılaştırmalarını ve bulut GPU sunucusu üzerinde Stable Diffusion’ı nasıl başlatacağınızı anlatıyoruz.

Yapay zeka ile fotoğraf oluşturma nedir?

Yapay zeka ile fotoğraf oluşturma, doğal dil komutları (prompt) verildiğinde sıfırdan yeni görseller üretebilen makine öğrenimi modellerinin kullanımıdır. Modern sistemler büyük ölçüde diffusion modellerine dayanır: model önce gürültülü bir görüntüden başlar ve adım adım onu istenen içeriğe dönüştürür.

Generative AI ve diffusion modellerinin temelleri

Diffusion modelleri, milyonlarca görsel-açıklama çiftiyle eğitilir. Bir text encoder (genellikle CLIP) prompt’u sayısal vektöre çevirir; ardından bir UNet mimarisi gürültüden başlayarak iteratif olarak görüntü oluşturur. Tüm bu süreç GPU üzerinde paralel matris çarpımları olarak gerçekleşir — bu yüzden CPU’da çalıştırmak pratik olarak imkansızdır. Tek bir 1024×1024 piksel görsel için tipik olarak 20-50 inference adımı, her adımda milyarlarca floating-point işlem gerekir.

Hangi yapay zeka modelleri görsel üretir?

Stable Diffusion (açık kaynak)

Stability AI tarafından geliştirilen Stable Diffusion, açık kaynak ekosisteminin temelidir. Tek bir consumer GPU’da bile çalışabilir, sayısız fine-tuned model varyasyonu mevcuttur ve tamamen yerel olarak kullanılabilir. Civitai ve Hugging Face üzerinde 100.000’den fazla checkpoint indirilebilir.

FLUX, SDXL, ControlNet

SDXL (Stable Diffusion XL) yüksek çözünürlük ve daha gerçekçi sonuçlar sunar. FLUX, 2024’te çıkan ve detayda Midjourney seviyesini yakalayan açık model. ControlNet ise mevcut bir referans görsele dayalı kompozisyon kontrolü sağlar — mimari ve ürün görseli üretimi için kritik. LoRA (Low-Rank Adaptation), kendi marka stilinizi sadece 20-30 referans görseliyle 1-2 saatte fine-tune etmenizi sağlar.

SaaS alternatifler (Midjourney, DALL-E, Firefly)

Midjourney, DALL-E 3 ve Adobe Firefly gibi servisler hızlı başlangıç sunar ama veri sizin elinizden çıkar, telif kuralları sağlayıcıya bağlıdır ve büyük hacimde aylık ücret hızla yükselir. Farklı AI/ML sağlayıcılarını karşılaştıran rehberimizde bu servislerin artı ve eksilerini ayrıntılı ele alıyoruz.

SaaS vs kendi GPU sunucunuz: hangisi size uygun?

Maliyet karşılaştırması (gerçek rakamlar)

Senaryo	SaaS (Midjourney Pro)	Cloud4U RTX A6000
100 görsel/ay	60 USD	~50 USD (saatlik)
1.000 görsel/ay	60 USD (limit)	~80 USD (saatlik)
10.000 görsel/ay	Mega plan ~120 USD	~250 USD
100.000 görsel/ay	N/A (limit aşımı)	~600 USD
Custom fine-tuned model	İmkansız	Dahil
Veri Türkiye’de mi?	Hayır (ABD/AB)	Evet

Yüksek hacim + custom model gereksinimi olan ekipler için kendi GPU sunucusu kazanır. Düşük hacim + hızlı başlangıç için SaaS daha pratik.

Veri gizliliği ve KVKK

Müşteri logoları, mahrem ürün görselleri veya finansal raporlardan üretilen infografikler — bunlar SaaS sağlayıcılarının ABD/AB sunucularına gönderilirse KVKK ve sektörel düzenlemeler açısından risk oluşturur. Türkiye’deki bir GPU sunucusunda çalışan model, verinin ülke dışına çıkmasını engeller.

Özelleştirme ve fine-tuning özgürlüğü

Kendi marka stilinize fine-tune edilmiş bir model, SaaS’ta mümkün değildir. LoRA veya DreamBooth ile birkaç saat eğitim yaparak markanızın görsel kimliğini taşıyan tutarlı çıktılar üretebilirsiniz.

Yapay zeka görsel üretimi için hangi GPU gerekir?

VRAM gereksinimleri (12 / 24 / 48 GB)

12 GB (RTX 3060): Klasik Stable Diffusion 1.5 yeterli, SDXL kısıtlı
24 GB (RTX 3090, 4090, A5000): SDXL, FLUX, ControlNet rahat çalışır
48 GB (RTX A6000): Çoklu LoRA, batch generation, video diffusion

NVIDIA A100, H100, RTX A6000 karşılaştırması

GPU	VRAM	Tipik kullanım	Görsel/dakika (SDXL)
RTX 4090	24 GB	Geliştirme, küçük takım	25-40
RTX A6000	48 GB	Stüdyo production	30-50
A100 80 GB	80 GB	Eğitim ve büyük batch	60-80
H100	80 GB	Üretken AI eğitimi	100+

Tek GPU vs çoklu GPU senaryoları

Inference (görsel üretimi) için tek bir güçlü GPU yeterlidir. Ancak fine-tuning veya video diffusion için çoklu GPU sunucusu üretkenliği lineer arttırır. Production-grade GPU sunucu altyapınızı oluştururken dedicated sunucu kiralama alternatiflerini de göz önünde bulundurabilirsiniz.

Bulut GPU sunucu üzerinde Stable Diffusion kurulumu adım adım

Sunucu kiralama ve OS seçimi

Cloud4U Türkiye’de Ubuntu 22.04 + NVIDIA driver pre-install seçeneğiyle 5 dakikada GPU sunucu hazır hale gelir. SSH erişimi sağlandıktan sonra aşağıdaki adımları izleyebilirsiniz.

CUDA ve PyTorch kurulumu

nvidia-smi  # GPU ve sürücü kontrolü
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

Model indirme ve inference çalıştırma

Hugging Face Hub üzerinden model ağırlıklarını indirin:

pip install diffusers transformers accelerate
huggingface-cli login

İlk inference için Python:

from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0"
).to("cuda")
img = pipe("İstanbul boğazında modern ofis, fotoğraf gerçekliği").images[0]
img.save("out.png")

Web arayüzü (Automatic1111, ComfyUI)

Komut satırı yerine görsel arayüz tercih edenler için AUTOMATIC1111 WebUI ve ComfyUI popüler seçeneklerdir. Tek komutla Docker üzerinden ayağa kalkar, takım üyelerinizle paylaşılabilir.

Türk işletmeler için pratik kullanım senaryoları

Pazarlama görselleri ve sosyal medya — gerçek vaka

Bir İstanbul-merkezli digital agency, müşteri başına ayda 200+ banner üretirken Photoshop’ta her birine 30 dakika harcıyordu. Cloud4U RTX A6000 sunucusu üzerinde Stable Diffusion + ControlNet kurulumundan sonra ölçümler:

Banner başına süre: 30 dk → 4 dk (%87 düşüş)
Aylık tasarımcı saati: 100 saat → 14 saat
Aylık altyapı maliyeti: 0 → ~80 USD
Ek banner kapasitesi: ayda 200 → 1.500

ROI ilk ayında pozitif, üçüncü ayda %1.200.

E-ticaret ürün görselleri

Bir tekstil markası ürün fotoğraflarını farklı modeller, mekanlar ve ışıklarda yeniden ürettirerek stüdyo çekim maliyetini %70 azalttı.

Mimari ve iç tasarım konseptleri

Mimari ofisler, müşteriye yüzlerce konsept varyasyonu sunmak için ControlNet ile mevcut planlardan fotoğraf gerçekliğinde render üretiyor.

LoRA fine-tuning adım adım

Markanızın görsel kimliğini öğreten LoRA modeli oluşturmak için tipik akış:

# 1. Eğitim verisi: 20-30 referans görsel, hepsi 1024x1024 px
mkdir training_data && cd training_data
# Her görsele eşlik eden caption.txt: "marka_x stili, modern ofis, ışık..."

# 2. Kohya_ss SDXL LoRA training
git clone https://github.com/bmaltais/kohya_ss
cd kohya_ss && ./setup.sh

accelerate launch --num_cpu_threads_per_process=2 \
  sdxl_train_network.py \
  --pretrained_model="stabilityai/stable-diffusion-xl-base-1.0" \
  --train_data_dir="./training_data" \
  --output_dir="./output" \
  --network_module=networks.lora \
  --network_dim=32 \
  --max_train_steps=2000 \
  --learning_rate=1e-4 \
  --train_batch_size=2

24 GB VRAM’lı RTX A5000’de yaklaşık 90 dakika sürer; A100’de 35 dakika. Sonuç ~150 MB’lık bir LoRA dosyası — Stable Diffusion’a yüklediğinizde markanızın stilinde tutarlı görseller üretir.

Türkçe için prompt mühendisliği

Çoğu açık model İngilizce eğitildiği için Türkçe promptlar zayıf çalışır. Pratik yaklaşım: Türkçe konsepti İngilizce prompt’a çevirmek.

Türkçe niyet	Etkili İngilizce prompt
“İstanbul ofisi, modern”	“modern Istanbul office, glass walls, Bosphorus view, photorealistic, 8K”
“Türk geleneksel halı”	“traditional Turkish kilim rug, handwoven, geometric patterns, warm colors”
“İş kadını portre”	“professional Turkish businesswoman, confident expression, natural lighting, headshot”

İpucu: Negative prompt eklemek de kritik — low quality, blurry, distorted, watermark, text gibi.

ComfyUI vs Automatic1111

Özellik	Automatic1111	ComfyUI
Öğrenme eğrisi	Düşük (panel-tabanlı)	Yüksek (node-tabanlı)
Esneklik	Orta	Çok yüksek
Workflow paylaşımı	Çoğunlukla preset	JSON workflow dosyası
API erişimi	REST API addon	Native API
Hız	Daha yavaş	%20-30 hızlı
Tipik kullanıcı	Pazarlama, tasarımcı	Geliştirici, AI mühendisi

Çoğu takım her ikisini paralel kullanır: A1111 günlük üretim, ComfyUI özel workflow geliştirme için.

Aylık maliyet hesaplayıcı

200 banner/gün üreten bir agency için ROI:

Tasarımcı saati maliyeti: 350 TL/saat
Manual üretim: 200 banner × 30 dk = 100 saat = 35.000 TL
AI ile üretim: 200 × 4 dk = 13 saat = 4.550 TL
GPU sunucu maliyeti: ~80 USD = ~2.500 TL
Aylık tasarruf: 35.000 - 4.550 - 2.500 = 27.950 TL
Yıllık tasarruf: ~335.000 TL

Yatırım (LoRA fine-tuning + ekip eğitimi): ~50.000 TL bir kez. Geri dönüş süresi: 2 ay.

Cloud4U GPU Sunucu Kiralama ile başlayın

Cloud4U Türkiye GPU Sunucu Kiralama hizmeti ile NVIDIA A100, H100 ve RTX serisi GPU’lara saatlik veya aylık faturalandırma ile erişebilirsiniz. Türkiye’deki veri merkezimizde çalışan sunucularda yapay zeka ile fotoğraf oluşturma dahil tüm generative AI iş yüklerinizi düşük gecikmeyle çalıştırabilir, modellerinizi kendi denetiminizde tutabilirsiniz. POC için ücretsiz danışmanlık talep edin.

SSS

Yapay zeka ile üretilen görsellerin telif hakkı kime ait?

Türkiye’de net bir mevzuat henüz yok ama AB AI Act ve ABD Telif Ofisi kararları AI çıktılarının kamuya açık olduğunu söylüyor. Custom fine-tuned modelle üretilen görseller için ticari kullanım hakları daha güçlü tutulabilir.

Hangi GPU başlangıç için yeterli?

Küçük takım için RTX 4090 (24 GB) veya bulut RTX A5000 yeterli. Production scale için A6000 veya A100 önerilir.

Saatlik mi aylık mı kiralama?

Kullanım örüntüsüne bağlı. Günde 4 saatten az kullanıyorsanız saatlik daha ekonomik; sürekli kullanım için aylık taahhüt %30-50 indirim sağlar.

Mevcut görsel arşivimle modeli fine-tune edebilir miyim?

Evet. 20-30 referans görselle LoRA fine-tuning 1-2 saat sürer. Kendi marka stilinizi öğretebilirsiniz. Eğitim verilerinizi güvende tutmak istiyorsanız bulut depolama sistemleri sayfamıza bakın.

Fotoğraf gerçekliğinde sonuç almak mümkün mü?

Evet, FLUX ve SDXL fine-tuned versiyonlarıyla profesyonel fotoğraf seviyesi mümkün. Sonuç kalitesi büyük ölçüde prompt mühendisliği ve kullanılan checkpoint’e bağlıdır.

Video oluşturma da yapabilir miyim?

Evet, AnimateDiff, Stable Video Diffusion gibi modellerle. VRAM gereksinimi 24 GB+, optimum 48 GB.

Hangi Türkçe promptlar daha iyi çalışıyor?

Çoğu model İngilizce eğitildiği için İngilizce promptlar daha tutarlı sonuç verir. Türkçe prompt için CLIP-Turkish entegrasyonlu modeller veya çeviri katmanı eklemek gerekebilir.