Kayıt ol Giriş yap +90 212 706 73 93

Yapay Zeka ile Fotoğraf Oluşturma: GPU Sunucu Üzerinde Stable Diffusion ve Daha Fazlası


Yapay zeka destekli görsel üretimi, son üç yılda pazarlama, e-ticaret ve tasarım sektörlerini dönüştürdü. Midjourney ve DALL-E gibi SaaS hizmetler popüler olsa da, ciddi hacimde içerik üreten ya da hassas verilerle çalışan ekipler için kendi GPU sunucunuzda yapay zeka ile fotoğraf oluşturma çok daha mantıklı bir seçenek. Bu rehberde generative AI modellerinin nasıl çalıştığını, hangi GPU’nun yeterli olduğunu, gerçek maliyet karşılaştırmalarını ve bulut GPU sunucusu üzerinde Stable Diffusion’ı nasıl başlatacağınızı anlatıyoruz.

Yapay zeka ile fotoğraf oluşturma nedir?

Yapay zeka ile fotoğraf oluşturma, doğal dil komutları (prompt) verildiğinde sıfırdan yeni görseller üretebilen makine öğrenimi modellerinin kullanımıdır. Modern sistemler büyük ölçüde diffusion modellerine dayanır: model önce gürültülü bir görüntüden başlar ve adım adım onu istenen içeriğe dönüştürür.

Generative AI ve diffusion modellerinin temelleri

Diffusion modelleri, milyonlarca görsel-açıklama çiftiyle eğitilir. Bir text encoder (genellikle CLIP) prompt’u sayısal vektöre çevirir; ardından bir UNet mimarisi gürültüden başlayarak iteratif olarak görüntü oluşturur. Tüm bu süreç GPU üzerinde paralel matris çarpımları olarak gerçekleşir — bu yüzden CPU’da çalıştırmak pratik olarak imkansızdır. Tek bir 1024×1024 piksel görsel için tipik olarak 20-50 inference adımı, her adımda milyarlarca floating-point işlem gerekir.

Hangi yapay zeka modelleri görsel üretir?

Stable Diffusion (açık kaynak)

Stability AI tarafından geliştirilen Stable Diffusion, açık kaynak ekosisteminin temelidir. Tek bir consumer GPU’da bile çalışabilir, sayısız fine-tuned model varyasyonu mevcuttur ve tamamen yerel olarak kullanılabilir. Civitai ve Hugging Face üzerinde 100.000’den fazla checkpoint indirilebilir.

FLUX, SDXL, ControlNet

SDXL (Stable Diffusion XL) yüksek çözünürlük ve daha gerçekçi sonuçlar sunar. FLUX, 2024’te çıkan ve detayda Midjourney seviyesini yakalayan açık model. ControlNet ise mevcut bir referans görsele dayalı kompozisyon kontrolü sağlar — mimari ve ürün görseli üretimi için kritik. LoRA (Low-Rank Adaptation), kendi marka stilinizi sadece 20-30 referans görseliyle 1-2 saatte fine-tune etmenizi sağlar.

SaaS alternatifler (Midjourney, DALL-E, Firefly)

Midjourney, DALL-E 3 ve Adobe Firefly gibi servisler hızlı başlangıç sunar ama veri sizin elinizden çıkar, telif kuralları sağlayıcıya bağlıdır ve büyük hacimde aylık ücret hızla yükselir. Farklı AI/ML sağlayıcılarını karşılaştıran rehberimizde bu servislerin artı ve eksilerini ayrıntılı ele alıyoruz.

SaaS vs kendi GPU sunucunuz: hangisi size uygun?

Maliyet karşılaştırması (gerçek rakamlar)

Senaryo SaaS (Midjourney Pro) Cloud4U RTX A6000
100 görsel/ay 60 USD ~50 USD (saatlik)
1.000 görsel/ay 60 USD (limit) ~80 USD (saatlik)
10.000 görsel/ay Mega plan ~120 USD ~250 USD
100.000 görsel/ay N/A (limit aşımı) ~600 USD
Custom fine-tuned model İmkansız Dahil
Veri Türkiye’de mi? Hayır (ABD/AB) Evet

Yüksek hacim + custom model gereksinimi olan ekipler için kendi GPU sunucusu kazanır. Düşük hacim + hızlı başlangıç için SaaS daha pratik.

Veri gizliliği ve KVKK

Müşteri logoları, mahrem ürün görselleri veya finansal raporlardan üretilen infografikler — bunlar SaaS sağlayıcılarının ABD/AB sunucularına gönderilirse KVKK ve sektörel düzenlemeler açısından risk oluşturur. Türkiye’deki bir GPU sunucusunda çalışan model, verinin ülke dışına çıkmasını engeller.

Özelleştirme ve fine-tuning özgürlüğü

Kendi marka stilinize fine-tune edilmiş bir model, SaaS’ta mümkün değildir. LoRA veya DreamBooth ile birkaç saat eğitim yaparak markanızın görsel kimliğini taşıyan tutarlı çıktılar üretebilirsiniz.

Yapay zeka görsel üretimi için hangi GPU gerekir?

VRAM gereksinimleri (12 / 24 / 48 GB)

  • 12 GB (RTX 3060): Klasik Stable Diffusion 1.5 yeterli, SDXL kısıtlı
  • 24 GB (RTX 3090, 4090, A5000): SDXL, FLUX, ControlNet rahat çalışır
  • 48 GB (RTX A6000): Çoklu LoRA, batch generation, video diffusion

NVIDIA A100, H100, RTX A6000 karşılaştırması

GPU VRAM Tipik kullanım Görsel/dakika (SDXL)
RTX 4090 24 GB Geliştirme, küçük takım 25-40
RTX A6000 48 GB Stüdyo production 30-50
A100 80 GB 80 GB Eğitim ve büyük batch 60-80
H100 80 GB Üretken AI eğitimi 100+

Tek GPU vs çoklu GPU senaryoları

Inference (görsel üretimi) için tek bir güçlü GPU yeterlidir. Ancak fine-tuning veya video diffusion için çoklu GPU sunucusu üretkenliği lineer arttırır. Production-grade GPU sunucu altyapınızı oluştururken dedicated sunucu kiralama alternatiflerini de göz önünde bulundurabilirsiniz.

Bulut GPU sunucu üzerinde Stable Diffusion kurulumu adım adım

Sunucu kiralama ve OS seçimi

Cloud4U Türkiye’de Ubuntu 22.04 + NVIDIA driver pre-install seçeneğiyle 5 dakikada GPU sunucu hazır hale gelir. SSH erişimi sağlandıktan sonra aşağıdaki adımları izleyebilirsiniz.

CUDA ve PyTorch kurulumu

nvidia-smi  # GPU ve sürücü kontrolü
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

Model indirme ve inference çalıştırma

Hugging Face Hub üzerinden model ağırlıklarını indirin:

pip install diffusers transformers accelerate
huggingface-cli login

İlk inference için Python:

from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0"
).to("cuda")
img = pipe("İstanbul boğazında modern ofis, fotoğraf gerçekliği").images[0]
img.save("out.png")

Web arayüzü (Automatic1111, ComfyUI)

Komut satırı yerine görsel arayüz tercih edenler için AUTOMATIC1111 WebUI ve ComfyUI popüler seçeneklerdir. Tek komutla Docker üzerinden ayağa kalkar, takım üyelerinizle paylaşılabilir.

Türk işletmeler için pratik kullanım senaryoları

Pazarlama görselleri ve sosyal medya — gerçek vaka

Bir İstanbul-merkezli digital agency, müşteri başına ayda 200+ banner üretirken Photoshop’ta her birine 30 dakika harcıyordu. Cloud4U RTX A6000 sunucusu üzerinde Stable Diffusion + ControlNet kurulumundan sonra ölçümler:

  • Banner başına süre: 30 dk → 4 dk (%87 düşüş)
  • Aylık tasarımcı saati: 100 saat → 14 saat
  • Aylık altyapı maliyeti: 0 → ~80 USD
  • Ek banner kapasitesi: ayda 200 → 1.500

ROI ilk ayında pozitif, üçüncü ayda %1.200.

E-ticaret ürün görselleri

Bir tekstil markası ürün fotoğraflarını farklı modeller, mekanlar ve ışıklarda yeniden ürettirerek stüdyo çekim maliyetini %70 azalttı.

Mimari ve iç tasarım konseptleri

Mimari ofisler, müşteriye yüzlerce konsept varyasyonu sunmak için ControlNet ile mevcut planlardan fotoğraf gerçekliğinde render üretiyor.

LoRA fine-tuning adım adım

Markanızın görsel kimliğini öğreten LoRA modeli oluşturmak için tipik akış:

# 1. Eğitim verisi: 20-30 referans görsel, hepsi 1024x1024 px
mkdir training_data && cd training_data
# Her görsele eşlik eden caption.txt: "marka_x stili, modern ofis, ışık..."

# 2. Kohya_ss SDXL LoRA training
git clone https://github.com/bmaltais/kohya_ss
cd kohya_ss && ./setup.sh

accelerate launch --num_cpu_threads_per_process=2 \
  sdxl_train_network.py \
  --pretrained_model="stabilityai/stable-diffusion-xl-base-1.0" \
  --train_data_dir="./training_data" \
  --output_dir="./output" \
  --network_module=networks.lora \
  --network_dim=32 \
  --max_train_steps=2000 \
  --learning_rate=1e-4 \
  --train_batch_size=2

24 GB VRAM’lı RTX A5000’de yaklaşık 90 dakika sürer; A100’de 35 dakika. Sonuç ~150 MB’lık bir LoRA dosyası — Stable Diffusion’a yüklediğinizde markanızın stilinde tutarlı görseller üretir.

Türkçe için prompt mühendisliği

Çoğu açık model İngilizce eğitildiği için Türkçe promptlar zayıf çalışır. Pratik yaklaşım: Türkçe konsepti İngilizce prompt’a çevirmek.

Türkçe niyet Etkili İngilizce prompt
“İstanbul ofisi, modern” “modern Istanbul office, glass walls, Bosphorus view, photorealistic, 8K”
“Türk geleneksel halı” “traditional Turkish kilim rug, handwoven, geometric patterns, warm colors”
“İş kadını portre” “professional Turkish businesswoman, confident expression, natural lighting, headshot”

İpucu: Negative prompt eklemek de kritik — low quality, blurry, distorted, watermark, text gibi.

ComfyUI vs Automatic1111

Özellik Automatic1111 ComfyUI
Öğrenme eğrisi Düşük (panel-tabanlı) Yüksek (node-tabanlı)
Esneklik Orta Çok yüksek
Workflow paylaşımı Çoğunlukla preset JSON workflow dosyası
API erişimi REST API addon Native API
Hız Daha yavaş %20-30 hızlı
Tipik kullanıcı Pazarlama, tasarımcı Geliştirici, AI mühendisi

Çoğu takım her ikisini paralel kullanır: A1111 günlük üretim, ComfyUI özel workflow geliştirme için.

Aylık maliyet hesaplayıcı

200 banner/gün üreten bir agency için ROI:

  • Tasarımcı saati maliyeti: 350 TL/saat
  • Manual üretim: 200 banner × 30 dk = 100 saat = 35.000 TL
  • AI ile üretim: 200 × 4 dk = 13 saat = 4.550 TL
  • GPU sunucu maliyeti: ~80 USD = ~2.500 TL
  • Aylık tasarruf: 35.000 - 4.550 - 2.500 = 27.950 TL
  • Yıllık tasarruf: ~335.000 TL

Yatırım (LoRA fine-tuning + ekip eğitimi): ~50.000 TL bir kez. Geri dönüş süresi: 2 ay.

Cloud4U GPU Sunucu Kiralama ile başlayın

Cloud4U Türkiye GPU Sunucu Kiralama hizmeti ile NVIDIA A100, H100 ve RTX serisi GPU’lara saatlik veya aylık faturalandırma ile erişebilirsiniz. Türkiye’deki veri merkezimizde çalışan sunucularda yapay zeka ile fotoğraf oluşturma dahil tüm generative AI iş yüklerinizi düşük gecikmeyle çalıştırabilir, modellerinizi kendi denetiminizde tutabilirsiniz. POC için ücretsiz danışmanlık talep edin.

SSS

Yapay zeka ile üretilen görsellerin telif hakkı kime ait?
Türkiye’de net bir mevzuat henüz yok ama AB AI Act ve ABD Telif Ofisi kararları AI çıktılarının kamuya açık olduğunu söylüyor. Custom fine-tuned modelle üretilen görseller için ticari kullanım hakları daha güçlü tutulabilir.

Hangi GPU başlangıç için yeterli?
Küçük takım için RTX 4090 (24 GB) veya bulut RTX A5000 yeterli. Production scale için A6000 veya A100 önerilir.

Saatlik mi aylık mı kiralama?
Kullanım örüntüsüne bağlı. Günde 4 saatten az kullanıyorsanız saatlik daha ekonomik; sürekli kullanım için aylık taahhüt %30-50 indirim sağlar.

Mevcut görsel arşivimle modeli fine-tune edebilir miyim?

Evet. 20-30 referans görselle LoRA fine-tuning 1-2 saat sürer. Kendi marka stilinizi öğretebilirsiniz. Eğitim verilerinizi güvende tutmak istiyorsanız bulut depolama sistemleri sayfamıza bakın.


Fotoğraf gerçekliğinde sonuç almak mümkün mü?
Evet, FLUX ve SDXL fine-tuned versiyonlarıyla profesyonel fotoğraf seviyesi mümkün. Sonuç kalitesi büyük ölçüde prompt mühendisliği ve kullanılan checkpoint’e bağlıdır.

Video oluşturma da yapabilir miyim?
Evet, AnimateDiff, Stable Video Diffusion gibi modellerle. VRAM gereksinimi 24 GB+, optimum 48 GB.

Hangi Türkçe promptlar daha iyi çalışıyor?
Çoğu model İngilizce eğitildiği için İngilizce promptlar daha tutarlı sonuç verir. Türkçe prompt için CLIP-Turkish entegrasyonlu modeller veya çeviri katmanı eklemek gerekebilir.


Bu size yardımcı oldu mu?
0
0
Diğer Haberler
Scroll up!