CV
Bilgisayarlı Görü Bootcamp
OpenCV · PyTorch · 90 Saat · 15 Hafta · Dr. Murat Altun
Program DERİN GÖRÜ & ÜRETİCİ Hafta 12
HAFTA 12 · 6 SAAT

Vision Transformers, DINOv2 ve CLIP

Modül 12 — Bölüm C

📊 hafta12_vision_transformers_clip.pptx 🎁 Ücretsiz Demo
1 Transformer hatırlatma: self-attention mekaniği
2 ViT (Vision Transformer): patch embedding, position encoding
3 Swin Transformer: hierarchical windows
4 DINOv2: self-supervised vision backbone
5 Multimodal model: CLIP (Contrastive Language-Image Pretraining)
6 CLIP zero-shot classification: text-image embedding
7 Embedding tabanlı görsel arama (image retrieval)
8 BLIP-2 ve LLaVA ile görsel sorgulama (VQA)
9 HuggingFace transformers vision pipeline
10 CLIP ile NSFW filtreleme, içerik moderasyonu
Kütüphaneler: transformerstorchclip-by-openaisentence-transformers