Vision Transformers, DINOv2 ve CLIP

Modül 12 — Bölüm C

📊 hafta12_vision_transformers_clip.pptx 🎁 Ücretsiz Demo

1 Transformer hatırlatma: self-attention mekaniği

2 ViT (Vision Transformer): patch embedding, position encoding

3 Swin Transformer: hierarchical windows

4 DINOv2: self-supervised vision backbone

5 Multimodal model: CLIP (Contrastive Language-Image Pretraining)

6 CLIP zero-shot classification: text-image embedding

7 Embedding tabanlı görsel arama (image retrieval)

8 BLIP-2 ve LLaVA ile görsel sorgulama (VQA)

9 HuggingFace transformers vision pipeline

10 CLIP ile NSFW filtreleme, içerik moderasyonu

Kütüphaneler: transformerstorchclip-by-openaisentence-transformers