HAFTA 12 · 6 SAAT
Vision Transformers, DINOv2 ve CLIP
Modül 12 — Bölüm C
1 Transformer hatırlatma: self-attention mekaniği
2 ViT (Vision Transformer): patch embedding, position encoding
3 Swin Transformer: hierarchical windows
4 DINOv2: self-supervised vision backbone
5 Multimodal model: CLIP (Contrastive Language-Image Pretraining)
6 CLIP zero-shot classification: text-image embedding
7 Embedding tabanlı görsel arama (image retrieval)
8 BLIP-2 ve LLaVA ile görsel sorgulama (VQA)
9 HuggingFace transformers vision pipeline
10 CLIP ile NSFW filtreleme, içerik moderasyonu
Kütüphaneler:
transformerstorchclip-by-openaisentence-transformers