HAFTA 13 · 6 SAAT
OCR ve Belge Anlama: Tesseract, TrOCR, Donut
Modül 13 — Bölüm C
1 OCR temelleri: text detection vs text recognition
2 Tesseract OCR: dil paketleri (Türkçe), psm modları
3 EasyOCR: çok dilli, hazır model
4 PaddleOCR: hızlı ve güçlü alternatif
5 TrOCR: transformer-tabanlı, el yazısı odaklı
6 Donut: belge anlama (görsel→yapısal JSON)
7 Layout analysis: satır/blok tespiti
8 Tablo çıkarımı (table extraction)
9 Türkçe e-fatura, kimlik kartı, makbuz okuma örnekleri
10 OCR pipeline: ön işleme + rotation + OCR + post-processing
Kütüphaneler:
pytesseracteasyocrpaddlepaddlepaddleocrtransformerspillow