Kedi-Fare Q-Learning

🎯 Q-Learning Algoritması: Q(s,a) ← Q(s,a) + α[r + γ max Q(s',a') - Q(s,a)] güncelleme kuralını anlama
🔍 Exploration vs Exploitation: Epsilon-greedy stratejisi ile denge kurma
🐱 Kedi Stratejisi: Fareye yaklaşmayı ve yakalamayı öğrenme
🐭 Fare Stratejisi: Kediden uzaklaşmayı ve kaçmayı öğrenme
⚔️ İkili Öğrenme: İki ajanın birbirinin stratejilerine uyum sağlaması
🎮 Game Theory Integration: Sıfır toplamlı oyunlarda denge noktaları
📊 State Space Management: Büyük durum uzaylarında Q-tablo optimizasyonu
🏆 Policy Convergence: Zamanla optimal stratejilere yakınsama gözlemi

🐱 Kedi Ayarları