Minimax ile kusursuz rakibi temel alıp Q-learning ajanının zaman içinde nasıl ustalaştığını izleyin.
Q-learning Nedir?
Q-learning, modelden bağımsız (model-free) bir takviye öğrenmesi (reinforcement learning) algoritmasıdır. Bir ajan, ortamda durum-action çifti (s,a) için gelecekteki toplam ödülün beklentisini Q(s,a) ile temsil eder.
- TD (Temporal-Difference) güncellemesi: Ajan, gerçek ödül ve bir sonraki durumun en yüksek Q değeri ile kendi tahminini düzeltir.
- Epsilon-greedy keşif: Ajan her adımda küçük bir ihtimalle rastgele davranarak yeni hamleleri dener, geri kalan zamanda en iyi Q değerini seçer.
- Yakınsama garantisi: Doğru öğrenme oranı ve keşif stratejisi altında, yeterince uzun süre sonunda optimal politika üzerine yakınsar.
- Modelden bağımsız: Ortamın geçiş olasılıklarını bilmeye ihtiyaç duymaz; yalnızca gözlenen ödülleri kullanır.
- Bu projede: Minimax tamamlayıcı bir “öğretmen” olarak kullanılarak ajanı optimal stratejiye yaklaştırır; eğitim sonunda Q tablosu insanlar için ısı haritasında görünür.