Tic-Tac-Toe Öğrenen Ajan

Minimax ile kusursuz rakibi temel alıp Q-learning ajanının zaman içinde nasıl ustalaştığını izleyin.

Hazır. Öğrenmeyi başlatabilirsiniz.

Eğitim Döngüsü (Episode) 5000 Tam Eğitim Win Hedefi 90% Öğrenme Oranı (α) 0.3 Keşif (ε başlangıç) 0.8

Oturum Kaydını Tut

Episode

Son 100 Win%

Epsilon

0.80

Durum Sayısı

İnsan vs Ajan

Eğitim tamamlandıktan sonra Q-learning ajanının politikasını kendiniz deneyebilirsiniz.

Q-ajanı X oynar, siz O oynayacaksınız.
Minimax ajanı kusursuz oynar; eğitim sırasında referans olarak kullanılır.
Ajan öğrenirken keşfi yüksek tutar (ε-greedy). Eğitim ilerledikçe greedy davranışa yaklaşır.

Öğrenme Eğrisi (Minimax'e karşı kazanım oranı)

Politika Isı Haritası (Başlangıç durumunda aksiyon Q-değerleri)

Notlar

Minimax ajanı alfa-beta budama ile kusursuz oynar; her durumda optimal hamleyi seçer.
Q-learning ajanı, epsilon-greedy stratejisiyle minimax'e karşı defalarca oynayarak Q-tablosunu günceller.
Öğrenme eğrisi, son 100 maçtaki kazanım oranını gösterir; politika ısı haritası ise başlangıç durumunda hamle tercihlerini görselleştirir.
Ajanın elindeki durum sayısı arttıkça Q-tablosu genişler; bu veri metriği ile takip edebilirsiniz.

Bu Problemde Q-learning Nasıl Öğreniyor?

Durum Temsili: Tahta 9 hücrelik bir string olarak tutulur. Her durum için 9 aksiyon değerini depolayan bir Q satırı bulunur.
Rakip ve Ödül: Ajan X rolünde minimax ajanına karşı oynar. Kazanırsa +1, kaybederse −1, berabere kalırsa +0.3 ödül alır.
Karar Seçimi: Eğitim boyunca ε-greedy politika kullanılır. Rastgele hamleler keşfi sürdürür, geri kalan hamleler mevcut Q tablosundaki en yüksek değere göre seçilir.
Geri Yayılım: Episode bittiğinde X’in oynadığı tüm durumlar geriye doğru güncellenir: Q(s,a) ← Q(s,a) + α [r + γ max Q(s′,·) − Q(s,a)].
Kapanış: Tam eğitimde ε, master hedef win oranına ulaşılana dek azalır. Hedefe ulaşıldığında eğitim otomatik olarak durur.

Q-learning Nedir?

Q-learning, modelden bağımsız (model-free) bir takviye öğrenmesi (reinforcement learning) algoritmasıdır. Bir ajan, ortamda durum-action çifti (s,a) için gelecekteki toplam ödülün beklentisini Q(s,a) ile temsil eder.

TD (Temporal-Difference) güncellemesi: Ajan, gerçek ödül ve bir sonraki durumun en yüksek Q değeri ile kendi tahminini düzeltir.
Epsilon-greedy keşif: Ajan her adımda küçük bir ihtimalle rastgele davranarak yeni hamleleri dener, geri kalan zamanda en iyi Q değerini seçer.
Yakınsama garantisi: Doğru öğrenme oranı ve keşif stratejisi altında, yeterince uzun süre sonunda optimal politika üzerine yakınsar.
Modelden bağımsız: Ortamın geçiş olasılıklarını bilmeye ihtiyaç duymaz; yalnızca gözlenen ödülleri kullanır.
Bu projede: Minimax tamamlayıcı bir “öğretmen” olarak kullanılarak ajanı optimal stratejiye yaklaştırır; eğitim sonunda Q tablosu insanlar için ısı haritasında görünür.