Tic-Tac-Toe Öğrenen Ajan

Minimax ile kusursuz rakibi temel alıp Q-learning ajanının zaman içinde nasıl ustalaştığını izleyin.
Hazır. Öğrenmeyi başlatabilirsiniz.
Oturum Kaydını Tut
Episode
0
Son 100 Win%
0%
Epsilon
0.80
Durum Sayısı
0

İnsan vs Ajan

Eğitim tamamlandıktan sonra Q-learning ajanının politikasını kendiniz deneyebilirsiniz.

  • Q-ajanı X oynar, siz O oynayacaksınız.
  • Minimax ajanı kusursuz oynar; eğitim sırasında referans olarak kullanılır.
  • Ajan öğrenirken keşfi yüksek tutar (ε-greedy). Eğitim ilerledikçe greedy davranışa yaklaşır.

Öğrenme Eğrisi (Minimax'e karşı kazanım oranı)

Politika Isı Haritası (Başlangıç durumunda aksiyon Q-değerleri)

Notlar

Bu Problemde Q-learning Nasıl Öğreniyor?

  1. Durum Temsili: Tahta 9 hücrelik bir string olarak tutulur. Her durum için 9 aksiyon değerini depolayan bir Q satırı bulunur.
  2. Rakip ve Ödül: Ajan X rolünde minimax ajanına karşı oynar. Kazanırsa +1, kaybederse −1, berabere kalırsa +0.3 ödül alır.
  3. Karar Seçimi: Eğitim boyunca ε-greedy politika kullanılır. Rastgele hamleler keşfi sürdürür, geri kalan hamleler mevcut Q tablosundaki en yüksek değere göre seçilir.
  4. Geri Yayılım: Episode bittiğinde X’in oynadığı tüm durumlar geriye doğru güncellenir: Q(s,a) ← Q(s,a) + α [r + γ max Q(s′,·) − Q(s,a)].
  5. Kapanış: Tam eğitimde ε, master hedef win oranına ulaşılana dek azalır. Hedefe ulaşıldığında eğitim otomatik olarak durur.

Q-learning Nedir?

Q-learning, modelden bağımsız (model-free) bir takviye öğrenmesi (reinforcement learning) algoritmasıdır. Bir ajan, ortamda durum-action çifti (s,a) için gelecekteki toplam ödülün beklentisini Q(s,a) ile temsil eder.