Yapay Zekâ

Makine Öğrenmesinden Pekiştirmeli Öğrenmeye: SVM ve Q-Learning

maa
22.04.2026

Makine öğrenmesi, verilerden anlam çıkararak karar verebilen sistemler geliştirmeyi amaçlayan bir alandır. Bu yazıda, iki önemli yaklaşımı sade bir şekilde ele alacağız: Destek Vektör Makineleri (SVM) ve Q-Learning ile Pekiştirmeli Öğrenme.


1. Destek Vektör Makineleri (SVM) Nedir?

SVM, özellikle sınıflandırma problemlerinde kullanılan güçlü bir makine öğrenmesi algoritmasıdır.

Temel Mantık

SVM’in amacı, verileri farklı sınıflara ayıran en iyi sınırı (hiperdüzlem) bulmaktır. Bu sınır:

  • Sınıflar arasındaki mesafeyi maksimum yapar
  • En kritik veri noktalarına (destek vektörleri) göre belirlenir

Basit Örnek

Bir e-posta uygulamasında:

  • Spam ve normal e-postaları ayırmak istiyoruz
  • SVM, bu iki grubu en iyi ayıran çizgiyi bulur

Kernel (Çekirdek) Kavramı

Bazı veriler doğrusal olarak ayrılamaz. İşte burada kernel devreye girer:

  • Linear Kernel → Basit, doğrusal ayırma
  • Polynomial Kernel → Daha karmaşık sınırlar
  • RBF (Radial Basis Function) → En yaygın, esnek yapı

📌 Genellikle RBF kernel, karmaşık veri setlerinde daha iyi sonuç verir.


2. Pekiştirmeli Öğrenme (Reinforcement Learning) Nedir?

Pekiştirmeli öğrenme, bir ajanın (agent) deneme-yanılma yoluyla öğrenmesini sağlar.

Temel Bileşenler

  • Ajan (Agent): Karar veren sistem
  • Ortam (Environment): Ajanın içinde bulunduğu dünya
  • Aksiyon (Action): Ajanın yaptığı hareket
  • Ödül (Reward): Ajanın yaptığı hareketin sonucu

Amaç

Ajanın hedefi:
➡️ Toplam ödülü maksimize etmek


3. Q-Learning Nedir?

Q-Learning, pekiştirmeli öğrenmenin en temel algoritmalarından biridir.

Temel Fikir

Ajan, her durum ve aksiyon için bir değer öğrenir:

Q(state,action)Q(state, action)

Bu değer:
👉 “Bu durumda bu hareketi yaparsam ne kadar iyi olur?” sorusunun cevabıdır.


4. Q-Tablosu Nasıl Çalışır?

Q-Learning’de tüm bilgi bir tabloda tutulur:

DurumSolSağYukarıAşağı
S10.20.50.10.3

Ajan:

  • Bulunduğu duruma bakar
  • En yüksek Q değerine sahip aksiyonu seçer

5. Keşif vs Kullanım (Exploration vs Exploitation)

Ajan her zaman en iyi bildiğini yaparsa öğrenemez.

Bu yüzden iki strateji dengelenir:

  • Exploration (Keşif): Rastgele hareketler → yeni şeyler öğrenir
  • Exploitation (Kullanım): En iyi bilinen hareketi yapar

Bu denge genellikle epsilon-greedy yöntemiyle sağlanır:

  • %90 en iyi hareket
  • %10 rastgele hareket

6. Örnek: Uçurum Problemi (Cliff Walking)

Bu klasik problemde:

  • Ajan başlangıç noktasından hedefe gitmeye çalışır
  • Yanlış adım → uçurum → büyük ceza (örneğin -100)
  • Her adım → küçük ceza (-1)

Öğrenme Süreci

Başta:

  • Ajan rastgele dolaşır
  • Çok fazla ceza alır

Zamanla:

  • En kısa ve güvenli yolu öğrenir
  • Daha az ceza alır

📈 Sonuç: Grafiklerde ödül zamanla iyileşir


7. SVM ve Q-Learning Arasındaki Fark

ÖzellikSVMQ-Learning
TürDenetimli öğrenmePekiştirmeli öğrenme
VeriEtiketli veri gerekirVeri yok, deneyim var
AmaçSınıflandırmaKarar verme
KullanımSpam tespiti, görüntü sınıflandırmaOyunlar, robotlar

Sonuç

  • SVM, verileri sınıflandırmak için güçlü ve matematiksel bir yöntemdir
  • Q-Learning, bir ajanın deneyerek öğrenmesini sağlar
  • İkisi farklı problemleri çözer ama makine öğrenmesinin temel taşlarıdır

Bu iki yaklaşımı anlamak, yapay zekâ dünyasına sağlam bir giriş yapmanı sağlar.


Kaynakça

  1. Christopher M. Bishop – Pattern Recognition and Machine Learning
  2. Richard S. Sutton & Andrew G. Barto – Reinforcement Learning: An Introduction
  3. Aurélien Géron – Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow
  4. Stanford CS229 Machine Learning Notes
  5. OpenAI Spinning Up – Reinforcement Learning Guide 
Bu yazıyı paylaş:
Twitter Facebook LinkedIn

Benzer Yazılar