Yapay Zekâ

Makine Öğrenmesinden Pekiştirmeli Öğrenmeye: SVM ve Q-Learning

maa

22.04.2026

Makine Öğrenmesinden Pekiştirmeli Öğrenmeye: SVM ve Q-Learning

Makine öğrenmesi, verilerden anlam çıkararak karar verebilen sistemler geliştirmeyi amaçlayan bir alandır. Bu yazıda, iki önemli yaklaşımı sade bir şekilde ele alacağız: Destek Vektör Makineleri (SVM) ve Q-Learning ile Pekiştirmeli Öğrenme.

1. Destek Vektör Makineleri (SVM) Nedir?

SVM, özellikle sınıflandırma problemlerinde kullanılan güçlü bir makine öğrenmesi algoritmasıdır.

Temel Mantık

SVM’in amacı, verileri farklı sınıflara ayıran en iyi sınırı (hiperdüzlem) bulmaktır. Bu sınır:

Sınıflar arasındaki mesafeyi maksimum yapar
En kritik veri noktalarına (destek vektörleri) göre belirlenir

Basit Örnek

Bir e-posta uygulamasında:

Spam ve normal e-postaları ayırmak istiyoruz
SVM, bu iki grubu en iyi ayıran çizgiyi bulur

Kernel (Çekirdek) Kavramı

Bazı veriler doğrusal olarak ayrılamaz. İşte burada kernel devreye girer:

Linear Kernel → Basit, doğrusal ayırma
Polynomial Kernel → Daha karmaşık sınırlar
RBF (Radial Basis Function) → En yaygın, esnek yapı

📌 Genellikle RBF kernel, karmaşık veri setlerinde daha iyi sonuç verir.

2. Pekiştirmeli Öğrenme (Reinforcement Learning) Nedir?

Pekiştirmeli öğrenme, bir ajanın (agent) deneme-yanılma yoluyla öğrenmesini sağlar.

Temel Bileşenler

Ajan (Agent): Karar veren sistem
Ortam (Environment): Ajanın içinde bulunduğu dünya
Aksiyon (Action): Ajanın yaptığı hareket
Ödül (Reward): Ajanın yaptığı hareketin sonucu

Amaç

Ajanın hedefi:
➡️ Toplam ödülü maksimize etmek

3. Q-Learning Nedir?

Q-Learning, pekiştirmeli öğrenmenin en temel algoritmalarından biridir.

Temel Fikir

Ajan, her durum ve aksiyon için bir değer öğrenir:

$Q (s t a t e, a c t i o n)$

Bu değer:
👉 “Bu durumda bu hareketi yaparsam ne kadar iyi olur?” sorusunun cevabıdır.

4. Q-Tablosu Nasıl Çalışır?

Q-Learning’de tüm bilgi bir tabloda tutulur:

Durum	Sol	Sağ	Yukarı	Aşağı
S1	0.2	0.5	0.1	0.3

Ajan:

Bulunduğu duruma bakar
En yüksek Q değerine sahip aksiyonu seçer

5. Keşif vs Kullanım (Exploration vs Exploitation)

Ajan her zaman en iyi bildiğini yaparsa öğrenemez.

Bu yüzden iki strateji dengelenir:

Exploration (Keşif): Rastgele hareketler → yeni şeyler öğrenir
Exploitation (Kullanım): En iyi bilinen hareketi yapar

Bu denge genellikle epsilon-greedy yöntemiyle sağlanır:

%90 en iyi hareket
%10 rastgele hareket

6. Örnek: Uçurum Problemi (Cliff Walking)

Bu klasik problemde:

Ajan başlangıç noktasından hedefe gitmeye çalışır
Yanlış adım → uçurum → büyük ceza (örneğin -100)
Her adım → küçük ceza (-1)

Öğrenme Süreci

Başta:

Ajan rastgele dolaşır
Çok fazla ceza alır

Zamanla:

En kısa ve güvenli yolu öğrenir
Daha az ceza alır

📈 Sonuç: Grafiklerde ödül zamanla iyileşir

7. SVM ve Q-Learning Arasındaki Fark

Özellik	SVM	Q-Learning
Tür	Denetimli öğrenme	Pekiştirmeli öğrenme
Veri	Etiketli veri gerekir	Veri yok, deneyim var
Amaç	Sınıflandırma	Karar verme
Kullanım	Spam tespiti, görüntü sınıflandırma	Oyunlar, robotlar

Sonuç

SVM, verileri sınıflandırmak için güçlü ve matematiksel bir yöntemdir
Q-Learning, bir ajanın deneyerek öğrenmesini sağlar
İkisi farklı problemleri çözer ama makine öğrenmesinin temel taşlarıdır

Bu iki yaklaşımı anlamak, yapay zekâ dünyasına sağlam bir giriş yapmanı sağlar.

Kaynakça

Christopher M. Bishop – Pattern Recognition and Machine Learning
Richard S. Sutton & Andrew G. Barto – Reinforcement Learning: An Introduction
Aurélien Géron – Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow
Stanford CS229 Machine Learning Notes
OpenAI Spinning Up – Reinforcement Learning Guide

Bu yazıyı paylaş:

Twitter Facebook LinkedIn