Kod Yazmak Yetmez: Veri Biliminin Gerçek Dili İstatistik
Bir makine öğrenimi modelinin başarısı, kullanılan algoritmadan çok, verinin ne kadar iyi analiz edildiğine, ne kadar iyi temizlendiğine ve ne kadar iyi yorumlandığına bağlıdır.
Bunun için temel istatistik kavramları yalnızca bir bilgi kümesi değil, veri biliminin tüm yapı taşlarını taşıyan bir dil gibidir.
Bu yazı, o dili anlamak için bir başlangıçtır.
🧭 1. Veri Analizi Neden İstatistikle Başlar?
Veri analizi, iki temel sorunun peşindedir:
1) Bu verinin karakteri nedir?
2) Veri tutarlı mı yoksa değişken mi?
Veriler merkezin etrafında dar mı yoksa geniş bir alana mı yayılmış?
Bu iki temel soru cevaplanmadan veri, yüzeyde gezinen bir bilgi yığını olmaktan öteye geçemez.
📌 2. Ortalama: Verinin Genel Hikâyesi
Ortalama, veri setinin genel eğilimini gösteren en temel kavramdır.
Ancak ortalamayı doğru yorumlamak da bir sanattır:
✔ Aykırı değer ortalamayı yanıltabilir
Örneğin 9 öğrenci 50 almışken, bir öğrenci 100 aldığında sınıf ortalaması yükselir ama bu sınıfın başarı seviyesi gerçekte yükselmiş olmaz.
Ortalama güçlüdür ama doğru yorumlanmazsa yanıltabilir.
📌 3. Medyan: Merkezin Sessiz Ama Güvenilir Tanımı
✔ Örnek: Gayrimenkul fiyatları
Bu nedenle medyan, uç değerlerin çok olduğu veri türlerinde mükemmel bir merkez ölçüsüdür.
📌 4. Mod: En Sık Görülen Değerin Gücü
✔ Örnek: Ayakkabı numarası satışı
📊 5. Dağılım: Verinin Sakinliği veya Fırtınası
Aynı ortalamaya sahip iki veri seti olabilir ama karakterleri tamamen farklıdır.
Örneğin iki sınıf düşünelim:
Sınıf A:
Sınıf B:
Dağılımın anlaşılması özellikle makine öğreniminde:
-
model davranışını,
-
hata oranlarını,
-
aykırı değer tespitini
doğrudan etkiler.
📈 6. Standart Sapma: Değişkenliğin Sessiz Anlatıcısı
Standart sapma, verilerin ortalamadan ne kadar uzaklaştığını tek bir değerle anlatır.
✔ İki farklı veri yapısı:
Makine öğrenimi açısından:
-
Özellik ölçekleme (scaling)
-
Anomali tespiti
-
Normalizasyon
-
Hata payı analizleri
hep standart sapma ile ilişkilidir.
🎯 7. Standart Hata: Örneklemin Güvenilirliği
Standart hata, ortalamanın güvenilirliğini değerlendirmemizi sağlar.
Bir ilçenin ortalama yaşını bulmak için:
-
3 kişiye sorarsak sonuç oynaktır,
-
300 kişiye sorarsak sonuç gerçeğe yaklaşır.
Standart hata bize şunu söyler:
Bu özellikle anket çalışmalarında, sağlık araştırmalarında ve tahmin modellerinde kritik öneme sahiptir.
📉 8. Normal Dağılım: Doğanın Ritmi
Bu durum bize şunu söyler:
-
Verilerin büyük kısmı merkezin etrafındadır.
-
Uç değerler nadirdir.
-
Verinin yaklaşık %95’i merkezin iki katı mesafe içerisindedir.
Makine öğreniminde normal dağılım kavramı:
-
Standartlaştırma,
-
Model hata analizleri,
-
Anomali tespiti
için vazgeçilmezdir.
📘9. Z-Skoru: Adil ve Ölçülebilir Karşılaştırma
Z-skoru, bir değerin ortalamaya göre ne kadar yukarıda veya aşağıda olduğunu anlatır.
✔ Örnek
Kimin daha başarılı olduğu:
-
Sınıf ortalamasına
-
Sınıfın dağılımına
Bu da:
-
anomalilerin tespitinde,
-
veri normalizasyonunda,
-
model hatalarının standardize edilmesinde
hayati bir rol oynar.
📌 Sonuç: Kod Yazmak Bir Araçtır, Bilgi İstatistikle Başlar
-
daha doğru model kurar,
-
daha doğru problem tanımlar,
-
daha sağlıklı yorum yapar.
📌 Son Not
Bu yazı, Doç. Dr. Zübeyir Nişancı tarafından verilen Veri Analizi Okulu 6. hafta ders içeriğinden derlenmiştir.