Genel

Kod Yazmak Yetmez: Veri Biliminin Gerçek Dili İstatistik

maa
20.11.2025

Makine öğrenimi, yapay zekâ ve veri bilimi hızla yükselen alanlar. Ancak bu alanlara yeni başlayanların büyük bir bölümü, işe doğrudan kod yazarak başlıyor; Python, NumPy, Pandas veya scikit-learn gibi araçları öğrendiğinde veri bilimine hâkim olduğunu düşünüyor.
Oysa veri bilimi yalnızca kod yazmak değildir.
Hatta belki de şu gerçeği bilmek gerekir:

👉 Kod, veri biliminin mekanizmasıdır; ama istatistik veri biliminin düşünme biçimidir.
👉 Model kurmadan önce veriyi anlamak, veri biliminin gerçek başlangıcıdır.

Bir makine öğrenimi modelinin başarısı, kullanılan algoritmadan çok, verinin ne kadar iyi analiz edildiğine, ne kadar iyi temizlendiğine ve ne kadar iyi yorumlandığına bağlıdır.

Bunun için temel istatistik kavramları yalnızca bir bilgi kümesi değil, veri biliminin tüm yapı taşlarını taşıyan bir dil gibidir.

Bu yazı, o dili anlamak için bir başlangıçtır.


🧭 1. Veri Analizi Neden İstatistikle Başlar?

Veri analizi, iki temel sorunun peşindedir:

1) Bu verinin karakteri nedir?

Verinin merkezi nerededir?
Veri bize ne söylüyor?

Bu soruyu anlamak için:
ortalama, medyan ve mod gibi kavramlar kullanılır.

2) Veri tutarlı mı yoksa değişken mi?

Veriler merkezin etrafında dar mı yoksa geniş bir alana mı yayılmış?

Bunu anlamak için:
standart sapma, varyasyon, dağılım gibi ölçüler kullanılır.

Bu iki temel soru cevaplanmadan veri, yüzeyde gezinen bir bilgi yığını olmaktan öteye geçemez.


📌 2. Ortalama: Verinin Genel Hikâyesi

Ortalama, veri setinin genel eğilimini gösteren en temel kavramdır.

Bir sınıftaki sınav sonuçlarını düşünün.
Öğrencilerin aldığı tüm notlara baktığımızda “Bu sınıf genel olarak nasıl bir seviyede?” sorusunun ilk cevabı ortalamadır.

Ancak ortalamayı doğru yorumlamak da bir sanattır:

✔ Aykırı değer ortalamayı yanıltabilir

Örneğin 9 öğrenci 50 almışken, bir öğrenci 100 aldığında sınıf ortalaması yükselir ama bu sınıfın başarı seviyesi gerçekte yükselmiş olmaz.

Ortalama güçlüdür ama doğru yorumlanmazsa yanıltabilir.


📌 3. Medyan: Merkezin Sessiz Ama Güvenilir Tanımı

Veri sıralandığında tam ortada kalan değer medyandır.
Basit ama birçok durumda ortalamadan daha anlamlıdır.

✔ Örnek: Gayrimenkul fiyatları

Bir mahalledeki evlerin %90’ı 2–3 milyon lira bandındadır, ancak bir tane 50 milyonluk yalı eklendiğinde ortalama hızla bozulur.
Medyan ise değişmez; çünkü çoğunluğun temsilcisidir.

Bu nedenle medyan, uç değerlerin çok olduğu veri türlerinde mükemmel bir merkez ölçüsüdür.


📌 4. Mod: En Sık Görülen Değerin Gücü

Mod, veri setinde en çok tekrar eden değerdir.
Basit görünür, ancak birçok alanda kritik önem taşır.

✔ Örnek: Ayakkabı numarası satışı

Bir ayakkabı mağazasında en çok satılan numara, stoğun nasıl planlanacağını belirler.
Mod olmazsa işletme kör uçuş yapar.


📊 5. Dağılım: Verinin Sakinliği veya Fırtınası

Aynı ortalamaya sahip iki veri seti olabilir ama karakterleri tamamen farklıdır.

Örneğin iki sınıf düşünelim:

Sınıf A:

10 ve 90
Aşırı uç değerler → yüksek çalkantı.

Sınıf B:

45–55 arası notlar
Merkeze yakın → dengeli yapı.

Her iki sınıfın ortalaması 50’dir, ancak yapıları tamamen farklıdır.
İşte dağılım, ortalamanın bize söylemediğini anlatır:

👉 Bu veri istikrarlı mı, yoksa güvenilmez mi?
👉 Model kurarken bu veri ne kadar risk içerir?

Dağılımın anlaşılması özellikle makine öğreniminde:

  • model davranışını,

  • hata oranlarını,

  • aykırı değer tespitini

doğrudan etkiler.


📈 6. Standart Sapma: Değişkenliğin Sessiz Anlatıcısı

Standart sapma, verilerin ortalamadan ne kadar uzaklaştığını tek bir değerle anlatır.

✔ İki farklı veri yapısı:

A grubu:
10, 10, 10, 10, 90, 90, 90, 90
→ Veri çok dağınık

B grubu:
30, 30, 30, 30, 70, 70, 70, 70
→ Veri daha toplu

Ortalama aynı olsa da A grubunda “uçurum” vardır.
İşte standart sapma tam olarak bunu ortaya çıkarır.

Makine öğrenimi açısından:

  • Özellik ölçekleme (scaling)

  • Anomali tespiti

  • Normalizasyon

  • Hata payı analizleri

hep standart sapma ile ilişkilidir.


🎯 7. Standart Hata: Örneklemin Güvenilirliği

Standart hata, ortalamanın güvenilirliğini değerlendirmemizi sağlar.

Bir ilçenin ortalama yaşını bulmak için:

  • 3 kişiye sorarsak sonuç oynaktır,

  • 300 kişiye sorarsak sonuç gerçeğe yaklaşır.

Standart hata bize şunu söyler:

👉 Elimizdeki verinin temsil gücü nedir?
👉 Yaptığımız çıkarımlar ne kadar güvenilir?

Bu özellikle anket çalışmalarında, sağlık araştırmalarında ve tahmin modellerinde kritik öneme sahiptir.


📉 8. Normal Dağılım: Doğanın Ritmi

Boy uzunlukları, sınav notları, kan değerleri…
Birçok veri türü doğal olarak “çan eğrisi” şeklinde dağılır.

Bu durum bize şunu söyler:

  • Verilerin büyük kısmı merkezin etrafındadır.

  • Uç değerler nadirdir.

  • Verinin yaklaşık %95’i merkezin iki katı mesafe içerisindedir.

Makine öğreniminde normal dağılım kavramı:

  • Standartlaştırma,

  • Model hata analizleri,

  • Anomali tespiti

için vazgeçilmezdir.


📘9. Z-Skoru: Adil ve Ölçülebilir Karşılaştırma

Z-skoru, bir değerin ortalamaya göre ne kadar yukarıda veya aşağıda olduğunu anlatır.

✔ Örnek

Sen bir sınıfta 85 aldın,
Arkadaşın başka bir sınıfta 80 aldı.

Kimin daha başarılı olduğu:

  • Sınıf ortalamasına

  • Sınıfın dağılımına

bağlıdır.
Z-skoru, farklı grupları adil bir biçimde kıyaslamamızı sağlar.

Bu da:

  • anomalilerin tespitinde,

  • veri normalizasyonunda,

  • model hatalarının standardize edilmesinde

hayati bir rol oynar.


📌 Sonuç: Kod Yazmak Bir Araçtır, Bilgi İstatistikle Başlar

Veri bilimi bir yolculuktur.
Bu yolculuğun ilk adımı Python yazmak değil, verinin ne anlattığını anlamaktır.
Veriyi anlayan biri:

  • daha doğru model kurar,

  • daha doğru problem tanımlar,

  • daha sağlıklı yorum yapar.

İstatistik bilmeden veri bilimi öğrenmek mümkün değildir.
Çünkü veri biliminin gerçek dili istatistiktir.


📌 Son Not

Bu yazı, Doç. Dr. Zübeyir Nişancı tarafından verilen Veri Analizi Okulu 6. hafta ders içeriğinden derlenmiştir.

Bu yazıyı paylaş:
Twitter Facebook LinkedIn

Benzer Yazılar