Makine Öğrenmesinde Model Değerlendirme Metrikleri Nelerdir?

2 Ocak 2026 16 dk okuma Deniz Karay

Makine öğrenmesinde model değerlendirme metrikleri, bir modelin ne kadar iyi performans gösterdiğini nicel olarak ölçmek ve anlamak için kullanılan kritik araçlardır. Bu metrikler, geliştirilen makine öğrenimi modellerinin gerçek dünya problemlerini ne kadar etkili bir şekilde çözebildiğini belirlememize olanak tanır. Doğru metrik seçimi, modelin başarısını belirleyen ve iş kararlarını doğrudan etkileyen en önemli adımlardan biridir.

🎯 Bu Derste Öğrenecekleriniz

Makine öğrenmesi model değerlendirme metriklerinin temel amacını ve önemini anlayacaksınız.
Sınıflandırma, regresyon ve kümeleme modelleri için kullanılan başlıca metrikleri tanıyacaksınız.
Her bir metriğin neyi ölçtüğünü ve ne zaman kullanılacağını öğreneceksiniz.
Karmaşıklık Matrisi (Confusion Matrix) gibi temel kavramları ve bunların diğer metriklerle ilişkisini kavrayacaksınız.
Model değerlendirme metriklerini seçerken dikkat edilmesi gereken kritik noktaları keşfedeceksiniz.

📌 Bu Konuda Bilmeniz Gerekenler

Doğruluk (Accuracy): Genel model performansını gösterir, ancak dengesiz veri setlerinde yanıltıcı olabilir.
Hassasiyet (Precision) ve Duyarlılık (Recall): Sınıflandırma problemlerinde pozitif tahminlerin kalitesini ve kapsayıcılığını değerlendirir.
F1 Skoru: Hassasiyet ve Duyarlılığın harmonik ortalamasıdır, dengesiz veri setlerinde daha iyi bir denge sunar.
MAE, MSE, RMSE: Regresyon modellerinde tahmin hatalarını ölçmek için kullanılır.
R-kare: Regresyon modelinin bağımlı değişkendeki varyansı ne kadar açıkladığını gösterir.
Metrik Seçimi: Problemin türüne, veri setinin yapısına ve iş hedeflerine göre dikkatle yapılmalıdır.

İçerik göster

Makine Öğrenmesinde Model Değerlendirme Neden Bu Kadar Önemlidir?

Makine öğrenimi modelleri geliştirme süreci, sadece bir algoritma seçip veriyi eğitmekten ibaret değildir. Bir modelin gerçek dünyadaki performansı, eğitim verileri üzerindeki başarısından çok daha fazlasını ifade eder. İşte tam da bu noktada model değerlendirme metrikleri devreye girer.

Model değerlendirme, geliştirilen bir modelin yeni, daha önce görmediği verilere ne kadar iyi genelleme yapabildiğini ölçme sürecidir. Bu süreç, modelin aşırı öğrenme (overfitting) veya eksik öğrenme (underfitting) gibi sorunlar yaşayıp yaşamadığını anlamak için kritik öneme sahiptir. Ayrıca, farklı modelleri birbiriyle karşılaştırmak ve en uygun modeli seçmek için de standart bir çerçeve sunar.

ℹ️ Bilgi: Modelinizi eğitirken kullanılan veri setine eğitim seti, modelin performansını ölçmek için kullanılan ve modelin daha önce görmediği verilere test seti denir. Bu ayrım, modelin gerçek dünya performansını doğru bir şekilde değerlendirmek için olmazsa olmazdır.

Aşırı Öğrenme (Overfitting) ve Eksik Öğrenme (Underfitting)

Model değerlendirme metrikleri, modelin bu iki temel sorunu yaşayıp yaşamadığını anlamamıza yardımcı olur:

Aşırı Öğrenme (Overfitting): Modelin eğitim verilerini ezberlemesi ancak yeni verilere genelleme yapamaması durumudur. Eğitim setinde çok iyi performans gösterirken, test setinde kötü sonuçlar verir.
Eksik Öğrenme (Underfitting): Modelin eğitim verilerini bile yeterince öğrenememesi durumudur. Hem eğitim hem de test setinde kötü performans gösterir, çünkü veri setindeki temel ilişkileri yakalayamaz.

Doğru metrikleri kullanarak, bu tür sorunları erken aşamada tespit edebilir ve modelinizi optimize edebilirsiniz. Örneğin, bir sınıflandırma modelinin test setindeki düşük hassasiyet değeri, aşırı öğrenmenin bir göstergesi olabilir.

Sınıflandırma Modelleri İçin Temel Değerlendirme Metrikleri

Sınıflandırma modelleri, verileri önceden tanımlanmış kategorilere (sınıflara) ayırmak için kullanılır. Örneğin, bir e-postanın spam olup olmadığı, bir görüntünün kedi mi köpek mi olduğu gibi ikili (binary) veya çoklu sınıflandırma problemleri için farklı metrikler kullanılır. Bu metrikler genellikle bir Karmaşıklık Matrisi (Confusion Matrix) üzerinden türetilir.

Karmaşıklık Matrisi (Confusion Matrix) Nedir?

Karmaşıklık Matrisi, bir sınıflandırma modelinin performansını görselleştiren ve daha detaylı metriklerin temelini oluşturan bir tablodur. Özellikle ikili sınıflandırma problemlerinde yaygın olarak kullanılır ve dört temel bileşenden oluşur:

Gerçek Pozitif (True Positive – TP): Modelin pozitif olarak tahmin ettiği ve gerçekte de pozitif olan durumlar. (Örn: Spam e-postayı doğru bir şekilde spam olarak işaretleme.)
Gerçek Negatif (True Negative – TN): Modelin negatif olarak tahmin ettiği ve gerçekte de negatif olan durumlar. (Örn: Normal e-postayı doğru bir şekilde normal olarak işaretleme.)
Yanlış Pozitif (False Positive – FP): Modelin pozitif olarak tahmin ettiği ancak gerçekte negatif olan durumlar (Tip I Hatası). (Örn: Normal e-postayı yanlışlıkla spam olarak işaretleme.)
Yanlış Negatif (False Negative – FN): Modelin negatif olarak tahmin ettiği ancak gerçekte pozitif olan durumlar (Tip II Hatası). (Örn: Spam e-postayı yanlışlıkla normal olarak işaretleme.)

📖 Örnek: Tıbbi Teşhis

Bir hastalığın teşhisi için makine öğrenimi modeli kullandığımızı varsayalım. Hastalık ‘pozitif’ sınıf, sağlıklı olmak ise ‘negatif’ sınıf olsun. Modelin tahminleri şu şekilde olsun:

TP: Hastalığı olan birini doğru teşhis etmek.
TN: Sağlıklı birini doğru teşhis etmek (hastalıklı değil).
FP: Sağlıklı birine yanlışlıkla hastalık teşhisi koymak.
FN: Hastalığı olan birine yanlışlıkla sağlıklı teşhisi koymak.

Bu senaryoda, FN (yanlış negatif) hatası, FP (yanlış pozitif) hatasından çok daha ciddi sonuçlar doğurabilir, çünkü hasta olan birinin tedavi almasını engeller.

Doğruluk (Accuracy)

Doğruluk, modelin tüm doğru tahminlerinin (TP + TN) toplam örnek sayısına oranıdır. Modelin genel performansını gösterir.

Formül: `Accuracy = (TP + TN) / (TP + TN + FP + FN)`

Ne zaman kullanılır? Sınıfların veri setinde dengeli dağıldığı durumlarda iyi bir metriktir. Çok dengesiz veri setlerinde (örneğin, %99 negatif, %1 pozitif) yanıltıcı olabilir.

⚠️ Dikkat: Dengesiz veri setlerinde, sadece doğruluk metriğine güvenmek tehlikeli olabilir. Örneğin, %95 oranında negatif sınıf içeren bir veri setinde, model her zaman negatif tahmin etse bile %95 doğruluk elde edebilir. Bu durumda model aslında hiçbir şey öğrenmemiştir.

Hassasiyet (Precision)

Hassasiyet, modelin pozitif olarak tahmin ettiği durumlar arasından gerçekte kaç tanesinin pozitif olduğunu gösterir. Yanlış pozitiflerin maliyetinin yüksek olduğu durumlarda önemlidir.

Formül: `Precision = TP / (TP + FP)`

Ne zaman kullanılır? Spam tespiti (yanlışlıkla normal e-postayı spam yapmamak), suçlu tespiti (masum birini suçlamamak) gibi durumlarda yüksek hassasiyet istenir.

Duyarlılık / Geri Çağırma (Recall / Sensitivity)

Duyarlılık (veya Geri Çağırma), gerçekte pozitif olan tüm durumlar arasından modelin kaç tanesini doğru bir şekilde pozitif olarak tahmin edebildiğini gösterir. Yanlış negatiflerin maliyetinin yüksek olduğu durumlarda önemlidir.

Formül: `Recall = TP / (TP + FN)`

Ne zaman kullanılır? Hastalık teşhisi (hastayı atlamamak), dolandırıcılık tespiti (gerçek dolandırıcılığı kaçırmamak) gibi durumlarda yüksek duyarlılık istenir.

F1 Skoru

F1 Skoru, Hassasiyet ve Duyarlılığın harmonik ortalamasıdır. Bu iki metrik arasında bir denge kurar ve özellikle dengesiz veri setlerinde daha güvenilir bir performans göstergesi sunar. Hem yanlış pozitifleri hem de yanlış negatifleri dikkate alır.

Formül: `F1 Score = 2 * (Precision * Recall) / (Precision + Recall)`

Ne zaman kullanılır? Hem yanlış pozitiflerin hem de yanlış negatiflerin önemli olduğu ve Hassasiyet ile Duyarlılık arasında bir denge arandığı durumlarda tercih edilir.

ROC Eğrisi ve AUC (Receiver Operating Characteristic Curve and Area Under the Curve)

ROC Eğrisi, bir sınıflandırma modelinin farklı eşik değerlerindeki performansını görselleştiren bir grafiktir. Y ekseninde Duyarlılık (True Positive Rate – TPR), X ekseninde ise Yanlış Pozitif Oranı (False Positive Rate – FPR = FP / (FP + TN)) bulunur.

AUC (Area Under the Curve), ROC eğrisinin altında kalan alandır ve modelin tüm olası eşik değerleri üzerinden sınıflandırma yeteneğinin genel bir ölçüsüdür. AUC değeri 0 ile 1 arasında değişir; 1’e ne kadar yakınsa, modelin performansı o kadar iyidir. 0.5 değeri rastgele bir sınıflandırıcıya işaret eder.

Ne zaman kullanılır? Özellikle dengesiz veri setlerinde modelin ayrım gücünü değerlendirmek için çok güçlü bir araçtır. Farklı modelleri karşılaştırırken de sıkça kullanılır.

Logaritmik Kayıp (Log Loss / Cross-Entropy Loss)

Log Loss, sınıflandırma modellerinin çıktılarının (olasılık tahminlerinin) gerçek etiketlere ne kadar yakın olduğunu ölçen bir metriktir. Modelin güvenilirliğini ve tahminlerinin kesinliğini değerlendirir. Daha düşük bir Log Loss değeri, daha iyi bir model performansı anlamına gelir.

Ne zaman kullanılır? Özellikle modelin sadece doğru sınıflandırma yapmakla kalmayıp, aynı zamanda doğru olasılık tahminleri de yapmasının istendiği durumlarda tercih edilir. Çoklu sınıflandırma problemlerinde de yaygın olarak kullanılır.

💡 İpucu: Bir makine öğrenimi projesine başlarken, hangi metriklerin sizin için önemli olduğunu belirlemek için iş biriminizle veya etki alanı uzmanlarıyla konuşun. Örneğin, bir banka için dolandırıcılığı kaçırmamak (yüksek Duyarlılık) öncelikliyken, bir e-posta sağlayıcısı için normal e-postaları spam olarak işaretlememek (yüksek Hassasiyet) daha önemli olabilir.

Sınıflandırma Metrikleri Karşılaştırma Tablosu

Metrik	Neyi Ölçer?	Ne Zaman Kullanılır?
Doğruluk (Accuracy)	Genel doğru tahmin oranı	Dengeli veri setleri, genel performans
Hassasiyet (Precision)	Pozitif tahminlerin doğruluğu (FP’yi minimize etmek)	Yanlış pozitiflerin maliyeti yüksekse
Duyarlılık (Recall)	Gerçek pozitiflerin kapsayıcılığı (FN’yi minimize etmek)	Yanlış negatiflerin maliyeti yüksekse
F1 Skoru	Hassasiyet ve Duyarlılık dengesi	Dengesiz veri setleri, dengeli performans
AUC (ROC Eğrisi)	Tüm eşiklerde modelin ayrım gücü	Dengesiz veri setleri, model karşılaştırma
Log Loss	Tahmin olasılıklarının doğruluğu	Probabilistik tahminlerin önemi varsa

Regresyon Modelleri İçin Değerlendirme Metrikleri

Regresyon modelleri, sürekli değerleri tahmin etmek için kullanılır. Örneğin, ev fiyatlarını, hisse senedi değerlerini veya hava sıcaklığını tahmin etmek gibi. Bu modellerin performansı, tahmin edilen değerlerin gerçek değerlere ne kadar yakın olduğuna bakılarak değerlendirilir.

Ortalama Mutlak Hata (Mean Absolute Error – MAE)

MAE, tahmin edilen değerler ile gerçek değerler arasındaki mutlak farkların ortalamasıdır. Hataların büyüklüğünü, yönünü dikkate almadan ölçer ve aykırı değerlere (outlier) karşı daha dayanıklıdır.

Formül: `MAE = (1/n) * Σ |gerçek_değer – tahmin_değer|`

Ne zaman kullanılır? Hataların doğrusal olarak değerlendirilmesinin istendiği ve aykırı değerlerin etkisinin azaltılmak istendiği durumlarda tercih edilir.

Ortalama Kare Hata (Mean Squared Error – MSE)

MSE, tahmin edilen değerler ile gerçek değerler arasındaki farkların karelerinin ortalamasıdır. Büyük hataları daha fazla cezalandırır. Aykırı değerlere karşı hassastır.

Formül: `MSE = (1/n) * Σ (gerçek_değer – tahmin_değer)²`

Ne zaman kullanılır? Büyük hataların daha fazla cezalandırılmasının istendiği durumlarda. Türevlenebilir olması nedeniyle optimizasyon algoritmalarında (örneğin, gradyan inişi) sıklıkla kullanılır.

Ortalama Kare Kök Hata (Root Mean Squared Error – RMSE)

RMSE, MSE’nin kareköküdür. Hata birimini orijinal hedef değişkenin birimiyle aynı seviyeye getirir, bu da yorumlamayı kolaylaştırır. MSE gibi, aykırı değerlere karşı hassastır.

Formül: `RMSE = √MSE = √[(1/n) * Σ (gerçek_değer – tahmin_değer)²]`

Ne zaman kullanılır? MSE’nin yorumlanabilir versiyonu olarak. Genellikle en yaygın regresyon metriğidir.

R-kare (R-squared / Belirleyicilik Katsayısı)

R-kare, modelin bağımlı değişkendeki varyansın ne kadarını açıkladığını gösteren bir metriktir. Değeri 0 ile 1 arasında değişir; 1’e ne kadar yakınsa, model o kadar iyi bir açıklama gücüne sahiptir. 0 değeri, modelin hiçbir açıklayıcı gücünün olmadığını gösterir.

Formül: `R-squared = 1 – (SS_res / SS_tot)` (SS_res: Rezidüel Kareler Toplamı, SS_tot: Toplam Kareler Toplamı)

Ne zaman kullanılır? Modelin bağımlı değişken üzerindeki açıklayıcı gücünü genel olarak anlamak için. Genellikle birden fazla bağımsız değişken içeren modellerde kullanılır.

💡 İpucu: Regresyon metriklerini yorumlarken, metriğin birimini ve bağlamını göz önünde bulundurun. Örneğin, bir ev fiyatı tahmin modelinde 10.000 TL’lik bir RMSE değeri, 100.000 TL’lik bir ev için kabul edilebilirken, 50.000 TL’lik bir ev için çok yüksek olabilir.

Kümeleme Modelleri İçin Değerlendirme Metrikleri

Kümeleme modelleri, verileri benzerliklerine göre gruplara ayırır, ancak bu grupların önceden tanımlanmış etiketleri yoktur. Bu nedenle kümeleme modellerinin değerlendirilmesi, sınıflandırma veya regresyona göre daha zordur. Genellikle iki ana kategoriye ayrılırlar: denetimli (eğer gerçek etiketler biliniyorsa) ve denetimsiz (gerçek etiketler bilinmiyorsa).

Siluet Skoru (Silhouette Score)

Siluet Skoru, bir kümeleme modelinin ne kadar iyi çalıştığını ve kümelerin ne kadar iyi ayrıldığını ölçer. Her bir veri noktasının kendi kümesindeki diğer noktalara ne kadar benzediğini (birliktelik) ve en yakın diğer kümedeki noktalardan ne kadar farklı olduğunu (ayrılık) değerlendirir. Skoru -1 ile +1 arasında değişir.

+1’e yakın: Kümeleme iyi yapılmış, veri noktası kendi kümesine çok benzer ve komşu kümelerden uzaktır.
0’a yakın: Kümeleme yetersiz, veri noktası kümeler arasında sınırda yer alır.
-1’e yakın: Kümeleme yanlış, veri noktası yanlış kümeye atanmış olabilir.

Ne zaman kullanılır? Genellikle denetimsiz bir metrik olarak, gerçek etiketler bilinmediğinde kümeleme kalitesini değerlendirmek ve farklı kümeleme algoritmalarını veya farklı küme sayılarını karşılaştırmak için kullanılır.

Davies-Bouldin Skoru

Davies-Bouldin Skoru, kümeler arasındaki benzerliği ve küme içi dağılımı dikkate alır. Daha düşük bir Davies-Bouldin skoru, daha iyi kümeleme performansı anlamına gelir. Amaç, kümeler arası ayrımı maksimize ederken, küme içi sıkılığı minimize etmektir.

Ne zaman kullanılır? Denetimsiz bir metrik olarak, farklı kümeleme sonuçlarını karşılaştırmak için kullanılabilir. Daha düşük değerlerin daha iyi olduğu bir metriktir.

⚠️ Dikkat: Kümeleme metrikleri genellikle “en iyi” küme sayısını belirlemek için de kullanılır. Farklı küme sayıları için bu metrikleri hesaplayarak, skorun en iyi olduğu noktayı (örneğin, Siluet Skoru için en yüksek, Davies-Bouldin Skoru için en düşük) en uygun küme sayısı olarak kabul edebilirsiniz.

Doğru Metriği Seçmek: En Önemli Adım

Bir makine öğrenimi projesinde başarılı olmak için doğru modeli seçmek kadar, o modelin performansını ölçmek için doğru metrikleri seçmek de hayati önem taşır. Yanlış metrik, sizi yanlış sonuçlara ve dolayısıyla yanlış iş kararlarına yönlendirebilir.

Metrik Seçiminde Göz Önünde Bulundurulması Gerekenler:

Problemin Türü: Sınıflandırma, regresyon, kümeleme mi? Her problem türü için özel metrikler bulunur.
Veri Setinin Özellikleri: Sınıf dağılımı dengeli mi, dengesiz mi? Aykırı değerler var mı?
İş Hedefleri ve Maliyetler: Yanlış pozitiflerin veya yanlış negatiflerin iş üzerindeki maliyeti nedir? Hangi hata türü daha az kabul edilebilir?
Modelin Amacı: Modelin amacı sadece doğru tahmin yapmak mı, yoksa güvenilir olasılık tahminleri de sunmak mı?
Yorumlanabilirlik: Metriklerin paydaşlar tarafından ne kadar kolay anlaşılabildiği de önemlidir.

💡 İpucu: Birçok durumda, tek bir metrik yerine birden fazla metriği bir arada değerlendirmek daha kapsamlı bir bakış açısı sunar. Örneğin, bir sınıflandırma modelinde hem F1 Skoru hem de AUC değerini incelemek, modelin genel performansını daha iyi anlamanıza yardımcı olur.

✏️ Kendinizi Test Edin

Dengesiz veri setlerinde Doğruluk (Accuracy) metriği neden yanıltıcı olabilir? Bu tür durumlarda hangi metrikleri kullanmak daha uygun olur?
Bir tıbbi teşhis modeli geliştiriyorsunuz ve hastalıklı birini kaçırmak (yanlış negatif) ciddi sonuçlara yol açabilir. Bu senaryoda hangi metrik sizin için en kritik öneme sahip olacaktır ve neden?
Regresyon modellerinde kullanılan MSE ve MAE metrikleri arasındaki temel fark nedir? Hangi durumda MAE, MSE’ye göre daha avantajlı olabilir?
Karmaşıklık Matrisindeki (Confusion Matrix) Gerçek Pozitif (TP), Gerçek Negatif (TN), Yanlış Pozitif (FP) ve Yanlış Negatif (FN) kavramlarını kendi cümlelerinizle açıklayınız.
Bir kümeleme modelinin kalitesini değerlendirmek için kullanılan denetimsiz metriklerden ikisini açıklayınız ve ne zaman kullanıldıklarını belirtiniz.

📝 Konu Özeti

Makine öğrenmesi model değerlendirme metrikleri, bir modelin performansını ölçmek için vazgeçilmezdir.
Sınıflandırma metrikleri arasında Doğruluk, Hassasiyet, Duyarlılık, F1 Skoru, ROC Eğrisi/AUC ve Log Loss bulunur.
Regresyon metrikleri arasında MAE, MSE, RMSE ve R-kare yer alır.
Kümeleme metrikleri arasında Siluet Skoru ve Davies-Bouldin Skoru öne çıkar.
Karmaşıklık Matrisi (Confusion Matrix), sınıflandırma metriklerinin temelini oluşturur.
Doğru metrik seçimi, problemin türüne, veri setinin yapısına ve iş hedeflerine göre dikkatle yapılmalıdır.
Dengesiz veri setleri gibi özel durumlarda, Doğruluk gibi genel metrikler yerine daha spesifik metrikler tercih edilmelidir.

Öğrendiklerinizi Pekiştirin

Makine öğrenmesinde model değerlendirme metrikleri, geliştirilen modellerin gerçek dünyadaki başarısını belirleyen temel taşlardır. Bu derste öğrendiğiniz metrikler ve onların kullanım alanları, bir veri bilimcisi veya makine öğrenimi mühendisi olarak karar verme süreçlerinizde size yol gösterecektir. Bilgiyi pekiştirmek için farklı veri setleri üzerinde modeller geliştirerek bu metrikleri uygulamalı olarak deneyimlemeniz önemlidir. Unutmayın, en iyi model her zaman en yüksek doğruluk oranına sahip olan değil, iş problemine en uygun ve en iyi genelleme yeteneğine sahip olan modeldir.