Makine Öğrenimi ile Tahminleme: Regresyon Analizi Konu Anlatımı

2 Şubat 2026 8 dk okuma Deniz Karay

Makine öğrenimi ile tahminleme süreçlerinin temel taşı olan regresyon analizi, bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi matematiksel bir modelle ifade etme yöntemidir. Bu analiz yöntemi, günümüzde finans piyasalarındaki fiyat tahminlerinden sağlık sektöründeki hastalık risk analizlerine, enerji tüketim öngörülerinden gayrimenkul değerlemesine kadar hayatın her alanında karar alma süreçlerini optimize etmek için kritik bir rol oynar. Veri biliminin en eski ve en güvenilir tekniklerinden biri olan regresyon, karmaşık veri setleri içindeki anlamlı kalıpları ortaya çıkararak geleceğe dair rasyonel projeksiyonlar yapmamıza olanak tanır.

🎯 Bu Derste Öğrenecekleriniz

Regresyon analizinin temel tanımını ve çalışma mantığını kavrayacaksınız.
Basit doğrusal regresyon ile çoklu doğrusal regresyon arasındaki farkları öğreneceksiniz.
Makine öğrenimi modellerinde kullanılan temel başarı metriklerini (MSE, R-Kare vb.) analiz edebileceksiniz.
Veri hazırlama ve model eğitimi süreçlerindeki kritik adımları öğreneceksiniz.
Regresyonun günlük hayattaki gerçek dünya uygulamalarını keşfedeceksiniz.

📌 Bu Konuda Bilmeniz Gerekenler

Regresyon, sürekli değerleri (sayıları) tahmin etmek için kullanılır.
Bağımlı değişken (y), tahmin etmek istediğimiz sonuçtur.
Bağımsız değişken (x), sonucu etkileyen faktörlerdir.
Modelin başarısı, gerçek değerler ile tahmin edilen değerler arasındaki farkın azlığına bağlıdır.

İçerik göster

Regresyon Analizi Nedir? Temel Kavramlar

Regresyon analizi, istatistiksel bir yöntem olarak başlasa da günümüzde makine öğreniminin en güçlü tahminleme araçlarından biri haline gelmiştir. Temel amacı, değişkenler arasındaki ilişkinin gücünü ve yönünü belirlemektir. Örneğin, bir öğrencinin çalışma saati ile sınav notu arasındaki ilişkiyi incelediğimizde, çalışma saati bağımsız değişken, sınav notu ise bağımlı değişkendir. Makine öğrenimi algoritmaları bu ilişkiyi “öğrenerek” daha önce hiç görülmemiş bir çalışma saati verisi girildiğinde, olası sınav notunu tahmin edebilir.

Makine öğrenimi perspektifinden baktığımızda regresyon, denetimli öğrenme (supervised learning) kategorisine girer. Bu, modelimizi eğitirken sistemin hem girdileri (soruları) hem de çıktıları (cevapları) bildiği anlamına gelir. Algoritma, geçmiş verilerdeki hataları minimize ederek en uygun “tahmin çizgisini” bulmaya çalışır.

ℹ️ Bilgi: Regresyon terimi ilk kez Francis Galton tarafından kullanılmıştır. Galton, uzun boylu babaların çocuklarının boylarının ortalamaya (regress) dönme eğiliminde olduğunu fark etmiş ve bu istatistiksel ilişkiye bu ismi vermiştir.

Temel Regresyon Türleri ve Kullanım Alanları

Verinin yapısına ve tahmin edilmek istenen durumun karmaşıklığına göre farklı regresyon modelleri kullanılır. En yaygın kullanılan üç türü inceleyelim:

1. Basit Doğrusal Regresyon (Simple Linear Regression)

Sadece bir bağımsız değişken ve bir bağımlı değişken arasındaki doğrusal ilişkiyi inceler. Matematiksel olarak y = ax + b formülü ile ifade edilir. Burada ‘a’ katsayıyı (eğimi), ‘b’ ise sabit değeri (kesişim noktasını) temsil eder. Örneğin, sadece evin metrekaresine bakarak fiyat tahmini yapmak basit doğrusal regresyona bir örnektir.

2. Çoklu Doğrusal Regresyon (Multiple Linear Regression)

Gerçek hayatta olaylar genellikle tek bir nedene bağlı değildir. Bir evin fiyatını sadece metrekaresi değil; oda sayısı, konumu, binanın yaşı gibi birçok faktör etkiler. Birden fazla bağımsız değişkenin kullanıldığı bu model, daha gerçekçi sonuçlar sunar. Formül, her yeni değişken için yeni bir katsayı eklenerek genişler.

3. Polinom Regresyon (Polynomial Regression)

Eğer veri noktaları düz bir çizgi üzerinde değil de bir eğri şeklinde ilerliyorsa doğrusal modeller yetersiz kalır. Bu durumda değişkenlerin karesi veya küpü alınarak veriye en uygun eğri çizilir. Biyolojik büyüme süreçleri veya kimyasal reaksiyon hızları genellikle bu modelle analiz edilir.

Regresyon Türü	Bağımsız Değişken Sayısı	İlişki Biçimi
Basit Doğrusal	1 Adet	Doğrusal (Çizgi)
Çoklu Doğrusal	Birden Fazla	Doğrusal (Düzlem)
Polinom	1 veya Daha Fazla	Eğrisel (Kavisli)

Bir Makine Öğrenimi Modeli Nasıl İnşa Edilir?

Başarılı bir regresyon modeli oluşturmak sadece algoritmayı çalıştırmak değildir. Bu süreç, adım adım ilerleyen disiplinli bir mühendislik çalışması gerektirir. İlk adım veri toplama ve temizlemedir. Eksik verilerin tamamlanması, aykırı değerlerin (outliers) temizlenmesi modelin doğruluğu için hayati önem taşır.

Veri hazırlandıktan sonra, veri seti genellikle eğitim (training) ve test (testing) olarak ikiye ayrılır. Eğitim seti ile model öğrenme gerçekleştirirken, test seti ile modelin gerçek hayattaki başarısı ölçülür. Bu aşamada özellik ölçeklendirme (feature scaling) yapılması, farklı büyüklükteki verilerin (örneğin km ve fiyat gibi) model tarafından eşit ağırlıkta değerlendirilmesini sağlar.

⚠️ Dikkat: Modelinizi eğitim verisine aşırı uydurmak (Overfitting), gerçek dünyada başarısızlığa yol açar. Model veriyi ezberlememeli, altındaki mantığı kavramalıdır.

Model Performansını Ölçme: Başarı Metrikleri

Modelimizi eğittikten sonra ne kadar iyi çalıştığını nasıl anlarız? Regresyon analizinde tahminlerin kalitesini ölçmek için çeşitli istatistiksel metrikler kullanılır. En yaygın olanları şunlardır:

Ortalama Mutlak Hata (MAE): Tahmin edilen değerler ile gerçek değerler arasındaki farkın mutlak değerinin ortalamasıdır. Hatanın büyüklüğünü doğrudan birim cinsinden verir.
Ortalama Kare Hata (MSE): Hataların karesinin ortalamasıdır. Büyük hataları daha fazla cezalandırdığı için modeldeki sapmaları net görmemizi sağlar.
R-Kare (R-Squared): Verilerin regresyon hattına ne kadar yakın olduğunu gösteren 0 ile 1 arasında bir değerdir. 1’e ne kadar yakınsa, model veriyi o kadar iyi açıklıyor demektir.

💡 İpucu: Her zaman tek bir metriğe güvenmeyin. R-Kare yüksek olsa bile MAE değerinin iş hedefleriniz için kabul edilebilir olup olmadığını kontrol edin.

📖 Örnek: E-Ticaret Satış Tahmini

Bir e-ticaret sitesi, reklam harcamaları ile günlük satış miktarı arasındaki ilişkiyi analiz etmek istiyor. Geçmiş 1 yıllık veriler kullanılarak bir regresyon modeli oluşturulur. Model, “Eğer 1000 TL reklam verilirse, yaklaşık 5000 TL satış yapılır” sonucunu üretir. İşletme, bu tahmini kullanarak stok yönetimini ve bütçesini planlar. Eğer reklam harcaması artmasına rağmen satışlar artmıyorsa, model aradaki ilişkinin doğrusal olmadığını (doygunluk noktası) tespit ederek strateji değişikliği önerir.

Uygulamada Karşılaşılan Zorluklar ve Çözümler

Gerçek dünya verileri her zaman teorik kitaplardaki kadar temiz değildir. Çoklu doğrusallık (multicollinearity) problemi, bağımsız değişkenlerin kendi aralarında güçlü bir ilişki içinde olması durumunda ortaya çıkar ve modelin katsayılarını kararsızlaştırır. Bu durumu çözmek için VIF (Variance Inflation Factor) analizi yapılabilir veya bazı değişkenler modelden çıkarılabilir.

Ayrıca, verideki gürültü (noise) ve aykırı değerler regresyon çizgisini kendine doğru çekerek hatalı sonuçlara neden olabilir. Bu durumlarda standart regresyon yerine, aykırı değerlere karşı daha dayanıklı olan Robust Regresyon veya düzenlileştirme yöntemleri (Ridge, Lasso) tercih edilmelidir.

Öğrendiklerinizi Pekiştirin

Regresyon analizi, makine öğrenimi dünyasına giriş yapmak için en ideal konudur. Matematiksel temelleri sağlam bir şekilde kavradığınızda, daha karmaşık olan derin öğrenme ve yapay sinir ağları modellerini anlamanız çok daha kolay olacaktır. Unutmayın ki, en karmaşık yapay zeka sistemlerinin bile temelinde, veriler arasındaki bu anlamlı ilişkileri bulma çabası yatar.

✏️ Kendinizi Test Edin

Basit doğrusal regresyonda bağımlı ve bağımsız değişken arasındaki ilişkiyi ifade eden temel matematiksel formül nedir?
Bir modelin R-Kare değerinin 0.95 olması ne anlama gelir? Bu model mükemmel midir?
Modelin eğitim verilerinde çok başarılı olup test verilerinde başarısız olması durumuna ne ad verilir?
Hangi durumlarda doğrusal regresyon yerine polinom regresyon kullanmak daha mantıklıdır?

📝 Konu Özeti

Regresyon analizi, sürekli sayısal değerleri tahmin etmek için kullanılan temel bir makine öğrenimi tekniğidir.
Basit modeller tek değişkenle çalışırken, çoklu modeller karmaşık senaryoları analiz eder.
Veri temizleme ve aykırı değer analizi, başarılı bir modelin temel hazırlık aşamalarıdır.
MSE, MAE ve R-Kare gibi metrikler, modelin ne kadar doğru tahmin yaptığını sayısal olarak kanıtlar.
Overfitting (aşırı uyum) riski, modellerin genelleme yeteneğini azaltan en büyük engeldir.