İstatistik

Nadir Olaylarda Yüksek Risk Sinyaline Güvenmek Doğru mu?

2025-12-16 Abdullah Kise

Bir hastalık düşünelim. Daha önce toplum genelinde yapılan bir çalışmada doğru örnekleme ile elde edilen verilere bakılarak bu hastalığın görülme oranının %0.5 (binde 5) olduğu tespit edilmiş olsun.

Bazı şikayetleriniz var ve kendinizi pek iyi hissetmiyorsunuz. İnternette bir araştırma yaptınız ve şikayetlerinizin bu hastalığın semptomlarıyla uyumlu olduğunu gördünüz. Bu sizi kaygılandırdı ve kendinizi dikkatle dinlemeye başladınız. Evet bazı belirtiler var. Hatta zamanla orada yazan diğer belirtiler de çıkmaya başladı. Bir süre sonra korkunç bir döngüye girersiniz. Şikayetleriniz giderek artar ve o nadir hastalıktaki belirtilerle daha fazla benzerlik göstermeye başlar.

Hemen bir doktora başvurur şikayetlerinizi anlatır ve bu nadir hastalığa yakalanıp yakalanmadığınızı öğrenmek istersiniz. Bu süreçte farkında olmadan iki kritik hata yaparsınız. İlki doktorunuzu belli bir hastalık çerçevesinde düşünmeye itersiniz. İkincisi ise kendi şikayetlerinizi anlatırken o nadir hastalığın semptomlarını da aralara serpiştirmeye başlarsınız. Aslında doktora gitmeden önce siz kendi teşhisinizi koymuşsunuzdur. Sadece doktorun da sizi onaylamasını beklersiniz.

Doktor sizin işaret ettiğiniz çerçeveyi önceliklendirerek bir takım testler yapar. Testlerin sonucunda elde edilen bazı sinyaller yüksek riski işaret eder ve nihayet karar verilir. Tebrikler, başardınız! artık o hastalığın teşhisi size konmuştur. Sonrasında birçok ilaç ve kabusa dönen bir hayat...

Eminim bu senaryo size bir yerlerden tanıdık geliyordur. Siz de şahit olmuşsunuzdur: Nadir olarak görünen korkunç seviyedeki birçok beden ve ruh hastalığı ilgi gördüğü için daha fazla sorulur, daha fazla anlatılır. Dolayısıyla hakkında daha fazla bilgi olur ve bu bilgiler zamanla karar verme eğilimini bu yöne sevk eder.

Peki, gerçekten hasta mısınız?

Bu hastalık senaryosunu matematiksel (istatistiksel) açıdan inceleyelim. Testin "hasta" sonucu "pozitif", "hasta değil" sonucu "negatif" olarak isimlendirilir.

Bu nadir hastalığın toplumda görünme oranı ve testin hastalığı tespit etme başarısıyla ilgili oranlara bir göz atalım.

  • Toplum genelinde bu hastalığın görünme oranı %0.5 (binde 5)
  • Testimiz yüksek hasta testpit oranına sahip olsun:
    • Gerçek hastalarda test sonuçları %99 pozitif (yani hasta) çıksın.
    • Gerçek sağlıklı kişilerde ise test sonuçları %50 negatif (yani hasta değil) olarak tespit edilebiliyor.

Test güçlü görünüyor, değil mi?

Bir de bu oranları teknik terimlerle ifade edelim:

  • Prevalans (Hastalığın toplumdaki görülme oranı): P(H) = 0.005
  • Hastalarda testin pozitif çıkma oranı (Recall): P(Pos|H) = 0.99
  • Sağlıklı bireylerde testin negatif çıkma oranı (Specificity): P(Neg|H) = 0.50
    • Buna bağlı olarak sağlıklı bireylerde testin pozitif çıkma oranı (False Positive Rate): P(Pos|H) = 0.50

Şimdi test sonucu pozitif çıktı ve testin hastalığı tespit etme oranı da çok yüksek olduğu için, doktorunuz da siz de bu sonuca itibar ederek hasta olduğunuza kanaat getirdiniz.

Fakat gözardı ettiğiniz bir şey var. Hastalık çok nadir (binde 5) ve nadir olaylarda yanlış teşhisler/pozitifler (False Positif (FP)) çok baskın hale gelebilir.

Peki, gerçekten hasta mısınız?

Yazımızın asıl konusu olan yani Bayes Teoremini kullanmadan buna cevap veremeyiz.

Bayes Teoremi Nedir?

Bayes teoremi olasılık derslerinde karşımıza çıkan, hepsini anladık da bu mu kaldı? deyip bir kenara ittiğimiz çok kıymetli bir teorem. Bayes sayesinde arama motorları, birçok makine öğrenimi modeli, piyasa tahminleri ve rasyonel karar verme sistemleri sağlıklı şekilde çalışabiliyor. Bayes teoreminin kullanım amacının, bir şekilde tespit ettiğimiz ihtimali gerçek dünya olasılığına çevirip daha akılcıl kararlar vermektir diyebiliriz.

İki veya daha fazla durumda kullanabileceğimiz Bayes Teoreminin ikili (A veya B gibi) durumlarda kullanılan hali şöyle ifade edilir: P(A∣B) = P(B∣A)×P(A) / P(B)

Burada;

  • A: İncelenen olay (örneğimizde hastalık)
  • B: Gözlemlenen durum (örneğimizde test sonucu pozitif çıkması)
  • P(A|B): B durumu gözlemlendiğinde A olayının olasılığı (test sonucu pozitif çıktığında hastalığa sahip olma olasılığı)
  • P(B|A): A olayı gerçekleştiğinde B durumunun olasılığı (hastalara uygulanan testin pozitif çıkma olasılığı)
  • P(A): A olayının önsel olasılığı (hastalığın toplumdaki görülme oranı)
  • P(B): B durumunun toplam olasılığı (testin pozitif çıkma olasılığı)

Bayes Teoremi ile Gerçek Olasılığı Hesaplayalım

Şimdi daha rahat düşünebilmek için formulu örneğimizdeki terimlerle (H: hasta , +: test pozitif) dolduralım ve değerleri yerine yazalım. Bizim aradığımız şey P(H∣+) yani testin pozitif olduğunu bildiğimiz durumda hastalık ihtimalininin ne olduğu.

  • P(H∣+) = P(+|H) × P(H) / P(+)
  • P(H∣+) = 0.99 × 0.005 / P(+)

P(+) değerini bulmak için toplam pozitif olasılığını hesaplamamız gerekiyor. Toplam pozitif olasılığı, hastalılarda pozitif çıkma olasılığı ile hastalık olmayanlarda pozitif çıkma olasılığının toplamıdır:

  • P(+) = P(+|H) × P(H) + P(+|S) × P(S) buradaki S, hastalığı olmayanları ifade etsin.
  • P(+) = 0.99 × 0.005 + 0.50 × 0.995
  • P(+) = 0.00495 + 0.4975 = 0.50245
  • Şimdi P(+) değerini yerine yazalım:
    • P(H|+) = 0.99 × 0.005 / 0.50245
    • P(H|+) = 0.00495 / 0.50245
    • P(H|+) ≈ 0.00985

Sonuç olarak test sonucu pozitif çıktığında gerçekten hasta olma olasılığınız yaklaşık %0.985 yani binde 9.85'tir. Yani test sonucu pozitif çıksa bile hasta olma olasılığınız %1'in altındadır.

Derin bir nefes alın ve rahatlayın. Hiç de hasta değilsiniz! Fakat burada bir takım aksiyonlar almanız gerekebilir. Belki biraz konudan uzaklaşmak, stres atmak ve belirtilerinizi tekrar gözden geçirmek iyi olabilir. Duruma daha geniş açıdan bakmak, gerekirse başka testler yaptırmak faydalı olabilir. Hemen panik yapıp ağır tedavilere başlamayın. Belki de bu size geri dönüşü olmayan gerçek zararlar verebilir.

Nadir Olaylarda Yüksek Risk Sinyaline Güvenmek Yanıltıcı Olabilir

Bu örnek bize nadir olaylarda yüksek risk sinyaline güvenmenin ne kadar yanıltıcı olabileceğini gösteriyor. Testin yüksek doğruluk oranlarına sahip olması, nadir olaylarda gerçek durumu yansıtmayabilir.

Fraud, arıza, hastalık ve güvenlik ihlali gibi nadir olaylar, makine öğrenmesi modellerinin en yanıltıcı olduğu alanlardır. Model metrikleri genellikle çok iyi görünür; ancak üretimde yanlış kararlar alınır.

Bunu deneyimleyebilmeniz için aşağıdaki confision matrix ve metrikleri inceleyebilirsiniz.

  Tahmin Fraud Tahmin Normal Toplam
Gerçek Fraud 495 (TP) 5 (FN) 500
Gerçek Normal 495 (FP) 99.005 (TN) 99.500
Toplam 990 99.010 100.000

Bu matristen hesaplanan metrikler:

  • Recall (TPR) = 0.99 yani neredeyse tüm fraud’ları yakalıyoruz
  • Precision = 0.50 yani fraud dediğimizin yarısı doğru
  • Accuracy = 0.995 yani model mükemmel!

Görüldüğü gibi Accuracy ve Recall oldukça yüksek. Precision bize bir ipucu veriyor, lakin göz ardı edilmesi muhtemel. Sonuç olarak bu temel metrikler modelin başarılı olabileceği kanaatını doğruyor.

Fraud tespitinde yanlış pozitiflerin (FP) (yani fraud olmayan birçok işe fraud olarak) müdahele etmenin maliyeti çok yüksek olabilir. Yüksek risk sinyali aldığınız bir işleme müdehale etme şekliniz, gerçek sonuçlardan daha fazla zarar verebilir. Müdehale seviyelerini belirlerken Bayes teoremi ve gerçek maliyet analizlerini göz önünde bulundurmak kritik öneme sahiptir.

Modellerin size verdiği olasılık bir tür sıralama skorudur; ancak gerçek dünya kararları için bu skoru kalibre etmek ve gerçek olasılıkla ilişkilendirmek gerekir.

Başka bir yazımızda bu konuyu daha detaylı inceleyebiliriz. Böylece bir fraud senaryosunda Bayes teoreminin nasıl uygulanabileceğini ve gerçek maliyetlerle nasıl ilişkilendirilebileceğini ele alırız.

Sonuç

Bu yazımızda Bayes teoreminin dünya gerçekliğini göz önünde tutarak nasıl kritik bir rol oynadığını ve nadir olaylarda karar verme süreçlerinde ne kadar önemli olduğunu ele aldık.

Unutmayın, yüksek risk sinyallerine dayanarak aceleci kararlar vermek, özellikle nadir olaylarda, yanıltıcı olabilir ve istenmeyen sonuçlara yol açabilir.

Yapay zekanın yaygınlaştığı günümüzde, bu tür istatistiksel yaklaşımları anlamak ve uygulamak her zamankinden daha önemli hale geliyor. Öğrenmeye devam edelim, tahmin modellerinin oyuncağı olmayalım.