List

-Korelasyon neden-sonuç
ilişkisini göstermez!

Yalanı, Seagre ve Mann şu şekilde tanımlamışlardır[1]:

Başarılı olsun veya
olmasın, söyleyenin aslında doğru olmadığını bildiği ve söylenen kişiye gerçek
olmadığının bildirilmediği bir inanç yaratmak için sarfedilen kasti bir çaba

Yalanın tanımıyla başladığım bu yazının başlığı, herhangi bir istatistik eğitimi almamış olan Darrell Huff tarafından yazılmasına rağmen dünya çapında 1,5 milyondan fazla[2] satarak en fazla satış yapan istatistik kitabı unvanını elinde bulunduran “İstatistik ile nasıl yalan söylenir[3]” isimli kitabın ilk sayfasında[4] yer almaktadır.

İstatistik aslında “kötü ellerde tehlikeli olabilecek” şeylerden biridir. Görüşleri yanlış olsa da karşı tarafa empoze etmek isteyen insanlar istatistiği kendi emelleri doğrultusunda kullanarak yalan söyleyebilmektedirler. Gelin Homer Simpson’ın şu sözüne kulak verelim:

İstediğin herhangi bir şeyi kanıtlamak için istatistikten
faydalanabilirsin, Kent. İnsanların
%40’ı bunu bilir[5].

Homer’ın bu cümlesinden de anlayacağınız gibi yalanların daha inandırıcı olması için istatistikten destek alınabilir. NRA[6] isimli ABD’li kuruluşun “Guns don’t kill people, people do” (Silahlar insan öldürmez, insanlar öldürür) şeklindeki sloganı aslında istatistiğe de uyarlanabilir: “İstatistik yalan söylemez, insanlar söyler”.  Dolayısıyla istatistiği neden kullandığınız kadar nasıl kullandığınız da önemlidir.

Şu anda okuduğunuz bu yazının konusu, sıklıkla
bilerek veya bilmeyerek düşülen bir hata üzerine:

“Korelasyon, sebep- sonuç ilişkisini göstermez.”

Korelasyon
katsayısı iki değişken arasındaki doğrusal ilişkinin yönünü ve gücünü gösterir[7].  İki değişken arasındaki anlamlı bulunan
pozitif korelasyon katsayısı iki değişkenin aynı yönlü değiştiğini, anlamlı
negatif korelasyon katsayısı ise iki değişkenin ters yönlü değiştiğini
gösterir. Örneğin; hava sıcaklığı ile dondurma satışları arasındaki korelasyon
katsayısının pozitif olduğunu ifade etmek mümkün. Bu iki değişken arasında aynı
zamanda sebep sonuç ilişkisi olduğunu söylemek de mümkün. Dondurma
satışlarındaki artışın sebebi hava sıcaklığıdır. Fakat iki değişken arasındaki
anlamlı korelasyon ilişkisi, bu örnekte olduğu gibi her zaman değişkenlerden
birinin diğerini değiştirdiğini; diğerinin sebebi olduğunu göstermez.

Latince’de
post hoc ergo propter hoc  şeklinde geçen,
eğer B olayı A olayından sonra gerçekleşiyorsa, B olayının gerçekleşme sebebi
A’dır şeklinde özetlenebilecek yanılsamaya özellikle aralarında korelasyon
ilişkisi olan değişkenlerde sıklıkla düşeriz.

İki
değişken arasındaki yüksek korelasyonun nedeni üçüncü bir değişken olabilir.
Yani üçüncü bir değişken, dikkate alınan iki değişkeni de aynı yönde veya
farklı yönde değiştirebilir. Örneğin; evsiz insan sayısı ile suç oranı arasında
yüksek korelasyon olabilir. Bu korelasyon, evsiz insanların suça yöneldiğini
gösterse de gerçek her zaman bu kadar göz önünde durmayabilir. Hemen mantığa
uygun bu sebep-sonuç ilişkisinin kabul edilmesi yanıltıcı olabilir.  İncelenen bölgede her iki değer de yüksek veya
düşük seviyede gerçekleşmiş olabilir. Evsiz kişi sayısı ile suç oranı arasında
bir ilişki vardır demek ile suç oranı ile evsiz kişi sayısı ilişkilidir demek
arasında bir fark bulunmamaktadır. Öte yandan, suç sokakta yaşamaya neden olur
ya da sokakta yaşayanlar suç işler demek farklı ifadelerdir. Bunun temelinde
yatan sebep işsizlik gibi üçüncü bir değişken olabilir[8].

Değişkenler arasındaki korelasyon tamamen tesadüfi olarak da gerçekleşmiş olabilir. 1883-2008 arasında Galler rugby takımının başarılı sezon geçirmesiyle, Papa ölümleri arasında[9] güçlü korelasyon[10] bulunmaktadır (Papa’nın yerinde olsam şimdiden kendimi garantiye alır, takımı aforoz ederdim).

One must always be wary when drawing conclusions from data! Randall MunroeCC BY-NC

Dolayısıyla, korelasyon katsayısını kullanırken oldukça dikkatli olmak gerekmektedir. Özellikle korelasyonun olayların akışından etkilenip etkilenmediğini[11], bu ilişkiyi etkileyebilecek farklı faktörler olup olmadığını da incelemek gerekir.

Aşağıda Meksika’dan ABD’ye ihraç edilen limon miktarı ile ABD karayollarındaki kaza oranı görülmektedir[12]. İki değişken arasında negatif bir korelasyon olduğu, yani ihraç edilen limon sayısı arttıkça kaza oranında azalma yaşandığını görülmektedir. Dolayısıyla bu korelasyona bakıp da ABD Ulaşım bakanlığının tutup da Meksika’dan tonlarca limon ürettiğini düşünmüyorum.

Aşağıda
Messerli (2012)’nin[13] çalışmasından alınan bir
grafik görülmektedir:

Çikolata tüketimi Nobel ödülü arasındaki korelasyon 0.791 bulunmuş. O halde ülkemizdeki Nobel alan kişi sayısını arttırmak için daha çok çikolata yiyelim?

Aşağıda
ise Internet Explorer’ın Pazar payı ile ABD’de işlenen cinayet oranı
görülmektedir[14].

Bu grafiği dikkate alırsak, Internet Explorer kullanan arkadaşlarımıza muhtemel katil adayı gözüyle bakmamız gerek  (Valla, ben bakıyorum).

Artık
bir efsane halini alan bir örneğe bakalım. Arsenal’in Galli futbolcusu Aaron
Ramsey’in attığı gol ile ünlü bir insanın ölmesi arasında yüksek korelasyon
bulunmaktadır. Ramsey 1 Mayıs 2011 tarihinde Manchester United maçında 1 gol
atmış, maçtan 4 saat sonra ABD tarafından Usame Bin Laden’in öldürüldüğü
duyurusu yapılmıştır. 2 Ekim 2011 tarihinde Tottenham maçında da Ramsey gol
atmış, 3 gün sonra Steve Jobs ölmüştür. 19 Ekim 2011 tarihinde Marsilya maçında
gol attıktan 12 saat sonra Muammer Kaddafi öldürülmüş, 11 Şubat 2012 tarihinde
Sunderland maçında gol attıktan sonra aynı akşam Whitney Houston otel odasında
ölü bulunmuştur. Ne yapalım? Ünlülerin ölmesini engellemek için Ramsey jübile
mi yapsın?

Sözün özü ve kısası; korelasyon neden-sonuç ilişkisi hakkında bilgi vermez.

Farklı örnekler için http://www.tylervigen.com/spurious-correlations  ve http://www.google.com/trends/correlate/ sitelerini ziyaret edebilirsiniz.


[1] Paul
Seager ve Sandi Mann, 2010, Yalan, Sel Yayıncılık.

[2] J.
Michael Steele, 2005, Darrell Huff and Fifty Years of How to Lie with
Statistics, Statistical Science, 20 (3), 205-209.

[3] https://archive.org/details/HowToLieWithStatistics

[4] Bu sözün
ilk kez kim tarafından söylendiği muammadır. Mark Twain tarafından Benjamin
Disraeli’e atfetilse de Prof. Peter M Lee’nın araştırmaları bu sözün Sir
Charles Dilke’a ait olma ihtimalinin yüksek olduğunu göstermektedir. http://www.york.ac.uk/depts/maths/histstat/lies.htm

[5] Simpsons
dizisinin 5. Sezonunun 11. Bölümü:  http://www.imdb.com/title/tt0701117/quotes

[6] National
Rifle Association: Ulusal Ateşli Silahlar Birliği

[7]
Korelasyon katsayısı ile ayrıntılı bilgiyi yazının sonunda bulabilirsiniz.

[8] http://stats.stackexchange.com/questions/36/examples-for-teaching-correlation-does-not-mean-causation/618#618,
E. Tarihi: 07.10.2013

[9] 1978
yılı hariç; o yıl Galler gerçekten çok iyi performans göstermişti ve iki Papa
ölmüştü

[10] Gareth
C. Payne, Rebecca E Payne ve Daniel M Farewell, 2008, Rugby (the religion of
Wales) and its influence on the Catholic church: should Pope Benedict XVI be
worried?, BMJ, 337, http://dx.doi.org/10.1136/bmj.a2768, s.1-2.

[11] Huff,
s.94

[12] Stephen R. Johnson, 2008, The Trouble with QSAR (or How I
Learned To Stop Worrying and Embrace Fallacy), Journal of Chemical Information
and Modeling,,- 48 (1), ss.25-26.

[13]
Franz H. Messerli, 2012, Chocolate
Consumption, Cognitive Function, and Nobel Laureates, New England Journal of
Medicine, 367, 1562-1564.

[14]  http://gizmodo.com/5977989/internet-explorer-vs-murder-rate-will-be-your-favorite-chart-today,

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

  Kategori: Blog

9 posts
Ekim 17th, 2018

Üç çeşit yalan vardır: Yalan, kuyruklu yalan ve istatistik

-Korelasyon neden-sonuç ilişkisini göstermez! Yalanı, Seagre ve Mann şu şekilde tanımlamışlardır[1]: “Başarılı olsun veya olmasın, söyleyenin aslında doğru olmadığını bildiği […]

Ekim 16th, 2018

Aritmetik Ortalama

Hassas ortalamalardan birisi olan aritmetik ortalama seride yer alan uç değerlerden oldukça etkilenir ve seriyi tanımlama özelliğini kaybeder. Bu özellikle […]

Ekim 16th, 2018

Birinci Tip ve İkinci Tip Hata

Temel ve alternatif hipotez hakkında bir karara varırken, doğru kararı verip vermediğimize %100 emin olamayız. Bir karara varırken iki farklı […]

Ekim 16th, 2018

Akaike Bilgi Kriteri

Akaike bilgi kriteri (AIC) farklı modeller* arasından en uygununu seçmek amacıyla kullanılmaktadır[1]. Mevcut modeller arasında AIC=-2log(L)+2k şeklinde** hesaplanan AIC değerinin en […]

Ekim 16th, 2018

Ekonometri İle İlgili Türkçe Kitaplar

Artık dünyada bilim dili olarak kabul edildiği konusunda bir görüş birliğine varılan İngilizce’de ekonometri alanında yayınlanmış binlerce kitap olsa da, […]

Ekim 16th, 2018

Ekonomi ile İlgilenenlere Kitap Önerileri

Ekonomi bilimiyle ilgilenenlere, bu bilimi daha iyi anlayabilmek için boş vakitlerinde okuyabilecekleri şu kitapları öneriyorum, çok ağır olmayan bir dille […]

Ekim 16th, 2018

Eviews Programında Kukla Değişken Kullanımı

Kukla değişkenlerin kullanım alanları oldukça geniştir, örneğin mevsimsel etkileri sınarken veya modellerken, yapısal kırılmayı modele dahil ederken kukla değişkenlerden faydalanılabilir. […]

Ekim 16th, 2018

Belirli Bir Aralıkta Rassal Sayı Elde Etmek

Birçok istatistik ve ekonometri programında rassal sayı üretmek için hazır komutlar bulunsa da bu komutlar genelde 0 ile 1 arasında […]

Ekim 16th, 2018

Tavuk mu Yumurtadan, Yumurta mı Tavuktan Çıkar? – Bir Nedensellik Testi Örneği

Yumurta- tavuk problemi uzun zamandır zihinleri kurcalayan bir problemdir. Her ne kadar çocukları eğlendirmeyi amaçlayan bir bulmaca gibi görünse de […]