List

-Korelasyon neden-sonuç ilişkisini göstermez!

Yalanı, Seagre ve Mann şu şekilde tanımlamışlardır[1]:

Başarılı olsun veya olmasın, söyleyenin aslında doğru olmadığını bildiği ve söylenen kişiye gerçek olmadığının bildirilmediği bir inanç yaratmak için sarfedilen kasti bir çaba

Yalanın tanımıyla başladığım bu yazının başlığı, herhangi bir istatistik eğitimi almamış olan Darrell Huff tarafından yazılmasına rağmen dünya çapında 1,5 milyondan fazla[2] satarak en fazla satış yapan istatistik kitabı unvanını elinde bulunduran “İstatistik ile nasıl yalan söylenir[3]” isimli kitabın ilk sayfasında[4] yer almaktadır.

İstatistik aslında “kötü ellerde tehlikeli olabilecek” şeylerden biridir. Görüşleri yanlış olsa da karşı tarafa empoze etmek isteyen insanlar istatistiği kendi emelleri doğrultusunda kullanarak yalan söyleyebilmektedirler. Gelin Homer Simpson’ın şu sözüne kulak verelim:

İstediğin herhangi bir şeyi kanıtlamak için istatistikten faydalanabilirsin, Kent. İnsanların %40’ı bunu bilir[5].

Homer’ın bu cümlesinden de anlayacağınız gibi yalanların daha inandırıcı olması için istatistikten destek alınabilir. NRA[6] isimli ABD’li kuruluşun “Guns don’t kill people, people do” (Silahlar insan öldürmez, insanlar öldürür) şeklindeki sloganı aslında istatistiğe de uyarlanabilir: “İstatistik yalan söylemez, insanlar söyler”.  Dolayısıyla istatistiği neden kullandığınız kadar nasıl kullandığınız da önemlidir.

Şu anda okuduğunuz bu yazının konusu, sıklıkla bilerek veya bilmeyerek düşülen bir hata üzerine:

“Korelasyon, sebep- sonuç ilişkisini göstermez.”

Korelasyon katsayısı iki değişken arasındaki doğrusal ilişkinin yönünü ve gücünü gösterir[7].  İki değişken arasındaki anlamlı bulunan pozitif korelasyon katsayısı iki değişkenin aynı yönlü değiştiğini, anlamlı negatif korelasyon katsayısı ise iki değişkenin ters yönlü değiştiğini gösterir. Örneğin; hava sıcaklığı ile dondurma satışları arasındaki korelasyon katsayısının pozitif olduğunu ifade etmek mümkün. Bu iki değişken arasında aynı zamanda sebep sonuç ilişkisi olduğunu söylemek de mümkün. Dondurma satışlarındaki artışın sebebi hava sıcaklığıdır. Fakat iki değişken arasındaki anlamlı korelasyon ilişkisi, bu örnekte olduğu gibi her zaman değişkenlerden birinin diğerini değiştirdiğini; diğerinin sebebi olduğunu göstermez.

Latince’de post hoc ergo propter hoc  şeklinde geçen, eğer B olayı A olayından sonra gerçekleşiyorsa, B olayının gerçekleşme sebebi A’dır şeklinde özetlenebilecek yanılsamaya özellikle aralarında korelasyon ilişkisi olan değişkenlerde sıklıkla düşeriz.

İki değişken arasındaki yüksek korelasyonun nedeni üçüncü bir değişken olabilir. Yani üçüncü bir değişken, dikkate alınan iki değişkeni de aynı yönde veya farklı yönde değiştirebilir. Örneğin; evsiz insan sayısı ile suç oranı arasında yüksek korelasyon olabilir. Bu korelasyon, evsiz insanların suça yöneldiğini gösterse de gerçek her zaman bu kadar göz önünde durmayabilir. Hemen mantığa uygun bu sebep-sonuç ilişkisinin kabul edilmesi yanıltıcı olabilir.  İncelenen bölgede her iki değer de yüksek veya düşük seviyede gerçekleşmiş olabilir. Evsiz kişi sayısı ile suç oranı arasında bir ilişki vardır demek ile suç oranı ile evsiz kişi sayısı ilişkilidir demek arasında bir fark bulunmamaktadır. Öte yandan, suç sokakta yaşamaya neden olur ya da sokakta yaşayanlar suç işler demek farklı ifadelerdir. Bunun temelinde yatan sebep işsizlik gibi üçüncü bir değişken olabilir[8].

Değişkenler arasındaki korelasyon tamamen tesadüfi olarak da gerçekleşmiş olabilir. 1883-2008 arasında Galler rugby takımının başarılı sezon geçirmesiyle, Papa ölümleri arasında[9] güçlü korelasyon[10] bulunmaktadır (Papa’nın yerinde olsam şimdiden kendimi garantiye alır, takımı aforoz ederdim).

One must always be wary when drawing conclusions from data! Randall MunroeCC BY-NC

Dolayısıyla, korelasyon katsayısını kullanırken oldukça dikkatli olmak gerekmektedir. Özellikle korelasyonun olayların akışından etkilenip etkilenmediğini[11], bu ilişkiyi etkileyebilecek farklı faktörler olup olmadığını da incelemek gerekir.

Aşağıda Meksika’dan ABD’ye ihraç edilen limon miktarı ile ABD karayollarındaki kaza oranı görülmektedir[12]. İki değişken arasında negatif bir korelasyon olduğu, yani ihraç edilen limon sayısı arttıkça kaza oranında azalma yaşandığını görülmektedir. Dolayısıyla bu korelasyona bakıp da ABD Ulaşım bakanlığının tutup da Meksika’dan tonlarca limon ürettiğini düşünmüyorum.

Aşağıda Messerli (2012)’nin[13] çalışmasından alınan bir grafik görülmektedir:

Çikolata tüketimi Nobel ödülü arasındaki korelasyon 0.791 bulunmuş. O halde ülkemizdeki Nobel alan kişi sayısını arttırmak için daha çok çikolata yiyelim?

Aşağıda ise Internet Explorer’ın Pazar payı ile ABD’de işlenen cinayet oranı görülmektedir[14].

Bu grafiği dikkate alırsak, Internet Explorer kullanan arkadaşlarımıza muhtemel katil adayı gözüyle bakmamız gerek  (Valla, ben bakıyorum).

Artık bir efsane halini alan bir örneğe bakalım. Arsenal’in Galli futbolcusu Aaron Ramsey’in attığı gol ile ünlü bir insanın ölmesi arasında yüksek korelasyon bulunmaktadır. Ramsey 1 Mayıs 2011 tarihinde Manchester United maçında 1 gol atmış, maçtan 4 saat sonra ABD tarafından Usame Bin Laden’in öldürüldüğü duyurusu yapılmıştır. 2 Ekim 2011 tarihinde Tottenham maçında da Ramsey gol atmış, 3 gün sonra Steve Jobs ölmüştür. 19 Ekim 2011 tarihinde Marsilya maçında gol attıktan 12 saat sonra Muammer Kaddafi öldürülmüş, 11 Şubat 2012 tarihinde Sunderland maçında gol attıktan sonra aynı akşam Whitney Houston otel odasında ölü bulunmuştur. Ne yapalım? Ünlülerin ölmesini engellemek için Ramsey jübile mi yapsın?

Sözün özü ve kısası; korelasyon neden-sonuç ilişkisi hakkında bilgi vermez.

Farklı örnekler için http://www.tylervigen.com/spurious-correlations  ve http://www.google.com/trends/correlate/ sitelerini ziyaret edebilirsiniz.


[1] Paul Seager ve Sandi Mann, 2010, Yalan, Sel Yayıncılık.

[2] J. Michael Steele, 2005, Darrell Huff and Fifty Years of How to Lie with Statistics, Statistical Science, 20 (3), 205-209.

[3] https://archive.org/details/HowToLieWithStatistics

[4] Bu sözün ilk kez kim tarafından söylendiği muammadır. Mark Twain tarafından Benjamin Disraeli’e atfetilse de Prof. Peter M Lee’nın araştırmaları bu sözün Sir Charles Dilke’a ait olma ihtimalinin yüksek olduğunu göstermektedir. http://www.york.ac.uk/depts/maths/histstat/lies.htm

[5] Simpsons dizisinin 5. Sezonunun 11. Bölümü:  http://www.imdb.com/title/tt0701117/quotes

[6] National Rifle Association: Ulusal Ateşli Silahlar Birliği

[7] Korelasyon katsayısı ile ayrıntılı bilgiyi yazının sonunda bulabilirsiniz.

[8] http://stats.stackexchange.com/questions/36/examples-for-teaching-correlation-does-not-mean-causation/618#618, E. Tarihi: 07.10.2013

[9] 1978 yılı hariç; o yıl Galler gerçekten çok iyi performans göstermişti ve iki Papa ölmüştü

[10] Gareth C. Payne, Rebecca E Payne ve Daniel M Farewell, 2008, Rugby (the religion of Wales) and its influence on the Catholic church: should Pope Benedict XVI be worried?, BMJ, 337, http://dx.doi.org/10.1136/bmj.a2768, s.1-2.

[11] Huff, s.94

[12] Stephen R. Johnson, 2008, The Trouble with QSAR (or How I Learned To Stop Worrying and Embrace Fallacy), Journal of Chemical Information and Modeling,,- 48 (1), ss.25-26.

[13] Franz H. Messerli, 2012, Chocolate Consumption, Cognitive Function, and Nobel Laureates, New England Journal of Medicine, 367, 1562-1564.

[14]  http://gizmodo.com/5977989/internet-explorer-vs-murder-rate-will-be-your-favorite-chart-today,

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

  Kategori: Blog

9 posts
Ekim 17th, 2018

Üç çeşit yalan vardır: Yalan, kuyruklu yalan ve istatistik

-Korelasyon neden-sonuç ilişkisini göstermez! Yalanı, Seagre ve Mann şu şekilde tanımlamışlardır[1]: “Başarılı olsun veya olmasın, söyleyenin aslında doğru olmadığını bildiği […]

Ekim 16th, 2018

Aritmetik Ortalama

Hassas ortalamalardan birisi olan aritmetik ortalama seride yer alan uç değerlerden oldukça etkilenir ve seriyi tanımlama özelliğini kaybeder. Bu özellikle […]

Ekim 16th, 2018

Birinci Tip ve İkinci Tip Hata

Temel ve alternatif hipotez hakkında bir karara varırken, doğru kararı verip vermediğimize %100 emin olamayız. Bir karara varırken iki farklı […]

Ekim 16th, 2018

Akaike Bilgi Kriteri

Akaike bilgi kriteri (AIC) farklı modeller* arasından en uygununu seçmek amacıyla kullanılmaktadır[1]. Mevcut modeller arasında AIC=-2log(L)+2k şeklinde** hesaplanan AIC değerinin en […]

Ekim 16th, 2018

Ekonometri İle İlgili Türkçe Kitaplar

Artık dünyada bilim dili olarak kabul edildiği konusunda bir görüş birliğine varılan İngilizce’de ekonometri alanında yayınlanmış binlerce kitap olsa da, […]

Ekim 16th, 2018

Ekonomi ile İlgilenenlere Kitap Önerileri

Ekonomi bilimiyle ilgilenenlere, bu bilimi daha iyi anlayabilmek için boş vakitlerinde okuyabilecekleri şu kitapları öneriyorum, çok ağır olmayan bir dille […]

Ekim 16th, 2018

Eviews Programında Kukla Değişken Kullanımı

Kukla değişkenlerin kullanım alanları oldukça geniştir, örneğin mevsimsel etkileri sınarken veya modellerken, yapısal kırılmayı modele dahil ederken kukla değişkenlerden faydalanılabilir. […]

Ekim 16th, 2018

Belirli Bir Aralıkta Rassal Sayı Elde Etmek

Birçok istatistik ve ekonometri programında rassal sayı üretmek için hazır komutlar bulunsa da bu komutlar genelde 0 ile 1 arasında […]

Ekim 16th, 2018

Tavuk mu Yumurtadan, Yumurta mı Tavuktan Çıkar? – Bir Nedensellik Testi Örneği

Yumurta- tavuk problemi uzun zamandır zihinleri kurcalayan bir problemdir. Her ne kadar çocukları eğlendirmeyi amaçlayan bir bulmaca gibi görünse de […]