List

-Korelasyon neden-sonuç
ilişkisini göstermez!

Yalanı, Seagre ve Mann şu şekilde tanımlamışlardır[1]:

Başarılı olsun veya
olmasın, söyleyenin aslında doğru olmadığını bildiği ve söylenen kişiye gerçek
olmadığının bildirilmediği bir inanç yaratmak için sarfedilen kasti bir çaba

Yalanın tanımıyla başladığım bu yazının başlığı, herhangi bir istatistik eğitimi almamış olan Darrell Huff tarafından yazılmasına rağmen dünya çapında 1,5 milyondan fazla[2] satarak en fazla satış yapan istatistik kitabı unvanını elinde bulunduran “İstatistik ile nasıl yalan söylenir[3]” isimli kitabın ilk sayfasında[4] yer almaktadır.

İstatistik aslında “kötü ellerde tehlikeli olabilecek” şeylerden biridir. Görüşleri yanlış olsa da karşı tarafa empoze etmek isteyen insanlar istatistiği kendi emelleri doğrultusunda kullanarak yalan söyleyebilmektedirler. Gelin Homer Simpson’ın şu sözüne kulak verelim:

İstediğin herhangi bir şeyi kanıtlamak için istatistikten
faydalanabilirsin, Kent. İnsanların
%40’ı bunu bilir[5].

Homer’ın bu cümlesinden de anlayacağınız gibi yalanların daha inandırıcı olması için istatistikten destek alınabilir. NRA[6] isimli ABD’li kuruluşun “Guns don’t kill people, people do” (Silahlar insan öldürmez, insanlar öldürür) şeklindeki sloganı aslında istatistiğe de uyarlanabilir: “İstatistik yalan söylemez, insanlar söyler”.  Dolayısıyla istatistiği neden kullandığınız kadar nasıl kullandığınız da önemlidir.

Şu anda okuduğunuz bu yazının konusu, sıklıkla
bilerek veya bilmeyerek düşülen bir hata üzerine:

“Korelasyon, sebep- sonuç ilişkisini göstermez.”

Korelasyon
katsayısı iki değişken arasındaki doğrusal ilişkinin yönünü ve gücünü gösterir[7].  İki değişken arasındaki anlamlı bulunan
pozitif korelasyon katsayısı iki değişkenin aynı yönlü değiştiğini, anlamlı
negatif korelasyon katsayısı ise iki değişkenin ters yönlü değiştiğini
gösterir. Örneğin; hava sıcaklığı ile dondurma satışları arasındaki korelasyon
katsayısının pozitif olduğunu ifade etmek mümkün. Bu iki değişken arasında aynı
zamanda sebep sonuç ilişkisi olduğunu söylemek de mümkün. Dondurma
satışlarındaki artışın sebebi hava sıcaklığıdır. Fakat iki değişken arasındaki
anlamlı korelasyon ilişkisi, bu örnekte olduğu gibi her zaman değişkenlerden
birinin diğerini değiştirdiğini; diğerinin sebebi olduğunu göstermez.

Latince’de
post hoc ergo propter hoc  şeklinde geçen,
eğer B olayı A olayından sonra gerçekleşiyorsa, B olayının gerçekleşme sebebi
A’dır şeklinde özetlenebilecek yanılsamaya özellikle aralarında korelasyon
ilişkisi olan değişkenlerde sıklıkla düşeriz.

İki
değişken arasındaki yüksek korelasyonun nedeni üçüncü bir değişken olabilir.
Yani üçüncü bir değişken, dikkate alınan iki değişkeni de aynı yönde veya
farklı yönde değiştirebilir. Örneğin; evsiz insan sayısı ile suç oranı arasında
yüksek korelasyon olabilir. Bu korelasyon, evsiz insanların suça yöneldiğini
gösterse de gerçek her zaman bu kadar göz önünde durmayabilir. Hemen mantığa
uygun bu sebep-sonuç ilişkisinin kabul edilmesi yanıltıcı olabilir.  İncelenen bölgede her iki değer de yüksek veya
düşük seviyede gerçekleşmiş olabilir. Evsiz kişi sayısı ile suç oranı arasında
bir ilişki vardır demek ile suç oranı ile evsiz kişi sayısı ilişkilidir demek
arasında bir fark bulunmamaktadır. Öte yandan, suç sokakta yaşamaya neden olur
ya da sokakta yaşayanlar suç işler demek farklı ifadelerdir. Bunun temelinde
yatan sebep işsizlik gibi üçüncü bir değişken olabilir[8].

Değişkenler arasındaki korelasyon tamamen tesadüfi olarak da gerçekleşmiş olabilir. 1883-2008 arasında Galler rugby takımının başarılı sezon geçirmesiyle, Papa ölümleri arasında[9] güçlü korelasyon[10] bulunmaktadır (Papa’nın yerinde olsam şimdiden kendimi garantiye alır, takımı aforoz ederdim).

One must always be wary when drawing conclusions from data! Randall MunroeCC BY-NC

Dolayısıyla, korelasyon katsayısını kullanırken oldukça dikkatli olmak gerekmektedir. Özellikle korelasyonun olayların akışından etkilenip etkilenmediğini[11], bu ilişkiyi etkileyebilecek farklı faktörler olup olmadığını da incelemek gerekir.

Aşağıda Meksika’dan ABD’ye ihraç edilen limon miktarı ile ABD karayollarındaki kaza oranı görülmektedir[12]. İki değişken arasında negatif bir korelasyon olduğu, yani ihraç edilen limon sayısı arttıkça kaza oranında azalma yaşandığını görülmektedir. Dolayısıyla bu korelasyona bakıp da ABD Ulaşım bakanlığının tutup da Meksika’dan tonlarca limon ürettiğini düşünmüyorum.

Aşağıda
Messerli (2012)’nin[13] çalışmasından alınan bir
grafik görülmektedir:

Çikolata tüketimi Nobel ödülü arasındaki korelasyon 0.791 bulunmuş. O halde ülkemizdeki Nobel alan kişi sayısını arttırmak için daha çok çikolata yiyelim?

Aşağıda
ise Internet Explorer’ın Pazar payı ile ABD’de işlenen cinayet oranı
görülmektedir[14].

Bu grafiği dikkate alırsak, Internet Explorer kullanan arkadaşlarımıza muhtemel katil adayı gözüyle bakmamız gerek  (Valla, ben bakıyorum).

Artık
bir efsane halini alan bir örneğe bakalım. Arsenal’in Galli futbolcusu Aaron
Ramsey’in attığı gol ile ünlü bir insanın ölmesi arasında yüksek korelasyon
bulunmaktadır. Ramsey 1 Mayıs 2011 tarihinde Manchester United maçında 1 gol
atmış, maçtan 4 saat sonra ABD tarafından Usame Bin Laden’in öldürüldüğü
duyurusu yapılmıştır. 2 Ekim 2011 tarihinde Tottenham maçında da Ramsey gol
atmış, 3 gün sonra Steve Jobs ölmüştür. 19 Ekim 2011 tarihinde Marsilya maçında
gol attıktan 12 saat sonra Muammer Kaddafi öldürülmüş, 11 Şubat 2012 tarihinde
Sunderland maçında gol attıktan sonra aynı akşam Whitney Houston otel odasında
ölü bulunmuştur. Ne yapalım? Ünlülerin ölmesini engellemek için Ramsey jübile
mi yapsın?

Sözün özü ve kısası; korelasyon neden-sonuç ilişkisi hakkında bilgi vermez.

Farklı örnekler için http://www.tylervigen.com/spurious-correlations  ve http://www.google.com/trends/correlate/ sitelerini ziyaret edebilirsiniz.


[1] Paul
Seager ve Sandi Mann, 2010, Yalan, Sel Yayıncılık.

[2] J.
Michael Steele, 2005, Darrell Huff and Fifty Years of How to Lie with
Statistics, Statistical Science, 20 (3), 205-209.

[3] https://archive.org/details/HowToLieWithStatistics

[4] Bu sözün
ilk kez kim tarafından söylendiği muammadır. Mark Twain tarafından Benjamin
Disraeli’e atfetilse de Prof. Peter M Lee’nın araştırmaları bu sözün Sir
Charles Dilke’a ait olma ihtimalinin yüksek olduğunu göstermektedir. http://www.york.ac.uk/depts/maths/histstat/lies.htm

[5] Simpsons
dizisinin 5. Sezonunun 11. Bölümü:  http://www.imdb.com/title/tt0701117/quotes

[6] National
Rifle Association: Ulusal Ateşli Silahlar Birliği

[7]
Korelasyon katsayısı ile ayrıntılı bilgiyi yazının sonunda bulabilirsiniz.

[8] http://stats.stackexchange.com/questions/36/examples-for-teaching-correlation-does-not-mean-causation/618#618,
E. Tarihi: 07.10.2013

[9] 1978
yılı hariç; o yıl Galler gerçekten çok iyi performans göstermişti ve iki Papa
ölmüştü

[10] Gareth
C. Payne, Rebecca E Payne ve Daniel M Farewell, 2008, Rugby (the religion of
Wales) and its influence on the Catholic church: should Pope Benedict XVI be
worried?, BMJ, 337, http://dx.doi.org/10.1136/bmj.a2768, s.1-2.

[11] Huff,
s.94

[12] Stephen R. Johnson, 2008, The Trouble with QSAR (or How I
Learned To Stop Worrying and Embrace Fallacy), Journal of Chemical Information
and Modeling,,- 48 (1), ss.25-26.

[13]
Franz H. Messerli, 2012, Chocolate
Consumption, Cognitive Function, and Nobel Laureates, New England Journal of
Medicine, 367, 1562-1564.

[14]  http://gizmodo.com/5977989/internet-explorer-vs-murder-rate-will-be-your-favorite-chart-today,

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

  Posts

1 2
Eylül 11th, 2019

İzledim: Bharat (9 Eylül 2019)

Salman Khan ile Katrina Kaif’in başrollerini paylaştığı Bharat filmini 9 Eylül 2019 tarihinde Cinemaximum Serdivan’da izledim. Filmi izlerken birçok sahne tanıdık […]

Şubat 27th, 2019

İşsizlik Oranı Tahminim ve Öneriler

Kasım 2018’de 12.3 olarak gerçekleşen işsizlik oranı (15 yaş ve üzeri), 2017 yılının aynı ayına göre 2 puanlık bir artış […]

Ekim 23rd, 2018

Bootstrap Nedensellik Testi Kodu

Bu yazı vasıtasıyla paylaşacağım kod aslında Hatemi-J’nin yazmış olduğu kodun basitçe tarafımdan düzenlenmesinden ibarettir. Hacker ve Hatemi-J (2012) nedensellik testinin […]

Ekim 21st, 2018

Beklenen Değer ve Eviews Programında Bir Örnek Uygulaması

Bir rassal değişkenin çok sayıda denemede alacağı değerlerin uzun dönem ortalaması beklenen değer olarak tanımlanmaktadır. Diğer bir ifadeyle beklenen değer, rassal değişkenin […]

Ekim 17th, 2018

Üç çeşit yalan vardır: Yalan, kuyruklu yalan ve istatistik

-Korelasyon neden-sonuç ilişkisini göstermez! Yalanı, Seagre ve Mann şu şekilde tanımlamışlardır[1]: “Başarılı olsun veya olmasın, söyleyenin aslında doğru olmadığını bildiği […]

Ekim 16th, 2018

Aykırı Değer Tespiti

Verisetinde yer alan aykırı gözlemleri tespit edebilmek amacıyla bir çok yöntem kullanılmaktadır. Aşağıda formülünü verdiğim değişitirilmiş-Z skorları ise Iglewicz ve […]

Ekim 16th, 2018

Aritmetik Ortalama

Hassas ortalamalardan birisi olan aritmetik ortalama seride yer alan uç değerlerden oldukça etkilenir ve seriyi tanımlama özelliğini kaybeder. Bu özellikle […]

Ekim 16th, 2018

Birinci Tip ve İkinci Tip Hata

Temel ve alternatif hipotez hakkında bir karara varırken, doğru kararı verip vermediğimize %100 emin olamayız. Bir karara varırken iki farklı […]

Ekim 16th, 2018

Akaike Bilgi Kriteri

Akaike bilgi kriteri (AIC) farklı modeller* arasından en uygununu seçmek amacıyla kullanılmaktadır[1]. Mevcut modeller arasında AIC=-2log(L)+2k şeklinde** hesaplanan AIC değerinin en […]

Ekim 16th, 2018

Ekonometri İle İlgili Türkçe Kitaplar

Artık dünyada bilim dili olarak kabul edildiği konusunda bir görüş birliğine varılan İngilizce’de ekonometri alanında yayınlanmış binlerce kitap olsa da, […]