Python İle İstatistik-2

Taner Sayın
5 min readOct 9, 2020

--

Yazımızın devamında sizlerle artık hipotezlerle kurulan durumlarla ilgili örnekler yapmaya çalışacağım.

Oran Testi

Oransal bir ifade test edilmek istenildiğinde kullanılanır. Diyelim ki; elimizde 800 adet ürün var ve biz bunlardan 200 tanesini satmışız. Merak ettiğimiz ise elde edilen başarı oranımız acaba 0.5 mi? Önce hipotezimizi kuralım;

Daha sonrada gerekli başarı sayısını, gözlem sayısını ve merak ettiğimiz test değerini belirledikten sonra kodumuzu yazalım;

Elde ettiğimiz p-value değeri 0.05'ten küçük olduğundan dolayı H0 hipotezimiz reddedilir. Bunun anlamı merak edilen başarı oranının 0.5 olmadığıdır.

Bir diğer örneğimizde ; Seçimlere katılan bir milletvekili adayı bir bölgede en çok oyların %60'ını alacağına inanmaktadır. Bu inancı doğrulamak amacıyla bir anket düzenlediğini ve 400 kişiden 252'sinin adayı desteklediğini varsayalım. 0.05 önem seviyesinde bu sonuç adayın inancını doğrulamakta mıdır? Oran testiyle bunu görelim;

Hipotezimi belirleyip test ettikten sonra elde edilen p-value değeri 0.05'ten büyük olduğundan H0 hipotezi kabul edilir. Oyların %60'ını alacağı varsayımı doğrudur.

AB Testi

AB Testi; iki grup ortalaması arasında karşılaştırma yapılmak istenildiğinde kullanılır. AB Testinde Normallik Varsayımı ve Varyans Homojenliğini Test etmemiz gerekir.

Elimizde 10 kişinin elde ettiği vize ve final sınavları sonuçları olsun ve acaba bu grup vizelerden sonra çalışıp notlarını yükseltip yükseltmediğine bakalım. Daha önceden hazırladığım excel dosyasını okutup testimize başlayacağız;

Hipotezlerimiz oluşturalım;

Başlangıçta Normallik Varsayımını Test edelim ve bunun içinde Shapiro Wilk Testini uygulayalım her iki durum içinde;

Test sonucunda elde ettiğimiz vize ve final notlarımızın p-value değeri 0.05'ten büyük olduğundan Normallik Varsayımımız sağlanmıştır. Şimdi de Varyansların Homojenlik durumuna bakalım. Bunun içinde Levene Testi kullanılır;

Bu durumda da Varyanslar Homojendir.

Yaptığımız her iki test sonucunda ulaştık ki; hem Normallik Varsayımımız sağlanmakta hem de Varyansların Homojen olduğunu görmüş olduk. Her iki durumu test ettiğimize göre Bağımsız T Testini kullanabiliriz;

Burada vize ve final verilerini yazdıktan sonra Normallik sağlandığından dolayı equal_var = True değerini verdik.

Elde ettiğimiz sonucu yorumlarsak; p-value > 0.05 olduğundan en başta oluşturduğumuz H0 hipotezimiz kabul edilir. Yani öğrenciler vizelerden sonra daha çok çalışıp final sınavlarında notlarını yükseltmiştir. Gerçekten de her iki durumun ortalamasına bakacak olursak;

Notlarını yükselttikleri gözlemlenmektedir.

Varyans Analizi

İki yada daha fazla grup ortalaması arasında istatistiksel olarak anlamlı farklılık olup olmadığını görmek için kullanılır. Varyans Analizini kullanmak için gözlemlerin birbirinden bağımsız olması, normal dağılım ve varyans homojenliği durumlarına bakılmalıdır.

Örnek verecek olursak elimizde 3 tane futbolcunun 10 maçta aldığı süreler bulunsun;

Merak ettiğimiz gruplar arasında istatistiksel olarak anlamlı bir fark olup olmadığını gözlemlemek. Hipotezimizi oluşturarak başlayalım;

Normallik Varsayımımızı test edelim;

Varyansların Homojenliğine bakalım;

Elde ettiğimiz sonuçlar Levene Testi sonucunda Non-Parametrik Test uygulamamız gerekmektedir. Non-Parametrik Testlerden biri olan Kruskal Testi kullanacağız;

Non-Parametrik Test sonucunda elde ettiğimiz değer bizlere H0 hipotezinin reddedilmesi gerektiğini ve H1 hipotezinin doğru olduğunu söylemektedir. Grup ortalamaları arasında farklılık vardır.

Kolerasyon Analizi

Değişkenler arasındaki ilişki, bu ilişkinin yönü ve şiddeti ile ilgili bilgiler sağlayan istatistiksel yöntemdir. Kolerasyon analizinde öncelikle Normallik Varsayımına bakıldıktan sonra eğer varsayım sağlanıyorsa Pearson Kolerasyon Katsayısı kullanılırken eğer varsayım sağlanmıyorsa da Spearman Kolerasyon Katsayısı kullanılır.

Elimizde kan şekerleri ve vücut ağırlıkları yazan bireylerin verileri bulunsun. Merak ettiğimiz nokta kan şekeri ile vücut ağırlığı arasında bir ilişki var mı? Acaba kan şekeri vücut ağırlığını doğrudan etkiliyor mu? Gibi soruların cevaplarına bakalım. Tablomuzu oluşturalım;

Hipotezimizi oluşturalım;

Değişkenler arasında(kan şekeri ve vücut ağırlığı) arasındaki Normallik Varsayımına bakalım;

p-value >0.05'ten büyük o halde Normallik Varsayımı sağlanmaktadır. Varsayım sağlandığından Pearson Methodunu kullanacağız;

Pearson methodu sonucu elde ettiğimiz sayısal sonuç bizlere; değişkenler arasında çok güçlü anlamda pozitif yönde ilişki(kolerasyon) olduğunu göstermektedir. Kolerasyon katsayısını hesapladıktan sonra bir de Belirlilik katsayısını hesaplayıp yorumlayalım;

Elde ettiğimiz belirlilik katsayısı bizlere demek istediği ; Vücut ağırlığını kan şekeri açıklama oranı %97.Yani bireylerin kan şekeri seviyesinde bir değişim varsa (artış ya da azalış) bu değişim %97 vücut ağırlığı ile açıklanıyor.

Pearson Testini uygulayıp sonuca ulaşmak istersek;

Buradan elde edilen sonuçla H0 hipotezi reddedilir. Değişkenler arasında kolerasyon vardır ve bu kolerasyon çok güçlü, pozitif yönde bir ilişkidir.

Elimizdeki verilerden görseller yardımıyla yorumlar yapabiliriz;

Vaktinizi ayırdığınız için teşekkür ederim.

--

--

No responses yet