Python İle İstatistik
Merhabalar bugün sizlere Python’da hipotezler kurup bu hipotezlerin doğruluğunu, gündelik hayatta karşılaşabileceğimiz durumları basit örneklerle sizlere göstermeye çalışacağım.
Örneklem
Bazı durumlarda elimizde çok fazla veri olabilir ve yansız, örneklem gruplarla çalışmak gerekebilir. Elimizde 20 ile 100 kilo arasında 500 kişi olduğunu varsayalım ve popülasyonumuzun durumunu inceleyelim;
500 kişilik kalabalık grupla çalışmak yerine 500 kişinin içinden örneklem 100 kişi seçip onların üzerinden gözlemler yapalım;
Hep aynı 120 kişiyi seçip popülasyonumuzu 100 belirledikten sonra örneklem grubumuzun ortalamasını aldık. Görüldüğü üzere popülasyon ortalamasına oldukça yaklaşık bir örneklem grubumuz var.
Her seferinde aynı 100'lük belki yanlı sonuçlar verebilir bizlere bunun için farklı farklı örneklemler çekip bunların durumlarını inceleyelim;
Birbirinden farklı 5 tane örneklem grubunu seçip bunların ortalamalarını bulduğumuzda elde edilen ortalama ,popülasyon ortalamasına oldukça yakın olduğunu görüyoruz.
Güven Aralığı
Elimizde 5 ile 100 arasında değişen sınav sonuçları ve sınıf mevcudu 50 kişi olsun. Öncelikle bu sınıfın ortalama aldığı notu bulalım;
Sınıfımızın ortalama aldığı not aralığını da görebiliriz;
Bernoulli Dağılımı
Bernoulli dağılımı; başarılı-başarısız, olumlu-olumsuz şeklinde iki sonuçlu olaylar ile ilgilenildiğinde kullanılan kesikli olasılık dağılımıdır. Unutulmamalıdır ki her iki durumun toplamı(başaralı-başarısız) 1'e eşit olmalıdır.
Örnek olması açısından yazı gelme olasılığı 0.6 olsun ve yazı gelme durumu bizim için başarı sayılsın. Yazı gelmeme yani tura gelme olasılığını hesaplamak isteyelim;
Yazı gelmeme oranını 0.4 bulduk ve yazı gelme olasılığını da 0.6 olarak biliyorduk ve toplamları 1 olmuş oldu. Bir başka örnek yapacak olursak ; bir deste iskambil kağıdından çekilen kartın as olup olmama durumunu inceleyelim(as gelme(başarı) durumu = 1,as gelmeme(başarısızlık) durumu=0);
Binom Dağılımı
Binom dağılımı bağımsız n deneme sonucu k başarılı olma olasılığı ile ilgilenildiğinde kullanılan dağılımdır.
100 kişilik bir popülasyon ve başarı oranı 0.4 olduğunu bildiğimiz bir sınıf örneği olsun. Bu 100 kişilik sınıftan 3,20 ve 50 kişinin dersten geçme olasılığına bakalım;
Başarı oranı %40 olan bir sınıfta yalnız 3 , yalnız 20 ve yalnız 50 kişinin geçme durumlarına baktık.
Bir başka örnek yapacak olursak; bir madeni para 4 kez atılıyor. 2 kez yazı gelme olasılığı nedir? Öncelikle matematiksel olarak görelim ;
Python’da hesaplamasına bakarsak;
Poisson Dağılımı
Belirli bir zaman aralığında belirli bir alanda nadiren rastlanan olayların olasılıklarını hesaplamak için Poisson Dağılımı kullanılır.
Tanımda da değindiğimiz üzere nadir olabilecek durumlara bakalım; Örnek olması açısından elimizde 10.000 kayıt olsun ve bu kayıtların ortalama hata sayısı(λ) 0.3 olsun. Tutulan bu kayıtlarda 5,15 ve 50 hata bulma ihtimalleri nedir?
Mantığımıza uygun olarak nadir olay gerçekleşme durumu arttıkça oranı da düşecektir.
Normal Dağılım
Normal dağılımın ilk uygulamaları doğada gerçekleşen olaylara karşı başarılı olmuş bir biçimde uyum göstermiştir.
Normal dağılımın kullanımın en önemli nedenlerinden biri bazı varsayımların gerçekleşmesi halindeki kesikli ve sürekli bir çok şans değişkeninin dağılımının normal dağılıma yaklaşık göstermesidir.
Normal dağılımı kullanmak istersek ; Bir basket takımını örnek oluşturabiliriz. Basket takımımız maç başı ortalama 70 sayı attığı ve dağılımı normal olduğu bilinsin. Bu takımımızın standart sapması varsayalım ki 10 olsun. Basket takımımızın 80 sayıdan fazla atma olasılığı nedir?;
(kümülatif yoğunluk fonksiyonu)
65 sayıdan fazla atma olasılığı nedir?;
Peki 60 ile 80 arası sayı atma olasılığı nedir?;
Bir başka örneğimizde ise bir fabrikada üretilen parçanın çapı normal dağılıma sahip ve bu normal dağılımın ortalaması 18mm standart sapması ise 2mm’dir. Firma için ancak 16mm ve 19mm kabul etmektedir. O halde 1000 parçadan kaçının kabul edilmesi beklenir?
Değerli vaktiniz ayırdığınız için teşekkürler.