Proje 3.)Toy Dataset2
Bu yazımda sizlere seaborn kütüphanesinde hazır veri setlerinden biri olan “tips” verileriyle örnekler yapacağım.
Kullanacaklarımızı dahil etmeyle başlayalım;
Hazır veri setimizi yükleyerek pandas dataframe haline getirelim;
df değişkeni ile dataframe biçimine gelen tablomuzu bulundurmaktayız.Veri setini inceleyecek olursak içinde bir restoranda müşterilerin ödediği ücretler,bahşişleri,cinsiyetleri,günler,gün içerisindeki vakitler ve kişilerin gruplar halindeki sayıları bulunmakta.Tablomuzun başlıklarını kendimizce ayarlamak istersek;
Elimizdeki veriler içindeki değişkenlerin tiplerini yazdıralım;
Verilerimizin kendi aralarındaki sayılarına ve hatta eksik veri olup olmadığına bakalım;
Eksik veri bulundurmayan tablomuzda çeyrekler açıklıklarını inceleyelim.Çeyrekler açıklığı; sıralanmış bir veri dizisinin orta yarısını kapsayan ve üçüncü dörtte birlik ve birinci dörtte birlik aralığını (yani Q3-Q1) gösteren bir istatistiksel yayılma ölçüsüdür.Tablomuzda bulunan sayısal değişkenlerden birisi fatura değişkenini örnek alarak gösterelim.
Boxplot eşliğinde bunu gösterecek olursak;
Yeşil ile çizdiğimiz yerler az önce elde ettiğimiz %25 ve % 75 değerlerini karşılıklarıdır.Bunu şu şekilde de görebiliriz;
Fatura değişkeninin %25 ve %75 kısmı tablomuzda bulunmaktadır.Veri setimizde ki aykırı değerleri (Veride genel eğilimin oldukça dışına çıkan ya da diğer gözlemlerden oldukça farklı olan gözlemler) hesaplamak için;
Formülü ile alt sınır (en aşağı çeken aykırı değer) ve üst sınır (en yukarı çeken aykırı değer) hesapladık.Hesapladığımız değerleri veri setimizde ki fatura değişkenine uyarlayalım;
Fatura(ödenen hesap) alt sınırın altında veya üst sınırın üzerinde olanları yani kısaca aykırı olan değerleri tablomuzda almış olduk.Aykırı değerlerin tespiti bazı zamanlarda çok önemli olabiliyor.
Bir kaç gruplama işlemi yapmadan önce pandas ile local olarak gerçekleştirmek istediğimiz durumlar olabiliyor bunun içinde 2 tane kullanım örneği vermek istiyorum;
Ortalama ödenen ücret ve ortalama bırakılan bahşişi dataframe haline getirdik.
Burada ise cinsiyet değişkenini başlangıç indeksi olarak ayarladık.
Şimdi bir kaç groupby işlemleri ile değişkenlerin birbirleri arasındaki ilişkilere bakmaya çalışalım;
Yaptığımız groupby işlemleri ile; en çok ödeme yapılan ve en çok bahşiş verilen günün Cumartesi olduğunu,en çok ödeme yapan ve en çok bahşiş verenlerin erkekler olduğu,sigara içmeyen kişilerin daha çok ödeme yaptığı ve daha çok bahşiş verdiğini,akşam yemeğinde daha fazla ücret ödendiği ve daha fazla bahşiş verildiği ve grup halinde gelenlerin kişi sayısı arttıkça daha fazla ücret ve bahşiş alındığı gibi işletmeci için altın değerinde olan verileri görebiliriz.
Kendimizce veri setinde işlemler yapmak istersek ise de;
Bu uzun sorgumuzda;ortalama ödenen miktarın üzerinde olan,ortalama bahşişten fazla veren,cinsiyeti erkek olan, sigara kullanmayan,pazar günü,akşam yemeğinde 4 kişi ve üzerinde grup olarak gelen kişileri tablo isimli değişkene aktardık.
Tablo değişkeninde ki bu verilerin yerlerini görmek isteyeceğimiz durumlar olabilir bunun için ;
ile tabloda bulundukları konumları bulabiliriz.
Görselleştirme
Gibi daha önce de vardığımız sonuçları grafiklerle desteklemiş olduk.
Bazı durumlarda sayısal olmayan verileri sayısal duruma çevirmek isteyebiliriz.
Yaptığımız dönüşüm ile artık female(kadın) 0 ile ifade ediliyorken male(erkek) 1 ile ifade ediliyor.
Sigara kullanımını da tabloda bu şekilde sayısal verilerle ifade edebiliriz.
Vaktinizi ayırdığınız için teşekkürler