"Enter"a basıp içeriğe geçin

Python’da Histogramlardaki Verileri Analiz Etme – Linux Önerileri

Veri görselleştirmede, verileri temsil etmek için grafikler ve çizelgeler kullanırız. Verilerin görsel görünümü, veri bilimcilerin ve diğer herkesin verileri analiz etmesini ve sonuçlar çıkarmasını kolaylaştırır.

Grafik, sürekli veya ayrı ayrı dağıtılmış verileri temsil etmenin zarif bir yoludur. Ve bu Python eğitiminde, Python’da bir histogram kullanarak verileri nasıl analiz edebileceğimizi göreceğiz.

Öyleyse başlayalım!

histogram nedir?

Bu makalenin ana bölümüne geçmeden ve verileri Python kullanarak grafikler üzerinde temsil etmeden ve histogram ile veriler arasındaki ilişkiyi göstermeden önce, histograma kısa bir genel bakış sunalım.

Histogram, genellikle x ekseni üzerindeki aralıkları ve y ekseni üzerindeki sayısal verilerin sıklığını temsil ettiğimiz, dağıtılmış sayısal verilerin grafiksel bir temsilidir. Bir histogramın grafik gösterimi bir çubuk grafiğe benzer. Bununla birlikte, histogramlarda aralıklarla ilgileniriz ve buradaki asıl amaç, frekansları bir dizi aralık veya kutuya bölerek ana hatları bulmaktır.

Çubuk grafik ve histogram arasındaki fark

Benzer gösterim nedeniyle, öğrenciler genellikle çubuk grafiği çubuk grafikle karıştırırlar. Histogram ve çubuk grafik arasındaki temel fark, histogramın aralıklardaki verileri temsil etmesi, çubuğun ise iki veya daha fazla kategoriyi karşılaştırmak için kullanılmasıdır.

Histogramlar, çoğu frekans kombinasyonunu kontrol etmek istediğimizde ve bu bölgenin grafiğini istediğimizde kullanılır. Öte yandan, çubuk grafikler yalnızca kategorilerdeki farkı göstermek için kullanılır.

Python’da bir grafik çizin

Birçok Python veri görselleştirme kitaplığı, sayısal verilere veya dizilere dayalı grafikler çizebilir. Tüm veri görselleştirme kitaplıkları arasında matplotlib en popüler olanıdır ve diğer birçok kitaplık onu veri görselleştirme için kullanır.

Şimdi Python’da rastgele frekanslar ve histogramlar oluşturmak için Python numpy kitaplığını ve matplotlib’i kullanalım.

Öncelikle 1000 elemanlı rastgele bir dizi oluşturarak histogram çizeceğiz ve dizi kullanarak nasıl histogram çizeceğimizi göreceğiz.

ithalat bir dizi yan np #pip kurulumu numpy
ithalat matplotlib.çizim planıyan PLT #pip matplotlib’i yüzyıl
# 1000 elemandan oluşan rastgele bir sayı dizisi oluştur
veri = np.rastgele.Randevu(1000)
#verileri grafik olarak çiz
PLT.geçmiş(veriVekenar rengi=“siyah”Ve kutular =10)
# Şema başlığı
PLT.Başlık(1000 öğelik histogram)
#histogram x ekseni etiketi
PLT.x etiketleri(“Değerler”)
#histogram y ekseni etiketi
PLT.ylabel(frekanslar)
# Histogramı görüntüle
PLT.Sunmak()

üretim |

Yukarıdaki çıktı 1000 rasgele elemandan çoğunluk elemanlarının değerinin -1 ile 1 arasında olduğunu göstermektedir. Grafiğin asıl amacı budur; Verilerin çoğunluk ve azınlık dağılımını gösterir. Histogram bölümleri -1 ile 1 arasındaki değerler arasında kümelendiğinden, bu iki aralık değeri arasında daha fazla öğe vardır.

hayır: hem numpy hem de matplotlib, Python’un üçüncü taraf paketleridir; Python pip install komutu kullanılarak kurulabilirler.

Python histogramı kullanan gerçek dünya örneği

Şimdi histogramı daha gerçekçi bir veri seti ile modelleyip analiz edelim.

grafiğini kullanarak çizeceğiz. titanic.csv Buradan indirebileceğiniz dosya Bağ.

titanic.csv dosyası, titanic gezginleri için bir veri kümesi içerir. Tatanic.csv dosyasını Python panda kütüphanesi ile değiştireceğiz ve farklı yolcuların yaşlarını grafikleyeceğiz ve ardından grafik sonucunu analiz edeceğiz.

ithalat bir dizi yan np #pip numpyimport pandaları pd olarak kurun #pip pandaları kurun
ithalat matplotlib.çizim planıyan PLT
# csv dosyasını oku
top = pd.okuma_csv(“titanik.csv”)

#sayıyı değil yaş değerlerini kaldır
top=top.Damla(alt grup=[‘Yaş’])

# Tüm yolcular için yaş verilerini alın
yaşlar = top[‘Yaş’]

PLT.geçmiş(yaşlarVekenar rengi=“siyah”Ve kutular =20)

# Şema başlığı
PLT.Başlık(“Titanik Yumurta Grubu”)

#histogram x ekseni etiketi
PLT.x etiketleri(“yaşlar”)

#histogram y ekseni etiketi
PLT.ylabel(frekanslar)

# Histogramı görüntüle
PLT.Sunmak()

üretim |

Grafik analizi

Yukarıdaki Python kodunda, tüm dev yolcuların yaş aralığını bir histogram kullanarak gösteriyoruz. Grafiğe baktığımızda 891 yolcunun çoğunun 20 ile 30 yaşları arasında olduğunu rahatlıkla söyleyebiliriz. Bu da demek oluyor ki dev gemide çok sayıda genç var.

çözüm

Dağıtılmış veri kümelerini analiz etmek istediğimizde histogram en iyi grafiksel gösterimlerden biridir. Bant ve frekanslar, verilerin çoğunluk ve azınlık dağılımını tanımlamak için kullanılır. İstatistikçiler ve veri bilimcileri, değerlerin dağılımını analiz etmek için genellikle grafikleri kullanır.

Diğer gönderilerimize göz at

[wpcin-random-posts]

İlk Yorumu Siz Yapın

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir