İstatistikte yaygın olarak kullanılan bazı terimleri açıklamaya çalışacağım. İleriki zamanlarda daha ayrıntılı bir istatistik terim sözlüğü oluşturacağım.
Popülasyon/Ana kütle ( Population )
Popülasyon veya ana kütle, belirli bir araştırma veya inceleme için ilgilendiğimiz tüm bireylerin veya birimlerin tamamını ifade eder. Bu bireyler veya birimler genellikle belirli bir özelliği veya niteliği paylaşır.
Örneğin, dünya genelindeki tüm üniversite öğrencileri popülasyonu olarak düşünebiliriz. Bu durumda, tüm üniversite öğrencileri, istatistiksel bir analiz veya araştırma için ilgilendiğimiz popülasyonu temsil eder. Bu popülasyon, farklı ülkelerdeki, farklı üniversitelerdeki ve farklı disiplinlerdeki öğrencileri içerebilir.
Örneklem ( Sample )
Örneklem, popülasyonun temsil edilmesi için seçilen ve incelenen daha küçük bir alt kümedir. Örneklem, popülasyonun tamamını temsil etmek için kullanılır ve genellikle daha pratik ve maliyet etkin bir şekilde veri toplama ve analiz yapmayı mümkün kılar.
Örneğin, yukarıdaki popülasyon örneğinde, tüm dünya genelindeki üniversite öğrencilerini araştırmak yerine, örnekleme yöntemleri kullanarak bir örneklem seçebiliriz. Örneğin, rastgele seçilen belirli ülkelerdeki veya belirli üniversitelerdeki öğrencilerden oluşan bir örneklem seçebiliriz. Bu örnekleme, genel popülasyonun karakteristiklerini temsil etmeye çalışırken daha az kaynak ve çaba gerektirir.
Gözlem Birimi ( Observation Unit )
Gözlem birimi, bir araştırma veya inceleme sırasında veri topladığımız temel birimdir. Bu birimler, popülasyon veya örneklem içindeki bireyleri, nesneleri, olayları veya olayların belirli bir özelliğini temsil edebilir.
Örneğin, bir anket çalışması yaparken, her bir ankete katılan kişi bir gözlem birimidir. Her bir ankete katılan kişi, verilerin toplandığı ve analiz edildiği temel birimdir. Bu durumda, gözlem birimi bireylerdir ve her bir kişi bir gözlem birimidir.
Başka bir örnek olarak, bir üretim hattında kalite kontrolü yaparken, her bir üretim birimi (örneğin, bir otomobil veya bir elektronik cihaz) bir gözlem birimidir. Her bir üretim birimi üzerinde yapılan kalite kontrol gözlemi, ilgili verilerin toplandığı ve analiz edildiği temel birimdir.
Özetlemek gerekirse, gözlem birimi, verilerin toplandığı ve analiz edildiği temel birimdir ve bu birimler popülasyon veya örneklemdeki bireyleri, nesneleri veya olayları temsil eder.
Frekans ( Frequency )
Frekans, bir veri setindeki belirli bir değerin tekrarlanma sayısını ifade eder. Veri setindeki her bir değerin frekansı, o değerin veri setinde kaç kez tekrarlandığını gösterir.
Örneğin, aşağıdaki veri setini ele alalım:
{2, 4, 6, 2, 8, 2, 4, 4}
Bu veri setinde, 2 değeri 3 kez tekrarlanmıştır, 4 değeri 3 kez tekrarlanmıştır, 6 değeri 1 kez tekrarlanmıştır ve 8 değeri 1 kez tekrarlanmıştır.
Bu durumda, 2’nin frekansı 3, 4’ün frekansı 3, 6’nın frekansı 1 ve 8’in frekansı 1’dir.
Frekans, veri setindeki değerlerin dağılımını ve tekrarlanma sıklığını anlamamızı sağlar. Aynı zamanda istatistiksel analizlerde ve grafiksel temsillerde kullanılır.
Değişken ( Variable )
Değişken, bir araştırma veya inceleme sırasında ölçülen veya gözlemlenen farklı değerlerin alabileceği nitelik veya niceliksel özellikleri ifade eder. Bir değişken, farklı değerler arasında değişebilen bir özelliği temsil eder.
Örneğin, bir öğrenci anketi yaparken, “matematik notu” bir değişken olabilir. Bu değişken, öğrencilerin aldığı matematik notlarını temsil eder ve farklı öğrenciler arasında değişebilen bir niteliksel özelliktir. Öğrencilerin matematik notları farklı olabilir, bazıları 90 alırken, bazıları 70 veya farklı bir değer alabilir.
Başka bir örnek olarak, bir üretim sürecini inceleyen bir araştırmada, “üretim hızı” bir değişken olabilir. Bu değişken, üretim hızını temsil eder ve farklı üretim birimleri veya zaman aralıkları arasında değişebilen bir niceliksel özelliktir. Üretim hızı, belirli bir üretim biriminde saatlik veya günlük üretim miktarı olarak ifade edilebilir ve farklı üretim birimleri arasında değişiklik gösterebilir.
Değişkenler, istatistiksel analizlerde kullanılır ve verilerin toplanması, sınıflandırılması ve karşılaştırılması için önemli bir rol oynarlar.
Değişken Türleri ( Variable Types )
Değişkenler genellikle iki ana kategori altında sınıflandırılır: niteliksel (kalitatif) değişkenler ve niceliksel (kantitatif) değişkenler.
Niteliksel Değişkenler:
Niteliksel değişkenler, farklı kategorilere veya sınıflara ait olan özellikleri temsil eder. Bu değişkenler nominal veya ordinal ölçek türünde olabilir. Nominal değişkenler, kategoriler arasında sadece sınıflandırma yapmayı sağlarken, ordinal değişkenler, kategorilerin bir sıralama veya derecelendirme içerdiği durumlarda kullanılır.
Örnek olarak, bir anket çalışmasında “cinsiyet” niteliksel bir değişkendir. Bu değişken, “erkek” ve “kadın” gibi iki ayrı kategoriyi temsil eder. Cinsiyet, nominal bir niteliksel değişkendir çünkü kategoriler arasında sadece sınıflandırma yapar ve bir sıralama içermez.
Sınıflandırılabilir Değişken ( Nominal Variable )
Sınıflandırılabilir değişken (nominal değişken), farklı kategorilere ait olan özellikleri temsil eden bir değişkendir. Bu kategoriler arasında sınıflandırma yapmayı sağlar, ancak kategorilerin bir sıralama veya derecelendirme içermediği durumlarda kullanılır. Sınıflandırılabilir değişkenlerin değerleri genellikle etiketler, semboller veya isimler şeklinde ifade edilir.
Örnek olarak, bir anket çalışması yaparken “favori renk” nominal bir değişkendir. Bu değişken, farklı renklerin kategorilerini temsil eder. Katılımcılara “favori renk hangisidir?” sorusu sorulduğunda, yanıtlar “kırmızı”, “mavi”, “yeşil”, “sarı” gibi farklı kategorilere ait olabilir. Bu durumda, favori renk sınıflandırılabilir bir değişkendir çünkü farklı renkler arasında sadece sınıflandırma yapılmasını sağlar, ancak bir sıralama içermez. Örneğin, “kırmızı” renk “mavi” renkten daha üstün veya daha düşük değildir, sadece farklı bir kategoriye aittir.
Sınıflandırılabilir değişkenler, genellikle demografik bilgiler, cinsiyet, etnik köken, medeni durum, eğitim seviyesi gibi özelliklerin temsil edildiği durumlarda kullanılır. Bu değişkenler, verileri sınıflandırmak, gruplar arasındaki farkları incelemek veya ilişkileri araştırmak için analiz edilebilir.
Sıralanabilir Değişken ( Ordinal Variable )
Sıralanabilir değişken (ordinal değişken), farklı kategorilere ait olan özellikleri temsil eden ve bu kategorilerin bir sıralama veya derecelendirme içerdiği durumlarda kullanılan bir değişkendir. Sınıflandırma yapmanın yanı sıra, kategoriler arasında bir sıralama veya derecelendirme yapılmasını sağlar.
Örnek olarak, bir müşteri memnuniyet anketinde “ürün kalitesi” ordinal bir değişkendir. Bu değişken, müşterilerin ürün kalitesine yönelik görüşlerini temsil eder. Müşterilere “ürün kalitesi nasıl değerlendirirsiniz?” sorusu sorulduğunda, yanıtlar “düşük”, “orta”, “yüksek” gibi kategorilere ait olabilir. Bu durumda, ürün kalitesi sıralanabilir bir değişkendir çünkü farklı kategoriler arasında bir sıralama yapmayı sağlar. Örneğin, “yüksek” kalite “düşük” kaliteden daha üstündür ve “orta” kalite “düşük” kaliteden daha iyidir.
Sıralanabilir değişkenler, memnuniyet düzeyi, derecelendirme, ölçekler veya sınıflandırma sistemlerini temsil etmek için kullanılır. Bu değişkenler, verileri sıralamak, gruplar arasındaki farkları incelemek, eğilimleri belirlemek veya karşılaştırmalar yapmak için analiz edilebilir.
Niceliksel Değişkenler:
Niceliksel değişkenler, sayısal değerlerle ifade edilen özellikleri temsil eder. Bu değişkenler genellikle interval veya oran ölçek türünde olabilir. Interval değişkenler, farklı değerler arasındaki mesafelerin anlamlı olduğu durumlarda kullanılırken, oran değişkenleri, sıfır noktasının anlamlı olduğu durumlarda kullanılır.
Örnek olarak, bir araştırmada “yaş” niceliksel bir değişkendir. Yaş, sayısal değerlerle ifade edilir ve aritmetik işlemlere tabi tutulabilir. Yaş, oran ölçeğine sahip bir niceliksel değişkendir çünkü sıfır yaşının var olabileceği ve farklı yaş değerleri arasındaki oranların anlamlı olduğu bir durumu temsil eder.
Bu şekilde, niteliksel ve niceliksel değişkenler, farklı özellikleri temsil etmek ve analiz etmek için kullanılır.
Aralık ( Interval )
Aralık (interval), sayısal değişkenlerin ölçme ölçeği türlerinden biridir. Aralık ölçeği, farklı değerler arasındaki mesafelerin anlamlı olduğu durumlarda kullanılır. Bu ölçekteki değerler arasındaki farklar, birbirlerine göre göreceli olarak yorumlanabilir, ancak mutlak sıfır noktası yoktur.
Örnek olarak, Celsius veya Fahrenheit sıcaklık ölçekleri, aralık ölçeğine örnek olarak verilebilir. Sıcaklık ölçeğinde, 0°C veya 0°F, mutlak sıfır noktasını temsil etmez. Bu nedenle, 10°C’nin 5°C’den daha sıcak olduğunu söyleyebiliriz, ancak sıfırın anlamlı bir sıcaklık olmadığına dikkat etmeliyiz. Aynı şekilde, 70°F’in 60°F’den daha sıcak olduğunu söyleyebiliriz, ancak sıfırın tam olarak “sıcaklık yok” anlamına gelmediğini bilmeliyiz.
Aralık ölçeği, zaman dilimleri (yıl, ay, gün, saat), saat dilimleri, sıcaklık ölçekleri, hesaplama ölçekleri ve derecelendirme ölçekleri gibi durumlarda kullanılabilir. Bu ölçekteki değerler arasındaki farklar, miktarlar veya zaman aralıkları hakkında anlamlı bilgiler sağlar, ancak mutlak sıfır noktası yoktur.
Oran ( Ratio )
Oran (ratio), sayısal değişkenlerin ölçme ölçeği türlerinden biridir. Oran ölçeği, farklı değerler arasındaki mesafelerin anlamlı olduğu ve mutlak sıfır noktasının var olduğu durumlarda kullanılır. Bu ölçekteki değerler arasındaki farklar, miktarlar arasındaki tam oranları ifade eder.
Örnek olarak, “ağırlık” oran ölçeğine örnek olarak verilebilir. Bir kişinin ağırlığının 60 kilogram olduğunu ve bir başka kişinin ağırlığının 30 kilogram olduğunu düşünelim. Bu durumda, bir kişinin ağırlığı diğer kişinin ağırlığının iki katıdır. Yani, 60 kilogram / 30 kilogram = 2 olarak ifade edilebilir. Bu oran ölçeğindeki değerler arasındaki farklar, tam oranları ifade eder ve mutlak sıfır noktası vardır (yani, 0 kilogram).
Oran ölçeği, uzunluk, ağırlık, süre, hız, gelir, nüfus gibi niceliklerin ölçülmesinde kullanılır. Bu ölçekteki değerler arasındaki farklar, miktar veya büyüklük farklarının yanı sıra tam oranları ifade eder.
Merkezi Eğilim Ölçüleri ( Measures of Central Tendency )
Merkezi eğilim ölçüleri, veri dağılımının merkezini veya odak noktasını ifade eden istatistiksel ölçülerdir. Bu ölçüler, veri setinin ortalamasını, medyanını ve modunu hesaplayarak verilerin yoğunlaştığı veya odaklandığı noktayı belirlemeyi sağlar.
Ortalama (Mean)
Bir veri setindeki değerlerin toplamının, veri setindeki gözlem sayısına bölünmesiyle elde edilir. Ortalama, veri setindeki değerlerin toplamının dengeli bir şekilde dağıldığı durumlarda kullanılır.
\[(Ortalama = \frac{\sum_{i=1}^{n}x_i}{n})\]Örnek olarak, bir sınıftaki öğrencilerin matematik notlarını düşünelim. Öğrencilerin notlarını toplarız ve toplamı öğrenci sayısına böleriz. Bu, matematik dersinin sınıf genelindeki ortalama notunu verir.
Medyan (Median)
Bir veri setindeki değerlerin küçükten büyüğe veya büyükten küçüğe sıralandığında, ortadaki değeri ifade eder. Yani, veri setindeki değerlerin tam olarak ortasındaki değerdir. Medyan, aykırı değerlerin olduğu veya dağılımın dengesiz olduğu durumlarda kullanışlı olabilir.
Örnek olarak, bir maaş dağılımını düşünelim. Tüm çalışanların maaşlarını sıralarız ve ortadaki değeri buluruz. Bu medyan, çalışanların maaşlarının ortanca değerini temsil eder.
Mod (Mode)
Bir veri setinde en sık tekrarlanan değeri ifade eder. Mod, veri setindeki en yüksek yoğunluğa veya sıklığa sahip değeri temsil eder. Mod, kategorik veya nominal verilerin analizinde sık kullanılır.
Örnek olarak, bir anket sonuçlarını düşünelim. Katılımcılara “En sevdiğiniz renk hangisidir?” sorusu sorulduğunda, farklı renklerin frekanslarına bakarak en çok tekrarlanan rengi buluruz. Bu en sık tekrarlanan renk, mod olarak adlandırılır.
Bu merkezi eğilim ölçüleri, veri setinin ortalamasını, ortasını veya en sık tekrarlanan değerini temsil ederek verilerin merkezi eğilimini belirlemeye yardımcı olur.
Kartiller/Dörtte birlik ( Quartiles )
Kartiller (quartiles), veri setini dört eşit parçaya bölen istatistiksel ölçülerdir. Quartiles, veri setinin dağılımını ve dağılımın merkezini anlamak için kullanılır. Genellikle kutu grafiği (box plot) çiziminde veya veri setinin yüzde dağılımını belirlemek için kullanılır.
Veri setindeki quartiles şunlardır:
- Birinci Quartile (Q1): Veri setinin alt yüzde 25’ini temsil eder. Veriler küçükten büyüğe sıralandığında, Q1 değeri, küçükten büyük sıralanmış veri noktalarının dördüncü çeyreğini ifade eder.
- İkinci Quartile (Q2): Veri setinin ortanca değerini temsil eder. Medyan olarak da bilinir. Veriler küçükten büyüğe sıralandığında, Q2 değeri, veri noktalarının ortanca noktasını ifade eder. Veri setinin yüzde 50’sini temsil eder.
- Üçüncü Quartile (Q3): Veri setinin üst yüzde 25’ini temsil eder. Veriler küçükten büyüğe sıralandığında, Q3 değeri, küçükten büyük sıralanmış veri noktalarının alt çeyreğini ifade eder.
Örnek olarak, bir sınıftaki öğrencilerin sınav notlarını düşünelim. Sınav notlarını küçükten büyüğe sıraladığımızda, Q1 değeri, notların en düşük dörtte birini, Q2 değeri medyanı (ortanca değeri) ve Q3 değeri notların en yüksek dörtte birini ifade eder. Bu quartile değerleri, sınav notlarının dağılımını ve merkezini anlamamıza yardımcı olur.
Quartile değerleri, veri setinin dağılımını anlamak ve istatistiksel analizlerde kullanmak için önemli bir araçtır. Ayrıca, kutu grafiği çizimi gibi görsel temsillerde de kullanılırlar.
Dağılım Ölçüleri ( Measures of Dispersion )
Dağılım ölçüleri (measures of dispersion), veri setinin ne kadar yayıldığını veya dağıldığını ifade eden istatistiksel ölçülerdir. Bu ölçüler, veri noktalarının birbirlerine olan uzaklığını veya değişkenliğini belirlemek için kullanılır.
Standart Sapma (Standard Deviation)
Standart sapma, veri noktalarının ortalama değerden ne kadar uzaklıkta olduğunu gösteren bir ölçüdür. Standart sapma, verilerin ne kadar sıkı veya yayılmış olduğunu belirlemeye yardımcı olur. Daha yüksek bir standart sapma, veri noktalarının ortalama değerden daha fazla uzaklaştığını gösterir.
\[(\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i – \mu)^2})\]Örnek olarak, bir sınıftaki öğrencilerin matematik notlarını düşünelim. Her öğrencinin notunu alırız ve bu notların standart sapmasını hesaplarız. Standart sapma ne kadar yüksekse, notların ortalamadan ne kadar uzaklaştığını ve notların ne kadar değişken olduğunu gösterir.
Varyans (Variance)
Varyans, veri noktalarının ortalama değerden ne kadar uzaklıkta olduğunu ölçen bir dağılım ölçüsüdür. Varyans, standart sapmanın karesine eşittir. Daha yüksek bir varyans, veri noktalarının ortalamadan daha fazla uzaklaştığını ve veri setinin daha geniş bir dağılıma sahip olduğunu gösterir.
\[(\text{Varyans} = \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i – \mu)^2)\]Örnek olarak, bir şirketin çalışanlarının yıllık gelirlerini düşünelim. Her çalışanın gelirini alırız ve bu gelirlerin varyansını hesaplarız. Varyans, gelirlerin ortalama değerden ne kadar uzaklaştığını ve gelirlerin ne kadar değişken olduğunu gösterir.
Dağılım ölçüleri, veri setinin değişkenliğini, dağılımını veya odak noktasından uzaklığını anlamak için kullanılır. Bu ölçüler, verilerin ne kadar yayıldığını veya birbirlerine ne kadar yakın olduğunu belirlememize yardımcı olur.
Değişim Aralığı ( Range )
Değişim aralığı (range), bir veri setindeki en büyük değer ile en küçük değer arasındaki farkı ifade eden bir dağılım ölçüsüdür. Basit bir şekilde, veri setindeki en geniş değer aralığını belirtir.
Değişim aralığı, veri setinin yayılmasını veya değişkenliğini anlamamızı sağlar. Ancak, sadece veri setindeki en büyük ve en küçük değeri dikkate alır ve diğer veri noktalarını göz ardı eder. Bu nedenle, tek başına kullanıldığında veri setinin tam bir resmini vermeyebilir.
Örnek olarak, bir spor takımının maç skorlarını düşünelim. Takımın oynadığı son 10 maçın skorlarını alırız: 3, 5, 2, 4, 6, 1, 7, 3, 2, 4. Bu skorlar küçükten büyüğe sıralandığında en küçük değer 1, en büyük değer ise 7 olur. Bu durumda, değişim aralığı 7-1 = 6 olarak hesaplanır. Bu, takımın son 10 maçta aldığı skorların arasındaki en geniş farkı gösterir.
Değişim aralığı, veri setinin en geniş yayılmasını belirtirken, verilerin diğer özellikleri hakkında bilgi sağlamaz. Bu nedenle, tek başına kullanıldığında eksik kalabilir ve diğer dağılım ölçülerinin (örneğin, standart sapma veya varyans) kullanılması önerilir.
Çarpıklık ( Skewness )
Çarpıklık (skewness), bir veri setinin dağılımının simetrik olup olmadığını ve eğim yönünü ölçen bir istatistiksel ölçüdür. Çarpıklık, veri setinin sağa veya sola doğru çekik olduğunu ifade eder.
- Pozitif Çarpıklık: Pozitif çarpıklık, veri setinin sağa doğru çekik olduğunu gösterir. Yani, veri setindeki değerlerin çoğunluğu düşük değerlerde yoğunlaşmışken, uzak değerler sağa doğru uzanır.
- Negatif Çarpıklık: Negatif çarpıklık, veri setinin sola doğru çekik olduğunu gösterir. Yani, veri setindeki değerlerin çoğunluğu yüksek değerlerde yoğunlaşmışken, uzak değerler sola doğru uzanır.
Örnek olarak, bir şirketteki çalışanların maaşlarını düşünelim. Eğer maaş dağılımı sağa doğru çekik ise (pozitif çarpıklık), bu, çoğu çalışanın düşük maaşlarda olduğunu ve bazı çalışanların yüksek maaşlara sahip olduğunu gösterir. Öte yandan, maaş dağılımı sola doğru çekik ise (negatif çarpıklık), bu, çoğu çalışanın yüksek maaşlarda olduğunu ve bazı çalışanların düşük maaşlara sahip olduğunu gösterir.
Çarpıklık, veri setinin dağılımının simetrik olup olmadığını anlamak için kullanılır. Pozitif veya negatif çarpıklık, veri setindeki eğilimi ve simetri eksikliğini belirtir. Bu ölçü, istatistiksel analizlerde ve modellemede veri setinin özelliklerini anlamak için önemli bir araçtır.
Basıklık ( Kurtosis )
Basıklık (kurtosis), bir veri setinin dağılımının, normal dağılıma (belli eğrilikli) kıyasla nasıl yoğunlaştığını veya dağıldığını ölçen bir istatistiksel ölçüdür. Basıklık, veri setinin uç değerlerinin yoğunlaşma durumunu ve dağılımın basmakalıp (normal) dağılıma göre ne kadar “yükseldiğini” ifade eder.
- Normal Basıklık (Mesokurtik): Normal basıklık, veri setinin normal dağılıma yakın olduğunu ifade eder. Bu durumda, veri seti normal dağılımdaki gibi yoğunlaşır ve uç değerlerin oranı normalden beklenen orana benzerdir.
- Düz Basıklık (Platykurtik): Düz basıklık, veri setinin normal dağılıma göre daha düz olduğunu ifade eder. Bu durumda, veri seti normal dağılımdan daha yaygın ve düzleştirilmiş bir dağılıma sahiptir. Uç değerlerin oranı normalden daha azdır.
- Sivri Basıklık (Leptokurtik): Sivri basıklık, veri setinin normal dağılıma göre daha sivri ve yoğunlaşmış olduğunu ifade eder. Bu durumda, veri setindeki değerler normal dağılımdakinden daha yoğun bir şekilde merkeze yaklaşmıştır ve uç değerlerin oranı normalden daha fazladır.
Örnek olarak, bir finansal veri setini düşünelim. Eğer veri setinin basıklığı normal basıklığa yakınsa, bu, finansal verilerin genellikle normal bir dağılım gösterdiğini ve uç değerlerin beklenen oranda olduğunu gösterir. Öte yandan, veri setinin basıklığı düz (platykurtik) ise, finansal verilerin dağılımının daha yaygın olduğunu ve uç değerlerin normalden daha az olduğunu gösterir. Sivri basıklık (leptokurtik) ise, finansal verilerin daha sık yoğunlaştığı ve uç değerlerin normalden daha fazla olduğu anlamına gelir.
Basıklık, veri setinin dağılımının simetrisi ve yoğunlaşması hakkında bilgi sağlar. Bu ölçü, risk analizi, finansal piyasaların modellenmesi ve istatistiksel analizlerde kullanılan önemli bir araçtır.
Korelasyon ( Correlation )
Korelasyon (correlation), iki değişken arasındaki ilişkinin gücünü ve yönünü ölçen istatistiksel bir ölçüdür. Korelasyon, değişkenler arasındaki ilişkiyi analiz etmek ve bir değişkenin diğer değişkenle nasıl değiştiğini anlamak için kullanılır.
Elbette! Korelasyon formülünü LaTeX dilinde aşağıdaki gibi yazabilirsiniz:
\[(\text{r} = \frac{\sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i – \bar{x})^2 \sum_{i=1}^{n}(y_i – \bar{y})^2}})\]Korelasyon katsayısı, -1 ile +1 arasında değer alır. Pozitif bir korelasyon katsayısı, değişkenler arasında pozitif bir ilişki olduğunu gösterirken, negatif bir korelasyon katsayısı ise değişkenler arasında negatif bir ilişki olduğunu gösterir. 0 korelasyon katsayısı ise değişkenler arasında herhangi bir ilişki olmadığını gösterir.
Örnek olarak, bir araştırmada öğrencilerin matematik notları ile fizik notları arasındaki ilişkiyi inceleyelim. Her öğrenci için bir matematik notu ve bir fizik notu alırız. Ardından, bu notlar arasındaki korelasyonu hesaplarız. Eğer korelasyon katsayısı pozitif ve yüksekse, bu, matematik notları ile fizik notları arasında pozitif bir ilişki olduğunu gösterir. Yani, genellikle matematik notu yüksek olan öğrencilerin fizik notlarının da yüksek olduğunu söyleyebiliriz. Eğer korelasyon katsayısı negatif ve yüksekse, bu, matematik notları ile fizik notları arasında negatif bir ilişki olduğunu gösterir. Yani, genellikle matematik notu yüksek olan öğrencilerin fizik notlarının düşük olduğunu söyleyebiliriz. Eğer korelasyon katsayısı yaklaşık olarak 0 ise, bu, matematik notları ile fizik notları arasında herhangi bir ilişki olmadığını gösterir.
Korelasyon, değişkenler arasındaki ilişkiyi anlamak ve tahmin yapmak için kullanılan önemli bir araçtır. Ancak, korelasyon nedensellik ilişkisini göstermez. Yani, iki değişken arasında yüksek bir korelasyon olsa bile, bu değişkenlerin birbirini neden olduğunu veya neden-sonuç ilişkisi içinde olduğunu göstermez.
Pearson momentler çarpımı katsayısı (r)
Pearson momentler çarpımı katsayısı (r), iki sürekli değişken arasındaki lineer ilişkiyi ölçen bir korelasyon katsayısıdır. Genellikle “r” sembolü ile temsil edilir.
\[[ r = \frac{\sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i – \bar{x})^2 \sum_{i=1}^{n}(y_i – \bar{y})^2}} ]\]Pearson korelasyon katsayısı, verilerin normal dağılıma sahip olduğu durumlarda kullanılır. -1 ile +1 arasında değer alır. Pozitif bir r değeri, değişkenler arasında pozitif bir lineer ilişki olduğunu gösterirken, negatif bir r değeri, değişkenler arasında negatif bir lineer ilişki olduğunu gösterir. 0 r değeri, değişkenler arasında lineer bir ilişki olmadığını ifade eder.
Örnek olarak, bir araştırmada öğrencilerin matematik notları ile fizik notları arasındaki ilişkiyi değerlendirmek istediğimizi varsayalım. Her öğrenci için matematik notu ve fizik notu alırız. Ardından, bu verileri kullanarak Pearson korelasyon katsayısını hesaplarız. Örneğin, elde ettiğimiz korelasyon katsayısı r = 0.75 ise, bu, matematik notları ile fizik notları arasında pozitif bir lineer ilişki olduğunu ve bu ilişkinin oldukça güçlü olduğunu gösterir. Yani, genellikle matematik notu yüksek olan öğrencilerin fizik notlarının da yüksek olduğunu söyleyebiliriz. Eğer korelasyon katsayısı r = -0.60 ise, bu, matematik notları ile fizik notları arasında negatif bir lineer ilişki olduğunu ve bu ilişkinin orta derecede güçlü olduğunu gösterir. Yani, genellikle matematik notu yüksek olan öğrencilerin fizik notlarının düşük olduğunu söyleyebiliriz.
Pearson korelasyon katsayısı, istatistiksel analizlerde ve veri analizinde yaygın olarak kullanılan bir ölçüdür. Ancak, r sadece lineer ilişkiyi ölçer ve başka türden ilişkileri yakalamakta sınırlıdır.
Spearman Brown Sıra Farkları Korelasyon Katsayısı (rho, rs)
Spearman Brown Sıra Farkları Korelasyon Katsayısı (rho, rs), bir değişkenin sıra farkları arasındaki ilişkiyi ölçmek için kullanılan bir istatistiksel ölçüttür. Bu katsayı, düzeyli (ordinal) değişkenler arasındaki ilişkiyi değerlendirmek için tercih edilir.
\[[ \rho = \frac{6 \sum d_i^2}{n(n^2-1)} ]\]Spearman Brown korelasyon katsayısı, Pearson korelasyon katsayısına benzer bir şekilde -1 ile +1 arasında değer alır. Ancak, Pearson korelasyonu gibi değişkenlerin niceliksel değerlerini değil, sıralamalarını kullanır. Bu nedenle, değişkenler arasındaki ilişki doğrusal olmayabilir, ancak sıralama düzeyinde bir ilişki tespit edilebilir.
Örnek olarak, bir araştırmacı, öğrencilerin matematik ve fen bilimleri sınavlarındaki sıralamaları arasındaki ilişkiyi incelemek istiyor olabilir. Öğrencilerin sınav sonuçlarına dayalı olarak bir sıralama elde edilir ve Spearman Brown korelasyon katsayısı kullanılarak matematik ve fen bilimleri sınavları arasındaki sıralama düzeyindeki ilişki ölçülür. Elde edilen korelasyon katsayısı, matematik ve fen bilimleri arasındaki sıralamaların ne kadar benzerlik gösterdiğini gösterir. Pozitif bir korelasyon katsayısı, yüksek matematik sıralamasına sahip öğrencilerin genellikle yüksek fen bilimleri sıralamasına sahip olduğunu gösterebilir.
Spearman Brown korelasyonu, sıralama verileriyle çalışan ve doğrusal olmayan ilişkileri ölçmek isteyen durumlarda yaygın olarak kullanılır. Bu korelasyon katsayısı, sosyal bilimlerde, eğitimde, psikolojide ve benzeri alanlarda sıklıkla kullanılan bir istatistiksel yöntemdir.
Kovaryans ( Covariance )
Kovaryans (covariance), iki değişken arasındaki ilişkinin değişimlerini ölçen bir istatistiksel ölçüdür. Kovaryans, iki değişkenin birlikte nasıl hareket ettiğini ifade eder. Pozitif bir kovaryans, değişkenlerin birlikte arttığını, negatif bir kovaryans ise bir değişken artarken diğerinin azaldığını gösterir. Kovaryansın mutlak değeri büyükse, değişkenler arasındaki ilişki güçlüdür.
Kovaryansın formülü aşağıdaki gibidir:
\[(\text{Kovaryans} = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y}))\]Burada, Cov(X, Y) iki değişken X ve Y arasındaki kovaryansı temsil eder. X_i ve Y_i ise sırasıyla X ve Y değişkeninin i. gözlem değerleridir. μ_X ve μ_Y ise X ve Y değişkenlerinin ortalamalarını temsil eder. n ise gözlem sayısını ifade eder.
Örnek olarak, bir şirketin reklam harcamaları ile satış rakamları arasındaki ilişkiyi değerlendirmek istediğimizi varsayalım. Aylık bazda toplam reklam harcaması ve satış rakamlarını alırız. Daha sonra, bu verilere dayanarak reklam harcamaları ile satış rakamları arasındaki kovaryansı hesaplarız. Eğer kovaryans pozitif bir değerse, bu, reklam harcamaları ile satış rakamları arasında birlikte artma eğilimi olduğunu gösterir. Yani, reklam harcamaları arttıkça satış rakamlarının da artma eğiliminde olduğunu söyleyebiliriz. Eğer kovaryans negatif bir değerse, bu, reklam harcamaları arttıkça satış rakamlarının azalma eğiliminde olduğunu gösterir. Yani, reklam harcamaları arttıkça satış rakamlarının düşme eğiliminde olduğunu söyleyebiliriz.
Kovaryans, iki değişken arasındaki ilişkiyi anlamak ve analiz etmek için kullanılan bir ölçüdür. Ancak, kovaryansın değeri, değişkenlerin ölçüm birimlerine bağlı olarak değişebilir ve standardize edilmemiş olduğu için farklı veri setleri arasında karşılaştırma yapmak zor olabilir. Bu nedenle, kovaryansın standardize edilmiş hali olan korelasyon katsayısı daha yaygın olarak tercih edilir.
Güven aralığı ( Confidence Interval )
Güven aralığı (confidence interval), istatistiksel bir tahminin belirsizliğini ifade eden ve istatistiksel bir örnekleme çalışması temelinde hesaplanan bir aralıktır. Güven aralığı, bir örneklem üzerinden elde edilen verilere dayanarak, bir parametrenin (genellikle ortalama veya oran gibi) gerçek değerinin belirli bir olasılıkla bulunduğu aralığı tahmin etmek için kullanılır.
\[[ \text{Güven Aralığı} = \bar{x} \pm z \frac{s}{\sqrt{n}} ]\]Güven aralığı, örnekleme yöntemine ve güven düzeyine bağlı olarak hesaplanır. Güven düzeyi, belirli bir aralığın gerçek parametre değerini içerme olasılığını ifade eder. Örneğin, %95 güven düzeyiyle hesaplanan bir güven aralığı, parametrenin gerçek değerini %95 olasılıkla içerdiğini ifade eder.
Örnek olarak, bir araştırmada bir ürünün ortalama satış fiyatını tahmin etmek istediğimizi varsayalım. Bir örnekleme çalışması yaparız ve örneklem üzerinden ortalama satış fiyatını hesaplarız. Ardından, bu örnekleme verilerine dayanarak %95 güven düzeyiyle bir güven aralığı hesaplarız. Elde ettiğimiz güven aralığı, örnekleme verilerine dayanarak ortalama satış fiyatının tahmini olduğunu ve gerçek değerin %95 olasılıkla bu aralıkta olduğunu ifade eder. Örneğin, elde ettiğimiz güven aralığı 100 TL ile 120 TL arasında ise, bu, ortalama satış fiyatının gerçek değerinin %95 olasılıkla bu aralıkta olduğunu gösterir.
Güven aralığı, istatistiksel analizlerde ve örnekleme çalışmalarında kullanılan önemli bir araçtır. Güven aralığı, parametre tahminlerinin belirsizliğini dikkate alır ve istatistiksel çıkarımların güvenilirliğini değerlendirmeye yardımcı olur.
Hipotez testi ( Hypothesis Testing )
Hipotez testi (hypothesis testing), istatistiksel bir örnekleme çalışması temelinde, bir istatistiksel hipotezin doğruluğunu veya yanlışlığını değerlendirmek için kullanılan bir yöntemdir. Hipotez testi, bir örneklem üzerinde elde edilen verileri kullanarak, bir örneklem üzerindeki istatistiksel sonuçların, genellemeler yapılacak olan bir popülasyon hakkında anlamlı bir şekilde farklılık gösterip göstermediğini belirlemeye çalışır.
Hipotez testi, genellikle bir null hipotezi (H0) ve bir alternatif hipotezi (H1 veya Ha) içerir. Null hipotezi, mevcut bilgiler ve varsayımlar doğrultusunda yapılan bir iddiadır ve genellikle “hiçbir fark yok” veya “hiçbir etki yok” şeklinde ifade edilir. Alternatif hipotez ise null hipotezin tersini ifade eder ve genellikle araştırmacının ilgilendiği durumu veya beklenen farkı/etkiyi belirtir.
Bir hipotez testinin genel aşamaları şunlardır:
- Hipotezlerin Kurulması: Null ve alternatif hipotezlerin tanımlanması ve belirlenmesi.
- Test İstatistiğinin Seçilmesi: Hipotezi test etmek için kullanılacak bir test istatistiği seçilmesi.
- Anlamlılık Düzeyinin Belirlenmesi: Kabul edilebilir hata düzeyi (anlamlılık düzeyi) belirlenmesi. Genellikle yaygın olarak kullanılan anlamlılık düzeyleri, %5 (0.05) ve %1 (0.01)’dir.
- Veri Toplanması ve Testin Uygulanması: Örnekleme çalışması yapılır ve test istatistiği hesaplanır.
- Sonuçların Yorumlanması: Test istatistiği sonuçlarına göre, null hipotezin reddedilip reddedilmediğinin ve alternatif hipotezin kabul edilip edilmediğinin belirlenmesi.
Örnek olarak, bir ilaç şirketi yeni bir ilacın hastalığın tedavisinde etkili olduğunu iddia etmektedir. Araştırmacılar bu iddiayı test etmek istemektedir. Null hipotezi, “Yeni ilaç, hastalığın tedavisinde hiçbir etkisi yoktur” şeklinde belirlenirken, alternatif hipotezi “Yeni ilaç, hastalığın tedavisinde etkilidir” şeklinde belirlenir. Bir örnekleme çalışması yapılır ve ilacın tedavi üzerindeki etkisini ölçmek için uygun bir test istatistiği seçilir. Elde edilen veriler ve test istatistiği kullanılarak, ilacın tedavi üzerinde anlamlı bir etkisi olup olmadığı belirlenir. Sonuçlara göre null hipotez reddedilirse, ilacın hastalığın tedavisinde etkili olduğu sonucuna varılır.
Hipotez testi, istatistiksel çıkarımlar yapmak ve bilimsel araştırmaların sonuçlarını değerlendirmek için yaygın olarak kullanılan bir yöntemdir. İddiaların doğruluğunu test etmek ve bilimsel bilgiye dayalı kararlar vermek için önemli bir araçtır.
ANOVA ( Analysis of Variance )
ANOVA (Analysis of Variance), istatistiksel bir yöntemdir ve farklı gruplar arasındaki istatistiksel olarak anlamlı farklılıkları belirlemek için kullanılır. ANOVA, gruplar arasındaki varyansın grup içi varyanslara kıyasla ne kadar büyük olduğunu analiz eder.
ANOVA, genellikle üç veya daha fazla grup arasındaki farklılıkları değerlendirmek için kullanılır. İncelenen gruplar arasındaki ortalamaların birbirinden farklı olup olmadığını belirlemek için kullanılır. ANOVA, gruplardaki değişkenliklerin bir ölçüsü olan varyansı kullanır.
Örnek olarak, bir üretim sürecinde üç farklı makine kullanılmaktadır ve bu makinelerin ürettiği parçaların kalitesini karşılaştırmak istiyoruz. Üretim süreci boyunca her makineden rastgele örneklemler alınır ve parça kalitesi ölçümleri yapılır. Bu ölçümlerle ANOVA analizi yaparak, makine arasında istatistiksel olarak anlamlı bir kalite farklılığı olup olmadığını belirleyebiliriz. ANOVA analizi sonucunda, grupların ortalamaları arasında istatistiksel olarak anlamlı bir fark varsa, makine arasındaki kalite farklılığının olduğunu söyleyebiliriz.
ANOVA, gruplar arasındaki istatistiksel farklılıkları değerlendirmek için güçlü bir yöntemdir ve çeşitli alanlarda kullanılır, özellikle sosyal bilimler, pazarlama, tıp, endüstri mühendisliği gibi alanlarda sıklıkla kullanılır. ANOVA, farklı gruplar arasındaki anlamlı farklılıkları belirlemek ve gruplar arasında karşılaştırmalar yapmak için temel bir araçtır.
Regresyon ( Regression )
Regresyon, istatistiksel bir yöntemdir ve bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi modellemek için kullanılır. Regresyon analizi, bağımlı değişkenin tahmininde bağımsız değişkenlerin etkisini değerlendirir.
\[[ \hat{y} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n ]\]Regresyon analizi, bağımlı değişkenin sürekli veya sayısal bir değer olduğu durumlarda yaygın olarak kullanılır. Bağımsız değişkenler, bağımlı değişkenin değerini tahmin etmek için kullanılan değişkenlerdir. Regresyon analizi, bu bağımsız değişkenlerin bağımlı değişken üzerindeki etkisini belirlemeye çalışır.
Örnek olarak, bir araştırmacı, bir öğrencinin üniversiteye kabul edilme ihtimalini tahmin etmek istiyor olabilir. Bu durumda, bağımlı değişken kabul edilme ihtimali (sayısal bir değer) iken, bağımsız değişkenler öğrencinin not ortalaması, standart test skoru, sosyoekonomik durumu gibi faktörler olabilir. Regresyon analizi kullanarak, bu bağımsız değişkenlerin kabul edilme ihtimali üzerindeki etkisini değerlendirebilir ve bir öğrencinin kabul edilme ihtimalini tahmin etmek için bir regresyon modeli oluşturabilir.
Regresyon analizi, ilişkileri anlamak, tahminler yapmak ve gelecekteki olayları tahmin etmek için kullanılan önemli bir istatistiksel yöntemdir. Hem sosyal bilimlerde hem de doğal bilimlerde, ekonomi, pazarlama, finans, sağlık, mühendislik gibi çeşitli alanlarda regresyon analizi yaygın olarak kullanılmaktadır.