Simpangan baku dan perbedaan adalah ukuran statistik dispersi
Rumus untuk deviasi standar dan varians sering dinyatakan menggunakan:
Varian dari satu set n nilai-nilai yang kemungkinan sama dapat ditulis sebagai:
Simpangan baku adalah akar kuadrat dari varians:
Rumus dengan huruf Yunani memiliki cara yang terlihat menakutkan, tetapi ini tidak sesulit kelihatannya. Untuk memasukkannya ke dalam langkah-langkah sederhana:
Itu memberikan varians. Ambil akar kuadrat dari varians untuk menemukan standar deviasi.
Video istimewa dari Khan Academy ini menjelaskan konsep varians dan standar deviasi:
Katakanlah set data mencakup ketinggian enam tanaman liar: 3 inci, 4 inci, 5 inci, 4 inci, 11 inci, dan 6 inci.
Pertama, temukan rerata poin data: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5.5
Jadi tinggi rata-rata adalah 5,5 inci. Sekarang kita membutuhkan penyimpangan, jadi kita menemukan perbedaan masing-masing tanaman dari rata-rata: -2.5, -1.5, -.5, -1.5, 5.5, 1.5
Sekarang kuadratkan setiap deviasi dan temukan jumlahnya: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5
Sekarang bagi jumlah kuadrat dengan jumlah titik data, dalam hal ini tanaman: 43.5 / 6 = 7.25
Jadi varians dari kumpulan data ini adalah 7,25, yang merupakan angka yang cukup arbitrer. Untuk mengubahnya menjadi pengukuran dunia nyata, ambil akar kuadrat dari 7,25 untuk menemukan standar deviasi dalam inci.
Simpangan baku sekitar 2,69 inci. Itu berarti bahwa untuk sampel, setiap dandelion dalam 2,69 inci dari rata-rata (5,5 inci) adalah 'normal'.
Penyimpangan dikuadratkan untuk mencegah nilai negatif (penyimpangan di bawah rata-rata) dari membatalkan nilai-nilai positif. Ini berfungsi karena angka negatif kuadrat menjadi nilai positif. Jika Anda memiliki kumpulan data sederhana dengan penyimpangan dari rata-rata +5, +2, -1, dan -6, jumlah penyimpangan akan keluar sebagai nol jika nilai tidak dikuadratkan (yaitu 5 + 2 - 1 - 6 = 0).
Varians dinyatakan sebagai dispersi matematika. Karena ini adalah angka arbitrer relatif terhadap pengukuran asli dari kumpulan data, sulit untuk memvisualisasikan dan menerapkannya dalam arti dunia nyata. Menemukan varians biasanya hanya langkah terakhir sebelum menemukan standar deviasi. Nilai varians kadang-kadang digunakan dalam formula keuangan dan statistik.
Deviasi standar, yang dinyatakan dalam unit asli dari kumpulan data, jauh lebih intuitif dan lebih dekat dengan nilai-nilai dari kumpulan data asli. Ini paling sering digunakan untuk menganalisis sampel demografi atau populasi untuk mengetahui apa yang normal dalam populasi.
Dalam distribusi normal, sekitar 68% dari populasi (atau nilai-nilai) berada dalam 1 standar deviasi (1σ) dari rata-rata dan sekitar 94% berada dalam 2σ. Nilai yang berbeda dari rata-rata oleh 1.7σ atau lebih biasanya dianggap sebagai pencilan.
Dalam praktiknya, sistem kualitas seperti Six Sigma berupaya mengurangi tingkat kesalahan sehingga kesalahan menjadi outlier. Istilah "proses enam sigma" berasal dari gagasan bahwa jika seseorang memiliki enam standar deviasi antara rata-rata proses dan batas spesifikasi terdekat, praktis tidak ada item yang akan gagal memenuhi spesifikasi..[1]
Dalam aplikasi dunia nyata, set data yang digunakan biasanya mewakili sampel populasi, bukan seluruh populasi. Formula yang sedikit dimodifikasi digunakan jika kesimpulan seluruh populasi harus diambil dari sampel parsial.
'Sampel standar deviasi' digunakan jika semua yang Anda miliki adalah sampel, tetapi Anda ingin membuat pernyataan tentang standar deviasi populasi dari mana sampel diambil.
Satu-satunya cara sampel standar deviasi berbeda dari rumus standar deviasi adalah "-1" dalam penyebut.
Dengan menggunakan contoh dandelion, formula ini akan diperlukan jika kita hanya mengambil sampel 6 dandelion, tetapi ingin menggunakan sampel itu untuk menyatakan standar deviasi untuk seluruh bidang dengan ratusan dandelion.
Jumlah kuadrat sekarang akan dibagi dengan 5 bukannya 6 (n - 1), yang memberikan varian 8,7 (bukan 7,25), dan sampel standar deviasi 2,95 inci, bukannya 2,69 inci untuk standar deviasi standar. Perubahan ini digunakan untuk menemukan margin kesalahan dalam sampel (9% dalam kasus ini).