Skip to content
CalcGospel 微積分福音
返回

標準差與標準化

Edit page

標準差

為什麼需要看離散程度?

我們經常使用平均數來大致了解一組資料,例如平均成績、平均身高、平均壽命等等。但是如果只看平均數,不見得能足夠了解全體情況。比方說你和郭台銘住同一個社區,你們社區平均每戶年收入兩千萬,那麼你家是有錢還不有錢?為了幫助我們更了解全體情況,我們需要更多統計量來予以描述,讓我們更清楚一組資料的全貌。

其中一個統計量,就是在描述數據的離散情況。換句話說,就是描述這組資料的所有數據,是很集中還是很分散。為了描述離散情況,我們第一個想到的是:每一個數據離平均有多遠?如果對於資料 XX 裡的每個數據 xix_i,我們都將它減掉平均數 μX\mu_X,然後再全部加起來,得到:

i=1n(xiμX)=i=1nxii=1nμX=nμXnμX=0\begin{align*} &\,\sum_{i=1}^{n}(x_i-\mu_X)\\[4mm] =&\,\sum_{i=1}^{n}x_i-\sum_{i=1}^{n}\mu_X\\[4mm] =&\,n\mu_X-n\mu_X=0 \end{align*}

只是搞笑,得到 00。因為有些數據比平均多,有些比較少,當然會正負相消。

從「離均差」到「變異數」

為了防止這種情況,我們改先掛絕對值再相加:

i=1nxiμX\begin{align*} \sum_{i=1}^{n} \vert x_i-\mu_X\vert \end{align*}

這樣就沒有正負相消的問題了。這式子中的每一項,叫做離均差,意即每個數據離平均有多遠。

然而這樣挺不好算的,一大堆絕對值加在一塊這是很難處理的。所以我們改為先把每個離均差都平方,然後再相加:

i=1n(xiμX)2\begin{align*} \sum_{i=1}^{n} (x_i-\mu_X)^2 \end{align*}

可是這個式子,如果數據越多項,豈不是加起來就越大嗎?比方說一班的考試成績,如果隔壁班和本班有一模一樣的成績分佈,兩班合併一起算,算出來就變兩倍,但離散情況並不變。 為了消弭數據數 nn 的影響,我們再除以 nn,變成計算離均差平方的平均

i=1n(xiμX)2n\begin{align*} \frac{\sum_{i=1}^{n}(x_i-\mu_X)^2}{n} \end{align*}

這個式子,便適合用來描述離散情況,這稱為變異數 (variance)

標準差的誕生與公式推導

但因為我們有先做過平方,所以這樣算出的結果,單位會與原來不一致。如果我們希望單位要一致,便將變異數再開根號:

i=1n(xiμX)2n\begin{align*} \sqrt{\frac{\sum_{i=1}^{n}(x_i-\mu_X)^2}{n}} \end{align*}

離均差平方的平均再開根號,這稱為標準差 (standard deviation)。

為什麼剛剛說掛絕對值相加比較不好算,平方後再相加卻反而好算呢?比方說我們可以將標準差定義中平方的部份給乘開:

i=1n(xiμX)2n=i=1n(xi22μXxi+μX2)n=i=1nxi2i=1n2μXxi+i=1nμX2n=i=1nxi22μXi=1nxi+μX2i=1n1n與足碼  i  無關的可提出=i=1nxi22μX(nμX)+μX2nn=i=1nxi22nμX2+nμX2n=i=1nxi2nμX2n=i=1nxi2nμX2\begin{align*} &\,\sqrt{\frac{\sum_{i=1}^{n}(x_i-\mu_X)^2}{n}}\\[4mm] =&\,\sqrt{\frac{\sum_{i=1}^{n}(x_i^2-2\mu_Xx_i+\mu_X^2)}{n}}\\[4mm] =&\,\sqrt{\frac{\sum_{i=1}^{n}x_i^2-\sum_{i=1}^{n}2\mu_Xx_i+\sum_{i=1}^{n}\mu_X^2}{n}}\\[4mm] =&\,\sqrt{\frac{\sum_{i=1}^{n}x_i^2-2\mu_X\sum_{i=1}^{n}x_i+\mu_X^2\sum_{i=1}^{n}1}{n}}\\[4mm] &\quad\colorbox{aqua}{{與足碼 } $i$ { 無關的可提出}}\notag\\[4mm] =&\,\sqrt{\frac{\sum_{i=1}^{n}x_i^2-2\mu_X(n\mu_X)+\mu_X^2\cdot n}{n}}\\[4mm] =&\,\sqrt{\frac{\sum_{i=1}^{n}x_i^2-2n\mu_X^2+n\mu_X^2}{n}}\\[4mm] =&\,\sqrt{\frac{\sum_{i=1}^{n}x_i^2-n\mu_X^2}{n}}\\[4mm] =&\,\sqrt{\frac{\sum_{i=1}^{n}x_i^2}{n}-\mu_X^2} \end{align*}

這樣便得到標準差的另一種公式,當我們只知數據平方和而不知道每一組數據的詳細數值,便可以使用此式。


📌 注意事項與重要性質

  1. 變異數的符號,可寫為 Var\text{Var}σ2\sigma^2,其公式為:

    σ2=i=1n(xiμX)2n=i=1nxi2nμX2\begin{align*} \sigma^2 =&\,\frac{\sum_{i=1}^{n}(x_i-\mu_X)^2}{n}\\[4mm] =&\,\frac{\sum_{i=1}^{n}x_i^2}{n}-\mu_X^2 \end{align*}
  2. 標準差的符號,可寫為 Var\sqrt{\text{Var}}σ\sigma,其公式為:

    σ=i=1n(xiμX)2n=i=1nxi2nμX2\begin{align*} \sigma =&\,\sqrt{\frac{\sum_{i=1}^{n}(x_i-\mu_X)^2}{n}}\\[4mm] =&\,\sqrt{\frac{\sum_{i=1}^{n}x_i^2}{n}-\mu_X^2} \end{align*}
  3. 變異數可以想成求算正方形面積的平均,如下圖。數據若離平均越遠,算出的正方形面積就越大,會使變異數算出來更大。

    變異數的幾何意義

  4. 資料的平移不影響標準差,但伸縮會影響。設 Y=aX+bY=aX+b,則:

    σY=i=1n(yiμY)2n=i=1n((axi+b)(aμX+b))2n=i=1n(a(xiμX))2n=a2i=1n(xiμX)2na2=a=ai=1n(xiμX)2n=aσX\begin{align*} \sigma_Y=&\sqrt{\frac{\sum_{i=1}^{n}(y_i-\mu_Y)^2}{n}}\\[4mm] =&\sqrt{\frac{\sum_{i=1}^{n}\big((ax_i+b)-(a\mu_X+b)\big)^2}{n}}\\[4mm] =&\sqrt{\frac{\sum_{i=1}^{n}\big(a(x_i-\mu_X)\big)^2}{n}}\\[4mm] =&\sqrt{\frac{a^2\sum_{i=1}^{n}(x_i-\mu_X)^2}{n}}\\[4mm] \colorbox{aqua}{$\sqrt{a^2}=\vert a\vert$}\quad =&|a|\sqrt{\frac{\sum_{i=1}^{n}(x_i-\mu_X)^2}{n}}\\[4mm] =&|a|\sigma_X \end{align*}
  5. 由變異數的第二個式子移項,可得:

    σ2+μX2=i=1nxi2ni=1nxi2=n(σ2+μX2)\begin{align*} \sigma^2+\mu_X^2=&\frac{\sum_{i=1}^{n}x_i^2}{n}\\[4mm] \Rightarrow \sum_{i=1}^{n}x_i^2=&n\left(\sigma^2+\mu_X^2\right) \end{align*}

這是個好用的公式。


標準化

進步還是退步?分數背後的相對論

如果你上次數學考 70 分,這次考 50 分,那麼你是進步還是退步呢?當然,你父母很可能會不太高興,竟然退步了 20 分!正當要執行家法時,你急忙提出抗辯:「等一下!上次數學全班平均 60 分,這次考比較難,班平均只有 40 分!我這兩次都高於平均 10 分,應該不算退步吧!」你父母聽了覺得挺有道理,正當你鬆了口氣時,一旁在讀大學的姐姐看不下去了:「這兩次我都看過你班上成績單,上次標準差才 5 分,你比平均高兩個標準差。這次標準差 10 分,你只比平均高一個標準差而已,所以你還是退步了。」

於是你還是被執行家法並回房好好讀數學。當你正生氣覺得不諒解,本來今天高高興興,為什麼姊姊要這麼說這種話,此時剛好翻到數學課本上談到數據的標準化,好像就和姊姊那番話有關係。

高富帥的迷思:不同單位的數據怎麼比?

課本中寫道:小明身高 187 公分,家庭年收入 1000 萬元。因為小明並不帥,所以顯然他不是高富帥,但究竟說他高比較好呢,還是說他富比較好呢?

身高與家庭年收入,顯然是兩種不同的資料,無法直接比較。但是人性嘛,總想比一比,不能比也要比。

於是採取相對比較的辦法,小明班上平均身高 175 公分,標準差 4 公分,所以小明身高在班上是比平均多出三個標準差;班上家庭年收入平均 800 萬元,標準差是 200 萬元,所以小明家年收入在班上是比平均多出一個標準差。

這樣看來,小明的富在班上看來好像不是太突出,倒是身高相對來說在班上是比較高。所以我們有了結論:小明(在這個班)是高而不是富!

Z 分數 (Z-score) 的數學定義

為了方便求算比平均高幾個標準差,我們就將數據做個轉換。使轉換後的新數據具有平均數為 00、標準差為 11 的特性,這樣我們只要一看新數據就馬上知道是比平均高多少個標準差了。而要怎麼設定數據轉換呢?當然是這樣寫:

Z=XμXσX\begin{align*} Z=\frac{X-\mu_X}{\sigma_X} \end{align*}

我們知道對於線性變換 Y=aX+bY=aX+b,平均數 μY=aμX+b\mu_Y=a\mu_X+b,直接將原平均代入線性變換式子當中。所以:

μZ=μXμXσX=0\begin{align*} \mu_Z =\frac{\mu_X-\mu_X}{\sigma_X} =0 \end{align*}

又標準差 σY=aσX\sigma_Y=|a|\sigma_X,與平移無關,伸縮係數掛絕對值。所以:

σZ=1σXσX=1\begin{align*} \sigma_Z =\left|\frac{1}{\sigma_X}\right|\sigma_X=1 \end{align*}
數據的標準化

對於資料 XX 進行線性變換:

Z=XμXσX\begin{align*} Z=\frac{X-\mu_X}{\sigma_X} \end{align*}

這稱為數據的標準化,數據 ZZ 稱為標準化數據,標準化數據的值稱為 zz 分數。

小明身高 187,進行標準化,就是:

z=1871754=3\begin{align*} z=\frac{187-175}{4}=3 \end{align*}

zz 分數是 33,表高出平均 33 個標準差。小明的同學阿花,他是男的,但很愛吃豆花,所以叫阿花。阿花身高 173,進行標準化就是:

z=1731754=0.5\begin{align*} z=\frac{173-175}{4}=-0.5 \end{align*}

zz 分數是 0.5-0.5,表比平均低 0.50.5 個標準差。

標準化數據還有個特性,它是無單位的。比方說小明班上身高,標準差是 44 公分。如果將班上身高單位改用公尺,則每個人數據都變百分之一,例如小明是 1.871.87 公尺,而班上身高標準差是 0.040.04 公尺。至於小明身高的 zz 分數,無論原數據是用 187187 公分還是 1.871.87 公尺,算出來都是 33

延伸案例:IQ 智商測驗也是一種標準化

再介紹一個與標準化概念差不多,但不是直接用 zz 分數的例子。

我們所談論的 IQ,並不是做完智商測驗後的原始分數。是先將原始分數按不同年齡分類,同年齡的全球平均分數設定為 IQ 100100,並設定標準差為 1515。如果你的原始成績比同年齡全球平均高兩個標準差,那麼你的智商就是 130130;如果原始成績比同年齡全球平均低 1.21.2 個標準差,那麼你的智商就是 8282

所以由你做出來的智商,你就可以知道自己在同年齡中的相對高低。假設你 88 歲做一次智商測驗,到 1212 歲又做一次,此期間你的智能完全沒有長進也沒有衰退,那麼你的智商應該是會下降的,因為同年齡全體成長了。

有個國際組織叫做 MENSA,是一個高智商俱樂部,其入會門檻為 IQ 130130。別以為聽起來好像不怎麼高,這已經比平均高兩個標準差,符合的比例僅有約 2.5%2.5\% 1


Footnotes

  1. 這比例怎麼來的?高中的機率統計課程會學到如何使用常態分佈來計算。


Edit page
Share this post on:

上一篇
寫給高中生的微積分簡介
下一篇
相關書目