
用時髦的話來講,正態分布是一個“高性價比”的思考工具,因為它簡單易學且應用廣。正態分布廣泛存在于自然界、社會科學、人文科學等領域,比如動物骨骼大小、考試成績、產品質量指標、農作物產量等數據分布大多符合這一規律。在統計推斷中,它是最重要的一類概率分布,也是許多統計方法的理論基礎。

正態分布的背景知識
平均值、方差、標準差三個部分如同土壤,會很大程度影響正態分布這棵樹的生長情況。因此,在介紹正態分布前,筆者需要簡單介紹平均值、方差、標準差。
由于樣本量的不同,平均值、方差、標準差可以分“總體”和“樣本”兩類。為強化對比,在后文的介紹中,筆者會在它們前面加上限定詞,即“總體”或“樣本”。如果沒有限定詞,那么平均值、方差、標準差所指代的就是總體的平均值、方差、標準差。
1、平均值
平均值(平均數)是的小學舊識。溫故知新,因為它會在新情景下返場,用簡潔、嚴謹、優美的數學語言,一句話回顧平均值:平均值是一組數據中所有數據之和再除以這組數據的個數,用于表示一組數據的集中趨勢。例:1和10的平均值是這樣計算的:(1+10)/2=5.5。
在正態分布中,由于樣本量不同,平均值又可以分為總體平均值(μ)和樣本平均值(

【小貼士】希臘字母“μ”,發音為mu,是代表總體平均值的符號;“

2、方差
方差是衡量一組數據波動大小的統計量。我們學習方差最重要的,不在于掌握繁雜的計算,而是能夠根據其結果,了解所有數據的狀態。
方差分為兩類:總體方差和樣本方差。兩者的基本思路一致,但最大的差別在于樣本量不同,前者是整體,后者是整體中的部分。

若X1,X2,X3......Xn的平均數為μ,則總體方差可表示為:

【小貼士】希臘字母“ ∑” 的小寫形式為“σ”,英譯音為Sigma,大小寫符號都念“西格瑪”。圖片表示從1到n的多項求和。
我們還是用上面的1和10兩個數字,總體平均值μ=5.5的簡單例子,來看總體方差公式如何使用。(少量數據好計算,數據多的話,就讓計算機/器幫忙吧。)

回到總體方差和樣本方差區別的話題,這里舉個簡單的例子來說明。假設我們想知道中國人身高的標準差,但因人、財、物力有限,我們不可能把所有人都量一遍,因此,只能退而求其次,采取抽樣策略,用樣本標準差來推測整體,這時,我們就會用到樣本方差。
樣本方差和總體方差計算上略有區別,主要體現在分母上。不同于總體方差的分母為n,樣本方差的分母為n-1。這里“-1”是為了修正樣本方差對總體方差的估計偏差,這種現象被稱為“貝塞爾校正”(Bessel's correction)。
這個減去的“1”,不特指任何一個數,它代表那個失去“獨立客觀”的維度(自由度)。
樣本方差的計算公式如下:

因此,在計算樣本標準差(S,即樣本方差開根號)時,其分母也是n?1而不是n(即樣本大小減1)。這里在后文標準差的部分還會提到。
【小貼士】樣本標準差的分母為什么為n-1在數學領域已被證明,是較復雜的內容,這里不做過多展開,有興趣的讀者可查閱相關資料。
在公式的應用過程中,你或許會覺得計算很麻煩(事實也確實如此)。好消息是,計算在方差中并不是最重要的,我們要做的,是關注總體方差(σ2)的值,并由此了解方差想告訴我們的秘密:數據內部的狀態如何。
在投資分析中,尤其是在股票投資中,方差是一個有用的統計工具,它可以幫助投資者了解投資組合的風險水平。同樣的回報率,方差越小,則風險越低。

3、標準差
標準差(Standard Deviation)是方差的算術平均數的平方根,也用于反映一個數據集的離散程度。標準差實際上就是方差開根。
整體標準差用σ表示,樣本標準差用S表示。兩者的公式如圖:


在本小節的末尾,我們來做個平均值、方差、標準差在“總體”和“樣本”符號系統區別上的總結。詳見下表:

當我們談論一個正態分布時,通常是在談論一個總體的分布,而不是一個樣本的分布。因此,使用μ來表示正態分布的均值是合適的。
均值、方差、標準差的背景介紹已結束。別走開,下節更精彩,主角正態分布閃亮登場。
正態分布的主干知識
1、正態分布
正態分布一種常見的連續概率分布,它在自然科學和社會科學中常用于表示未知的隨機變量。若隨機變量X服從一個數學期望為μ、方差為σ2的正態分布,則記為N(μ,σ2)。
正態分布的曲線呈鐘型,因此人們又經常稱之為“鐘形曲線”。正態分布雖有無數種形態,但仍由μ(平均值)和σ(標準差)兩個數值決定。其中,μ決定了正態分布的位置,σ決定了分布的幅度。理解了這一點,你就不需要單獨記憶每一個正態分布圖啦。
現在,讓我們一起來看一些有代表性的正態分布圖吧(下面的文字濃度有點高,值得多看幾遍):

①當μ=0,σ=1時,這個正態分布就是標準正態分布,(見下圖紅線)。
②以正態分布為參考標準,μ為負則圖形向左移動(見下圖綠線),反之,μ為正,則圖形向右移動。
③μ不變,σ越小,則正態分布曲線越陡峭(見下圖藍線),圖像越“高瘦”,反之則越平緩(見下圖黃線),圖像越“矮胖”。
【小貼士】不知道你是否注意到,和各行業一樣,數學也有自己的業內術語,比如正態分布定義里的“服從”和“期望”。
數學語言中的“服從”是指“符合”、“遵從”的意思,一般指事物符合數學中的發展規律。
另外,數學術語中,“期望”或“數學期望”是一個重要的概念,特別是在概率論和統計學中。它表示隨機變量的預期值或平均值。
除了上面的例子,正態分布其實還有數種形態,但它們的模型主要由μ(平均值)和σ(標準差)兩個數值決定。
介紹了決定正態分布曲線的關鍵參數后,我們再來看看關于曲線下方覆蓋面積呈現的規律。在距離平均值±1的標準差(即±σ)范圍內,集中著約全體68.26%的數據;距離平均值±2的標準差(即±2σ),集中著約95.45%的數據;距離平均值±3的標準差(即±3σ),包含著99.73%的數據。曲線下方覆蓋的面積,在統計學上被稱“置信區間”。

這張圖是不是有點抽象?舉幾個例子,讓置信區間中的數字走進生活。
①有大約68%的可能性,動態范圍不超過平均值±σ。在一個班上,一班的平均分為80分,如果標準差為5分,我們就有68%的置信度說,考慮到隨機性的影響,這個班的平均成績應落在75~85之間,而不是之外。
②有大約95%的可能性,動態范圍不超過平均值±2σ,即兩個σ的置信度是95%。做科學試驗時,通常需要有95%的置信度,才能得到大家認可的結論;在產品質檢中,可以通過抽樣檢測來估計產品的平均質量水平,并利用95%置信區間來評估這個估計的可靠性。
③如果我們進一步擴大誤差范圍到±3σ,那么這個置信度就提高到99.7%。在要求極高的實驗中,我們甚至會要求達到99.7%的置信度,甚至更高;在招聘中,面試官可以使用3σ原則來確定錄取分數線。通過計算應聘者的平均分數和標準差,可以確定一個合理的分數線范圍,從而篩選出合格的應聘者。

【小貼士】總體正態分布圖vs樣本正態分布圖(符號區別)
正態分布的標準化
在正態分布的主干知識中,我們介紹了影響正態分布形態的土壤(平均值、方差、標準差),以及由此長出的小樹(正態分布的圖像)。
1、標準化與查表求概率
雖然通過觀察圖也能把握大致情況,但計算數值后會更便于理解,也方便向他人展示。好消息是,Z轉換(標準化)可以實現統一尺度。
對于數據集中的每一個數值X,可使用以下公式進行標準化:

在這個公式中,Z是轉換后的標準值,X 是原始數據點的值,μ是原始數據的平均值和σ是原始數據的標準差。
別被公式嚇到,放進日常的簡單應用場景就豁然開朗了。
小A參加了小學模擬考試,數學得了73分,英語得了76分。數學平均分是60分,英語平均分是68分。那么,小A的數學成績和英文成績,哪一個相對來說比較好呢?(得分均按照正態分布)實際上,僅這些條件是無法進行判斷的,還需要能夠表示全體離散程度的標準差。現在,我們假定數學是標準差為8分的正態分布,英語則是標準差為6分的正態分布。

用Z變換的公式可得:
數學 : (得分-平均分)÷標準差=(73-60)÷8=1.625
英語 : (得分-平均分)÷標準差=(76-68)÷6=1.333
也就是說,當標準差為1時,小A的數學、英語成績標準差分別是1.625、1.333。不同學科的成績轉化為標準得分后,變得可比較了。
另外,用“標準得分=1”進行了標準化,“平均值”會變成什么樣呢?本來,平均分根據科目的不同而不同,但以標準得分進行分布的時候,平均值為0。
因此,在對成績進行“標準化”時,分布會變為平均值=0、標準差=1的標準正態分布。需注意的是,標準化改變的只是圖的位置,比如向左或向右平移,但并不會改變“高矮胖瘦”。
完成Z變換,我們就通過可以利用z值表找到對應的概率值啦。這里會用到“標準正態分布表”。
這個表是前人整理好的數據,用起來也很方便。首先,我們要看最左手列,去查閱Z至小數點后1位數,之后,我們再查最上一行,看Z的第二位小數,左右交叉得到的數,就是我們需要找的數。

放到小A的例子中,數學的標準差為1.625、英語的標準差為1.333。我們來試試查這個表。以數學為例,先看最左列,Z至小數點后1位數為1.6,接著,再看最上行,Z的第2位小數我取0.02,交叉得到的數就是0.9474(藍色方框中的數)。英語的查閱方式同理,取值為0.9082。

查表后,就是分析數據了。數學取值為0.9474,英語為0.9082,即數學約處于94.74%的水平,英語處于90.82%的水平。如果參加全國數學、英語模擬考試的人有1萬人,小A數學大概處于526名的位置((1-0.9474)×10000=526名),英語處于918名的位置。用圖表示更清晰,這里以數學為例:

恭喜看到這的你,在20分鐘左右的時間,你已經了解了正態分布最核心的知識!
最后,請讓我們為你做個簡要的總結:我們先一起回顧了平均值、方差和基本差的背景知識,并在此基礎上了解了正態分布的形狀、特征以及如何使用。