變量按變量值是否連續可分為連續變量與離散變量兩種。 連續變量(continuous variable)與離散變量(discrete variable)
連續變量
在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。
離散變量
離散變量是指其數值只能用自然數或整數單位計算的則為離散變量.例如,企業個數,職工人數,設備台數等,只能按計量單位數計數,這種變量的數值一般用計數方法取得.
在R語言中的Data.Frame中的每一列可以表示一個變量;
變量關注點:1取值,2概率
得到了變量的取值及概率就獲得了數據的分布
數據分布的特征
集中趨勢(位置)
離中趨勢(分散程度)
偏態和峰態(形態)
一、集中趨勢的度量
分類數據:眾數
順序數據:眾數、中位數、分位數
數值型數據:眾數、中位數、分位數、平均數
概念:
眾數(mode):一組數據中出現次數最多的值;數據中重復次數最多的那個數據。 如評選”最佳“,”最受歡迎“等都與眾數有關。Mo
中位數(median):排序後處於中間位置上的值。如有5個數,排序後第3個數為中位數,如果為6個數,則對中間兩個數求平均結果為中位數。Me
四分位數(quartile): 排序後處於25%和75%位置上的值。
平均數(mean): 也稱為期望
簡單算數平均:
加權平均:
幾何平均:
幾何平均主要用於計算平均增長率;
特點:
1. 眾數
不受極端值影響
具有不惟一性
數據分布偏斜程度較大時應用
2. 中位數
不受極端值影響
數據分布偏斜程度較大時應用
3. 平均數
易受極端值影響
數學性質優良
數據對稱分布或接近對稱分布時應用
關系:
均值在中位數左邊為左偏,均值在中位數右邊為右偏。
二、離散程度的度量
反映各變量值遠離其中心值的程度(離散程度)
分類數據:異眾比率
順序數據:四分位差
數值型數據:極差、平均差、方差和標准差
相對位置的度量:標准分數
相對離散程度:離散系數
概念:
異眾比率(variation ratio): 非眾數組的頻數占總頻數的比例。
例子:
四分位差(quartile deviation):上四分位數與下四分位數之差。反應了中間50%數據的離散程度。
例子:
極差(range):數據中最大值與最小值之差。
方差(variance): 是各個數據分別與其平均數之差的平方的和的平均數; 反映了各變量值與均值的平均差異.
E{x}表示平均數
樣本方差:
在統計學中樣本的均差多是除以自由度(n-1),它是意思是樣本能自由選擇的程度。當選到只剩一個時,它不可能再有自由了,所以自由度是n-1。
標准差(standard deviation): 是各個數據分別與其平均數之差的平方的和的平均數的平方根;反映了各變量值與均值的平均差異. 反應了數據集的離散程度.
對方差進行開方
標准分數(standard score):也叫z分數(z-score) 是一個分數與平均數的差再除以標准差的過程。用公式表示為z=(x-μ)/σ。其中x為某一具體分數,分數即為值。
例子:
離散系數:又稱為變異系數,常用的是標准差系數,用CV(Coefficient of Variance)表示。標准差與均值的比率。 用公式表示為:CV=σ/μ
離散系數反映單位均值上的離散程度,常用在兩個總體均值不等的離散程度的比較上。若兩個總體的均值相等,則比較標准差系數與比較標准差是等價的。在對比情況下,離散系數較大的其分布情況差異也大。
協方差:在概率論和統計學中,協方差用於衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
期望值分別為E[X]與E[Y]的兩個實隨機變量X與Y之間的協方差Cov(X,Y)定義為:
從直觀上來看,協方差表示的是兩個變量總體誤差的期望。
如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值時另外一個也大於自身的期望值,那麼兩個變量之間的協方差就是正值;
如果兩個變量的變化趨勢相反,即其中一個變量大於自身的期望值時另外一個卻小於自身的期望值,那麼兩個變量之間的協方差就是負值。
結果值范圍為-∞~+∞,不同協方差之間是不能比較的
相關系數:
稱為隨機變量X和Y的(Pearson)相關系數
結果值范圍-1~+1,不同協方差的相關系數是可以比較的
離散變量的分布
1.兩點分布 又稱為伯努利分布
P(n) = pn(1-p)1-n (n=1,或 n=0) 1表示成功,0表示失敗
成功的概率為p,失敗的概率為1-p;
2.二項分布 Binomial Distribution
即重復n次的伯努利試驗(Bernoulli Experiment),用X表示隨機試驗的結果。
如果事件發生的概率是p,則不發生的概率q=1-p,N次獨立重復試驗中發生K次的概率是:
其中組合的計算公式為:
期望E(X)=np
方差D(X)=npq
例子:張三參加雅思考試,每次通過的概率假設為1/3,不通過的概率為2/3。如果他連續參加4次考試,那麼恰好通過2次的概率是多少?
p=1/3, n=4, k=2 代入公式:結果為8/27
3.泊松分布 Poisson
泊松分布適用於描述單位時間內隨機事件發生的次數。
泊松分布的概率函數:
期望和方差都為:λ
λ是單位時間內隨機事件的平均發生率,k是指事件發生的次數。
當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧10,p≦0.1時,二項分布就可以用泊松公式近似得計算。
在實際事例中,當一個隨機事件,例如某電話交換台收到的呼叫、來到某公共汽車站的乘客、某放射性物質發射出的粒子、顯微鏡下某區域中的白血球等等,以固定的平均瞬時速率λ(或稱密度)隨機且獨立地出現時,那麼這個事件在單位時間(面積或體積)內出現的次數或個數就近似地服從泊松分布P(λ)。因此,泊松分布在管理科學、運籌學以及自然科學的某些問題中都占有重要的地位。
觀察事物平均發生m次的條件下,實際發生x次的概率P(x)可用下式表示: P(x)=mx*e-m/x!
例子:假設在一個公共汽車站上有許多不同線路的公交車,平均每5分鐘會來2輛公交車。求5分鐘內來5輛公交車的概率有多大。
k=5, λ=2 代入公式:
P(X=k=5)= 25*2.71828-2/5*4*3*2*1 = 0.361
例子:已知某家小雜貨店,平均每周售出4個水果罐頭。請問該店水果罐頭的每周最佳庫存量是多少?
庫存量越多浪費空間及金錢,庫存量過少,無法滿足用戶的需求,減少銷售量。
這裡通過累計概率來計算,
P(X=k=0) 沒有庫存的概率
P(X=k=1) 庫存為1的概率
P(X=k=2) 庫存為2的概率
...
計算到k=7時,將這些概率進行相加,結果為92.98%,如果庫存為7,說明有7.02%的概率會供不應求。這個k值根據實際應用場景進行調整。
連續變量的分布
1.均勻分布
2.指數分布
3.正態分布 Normal distribution 也叫高��分布(Gaussian distribution)
若隨機變量X服從一個位置參數為μ、尺度參數為σ 的概率分布,且其概率密度函數為
μ是均值,σ 是標准差
則這個隨機變量就稱為正態隨機變量,正態隨機變量服從的分布就稱為正態分布,記作X~N(μ,σ2), 讀作X服從正態分布。
期望E(X)=μ
方差D(X)=σ2
當μ=0,σ=1是,正態分布就為標准正態分布
期望E(X)=0
方差D(X)=1
μ變大,函數圖像中軸向右移動
μ變小,函數圖像中軸向左移動
σ變大,函數圖像坡度變平緩
σ變小,函數圖像坡度變陡
經驗法則:
正態分布距離均值的左右各一個標准差的概率分布為68%,距離左右兩邊各兩個標准差的概率分布為95%,三個標准差的概率分布式99.7%;
中心極限定理 central limit theorem:
在樣本數據中隨機抽取一部分數據,這部分數據的分布漸近與正態分布
概率密度函數 PDF probability density function ;是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數。
正態分布的概率密度函數
累計密度函數 CDF cumulative distribution function; 是概率密度函數的積分。f(x)當x=k,表示小於k值的所有概率之和。單調遞增曲線,無線接近於1.
用戶畫像,真實用戶的虛擬表示,建立在真實數據上的目標用戶模型;考慮用戶的主要行為特征;