1、隨機實驗:
可在相同
2、隨機事件
均值u:這個很好理解 R函數:mean
中位數:對序列排序後,排在中間的數,需要特別注意的是如果序列為偶數,中位數是中間兩個數平均值. R函數:median
百分位數:也是順序統計量,設百分數為p,n是樣本個數,則p位數指:np為小數,ceiling(np)+1,np為整數,則p位數:(x[np]+x[np+1])/2. R函數:quantile()
方差s^2,標准差s:注意是除以n-1,而不是n.與方差期望的計算不一樣.
變異系數CV:s/u*100(%),s標准差,u均值.
樣本校正平方和(CSS):樣本與均值差的平方的求和,sum((X-u)^2).
樣本未校正平方和(USS):樣本值平方的求和.sum((X^2))
極差R:max(X)-min(X)
四分位差(半極差):R3-R1.
樣本標准誤:s/sqrt(n).
偏度系數g1:n^2/((n-1)(n-2)) * u3^3/ s^3,u3:三階中心矩.
峰度系數g2:u4/u2^2-3
QQ圖:如果QQ圖近似直線,則說明樣本來自正態分布總體;
正太性W檢驗方法:shapiro.test(x);p-value>0.05表示接受原假設,符合正態分布.
經驗分布的Kolmogorov-Smirnov檢驗:ks.test()
3、參數檢驗
t.test():對正態總體作均值檢驗和區間估計;單樣本和雙樣本皆可;
var.test():對總體方差比提供檢驗和區間估計;
var.test():二項分布總體檢驗和估計
chisq.test():Pearson 擬合優度χ2檢驗 檢驗是否具有某種分布
ks.test():Kolmogorov-Smirnov檢驗,檢驗是否具有某種分布
Fisher:費契爾精確獨立檢驗;
mcnemar.test():檢驗兩個相關分布的頻率變化的顯著性;
binom.test():二項分布檢驗,檢驗某個樣本是否來自某個總體,也可以檢驗兩個總體是否存在差異;
cor.test():相關性檢驗,包括Spearman秩相關檢驗.
wilcox.test():秩檢驗,比如檢驗均值與某個值得比較。
4、分類判別
1)距離判別
馬氏距離:sqrt(t(X-Y)(X-Y)),判別式:t(x-u) * ∑-1(u1-u2).
2)、貝葉斯判別
3)、費歇爾判別
5、聚類分析
距離:
2) 數據標准化
3)相關系數
4)系統聚類R語言計算
確定類個數:rect.hclust(tree, k = NULL, which = NULL, x = NULL, h = NULL,
border = 2, cluster = NULL)
5) 動態聚類法
kmeans(x, centers, iter.max = 10, nstart = 1,
algorithm = c("Hartigan-Wong", "Lloyd",
"Forgy", "MacQueen"))