R言語で多変量解析1(1変数の統計量、標準化)
授業でやったR言語の復習・まとめのためのメモとして残します。
(1)簡単な演算
> 11-3
[1] 8
> 4*3
[1] 12
> 15/3
[1] 5
> sqrt(25)
[1] 5
> 3^2
[1] 9
> exp(1)
[1] 2.718282
> log(2)
[1] 0.6931472
> log(2,base=10)
[1] 0.30103
> pi
[1] 3.141593
> sin(pi/2)
[1] 1
> date()
[1] "Sat Jun 28 03:04:30 2014"
>
(2)ベクトル、行列の演算
c(x1,x2,x3,・・・,xn):n個のデータをベクトルとしてまとめる関数
> #ベクトル
> height <- c(171,175,179,167,160,169,157,180,176,190)
> height
[1] 171 175 179 167 160 169 157 180 176 190
> height[1]
[1] 171
> height[10]
[1] 190
> length(height)
[1] 10
> #平均
> mean(height)#平均値
[1] 172.4
> sum(height)#合計値
[1] 1724
>
(量的)1変数の統計量
- 標本データ n個のサンプル:
- 平均:
- 平方和:
- (不偏)分散:
- 標準偏差:
> #1変数の統計量
> height <- c(171,175,179,167,160,169,157,180,176,190)
> height
[1] 171 175 179 167 160 169 157 180 176 190
> height[1]
[1] 171
> n <- length(height)
> n
[1] 10
> mean(height)#身長の平均
[1] 172.4
> sum(height)
[1] 1724
> var(height)#身長の不偏分散(関数)
[1] 96.04444
> hm <- mean(height)
> hd <- height - hm
> hd
[1] -1.4 2.6 6.6 -5.4 -12.4 -3.4 -15.4 7.6 3.6 17.6
> Sh <- sum(hd^2)#平方和sum(height-hm)(height-hm)
> Sh
[1] 864.4
> Vx <- Sh/(n-1)
> Vx #身長の分散(定義)
[1] 96.04444
> sqrt(Vx) #身長の標準偏差(定義)
[1] 9.800227
> sd(height) #身長の標準偏差(関数)
[1] 9.800227
> summary(height) #基本統計量
Min. 1st Qu. Median Mean 3rd Qu. Max.
157.0 167.5 173.0 172.4 178.2 190.0
>
データの標準化
標準化:値・単位が変わっても、平均が0で標準偏差が1.0になるようにデータのサイズを変換することが有効なことが多い。
> #Rで標準化
> height <- c(171,175,179,167,160,169,157,180,176,190)
> height
[1] 171 175 179 167 160 169 157 180 176 190
> n <- length(height)
> n
[1] 10
> hm <- mean(height)
> hm
[1] 172.4
> u <- (height - hm)/sd(height) #標準化
> u
[1] -0.1428538 0.2653000 0.6734538 -0.5510077 -1.2652768 -0.3469307
[7] -1.5713922 0.7754923 0.3673384 1.7958768
> mean(u)
[1] -5.801132e-16
> var(u) #標準化された身長の分散
[1] 1
> sd(u) #標準化された身長の標準偏差
[1] 1
> summary(u) #標準化された身長の基本統計量
Min. 1st Qu. Median Mean 3rd Qu. Max.
-1.57100 -0.50000 0.06122 0.00000 0.59690 1.79600
>