はしくれエンジニアもどきのメモ

情報・Web系技術の勉強メモ・備忘録です。

R言語で多変量解析1(1変数の統計量、標準化)

 授業でやったR言語の復習・まとめのためのメモとして残します。

 

(1)簡単な演算

> 11-3
[1] 8
> 4*3
[1] 12
> 15/3
[1] 5
> sqrt(25)
[1] 5
> 3^2
[1] 9
> exp(1)
[1] 2.718282
> log(2)
[1] 0.6931472
> log(2,base=10)
[1] 0.30103
> pi
[1] 3.141593
> sin(pi/2)
[1] 1
> date()
[1] "Sat Jun 28 03:04:30 2014"
>

 

 (2)ベクトル、行列の演算

c(x1,x2,x3,・・・,xn):n個のデータをベクトルとしてまとめる関数

 > #ベクトル
> height <- c(171,175,179,167,160,169,157,180,176,190)
> height
[1] 171 175 179 167 160 169 157 180 176 190
> height[1]
[1] 171
> height[10]
[1] 190
> length(height)
[1] 10
> #平均
> mean(height)#平均値
[1] 172.4
> sum(height)#合計値
[1] 1724

 

(量的)1変数の統計量

  • 標本データ n個のサンプル:f:id:cartman0:20140628043056p:plain

     

  • 平均:f:id:cartman0:20140628043343p:plain
  • 平方和:

    f:id:cartman0:20140628043736p:plain

  • (不偏)分散:

    f:id:cartman0:20140628044147p:plain

     

  • 標準偏差f:id:cartman0:20140628044321p:plain

 

> #1変数の統計量

> height <- c(171,175,179,167,160,169,157,180,176,190)
> height
[1] 171 175 179 167 160 169 157 180 176 190
> height[1]
[1] 171
> n <- length(height)
> n
[1] 10
> mean(height)#身長の平均
[1] 172.4
> sum(height)
[1] 1724
> var(height)#身長の不偏分散(関数)
[1] 96.04444
> hm <- mean(height)
> hd <- height - hm
> hd
[1] -1.4 2.6 6.6 -5.4 -12.4 -3.4 -15.4 7.6 3.6 17.6
> Sh <- sum(hd^2)#平方和sum(height-hm)(height-hm)
> Sh
[1] 864.4
> Vx <- Sh/(n-1)
> Vx #身長の分散(定義)
[1] 96.04444
> sqrt(Vx) #身長の標準偏差(定義)
[1] 9.800227
> sd(height) #身長の標準偏差(関数)
[1] 9.800227
> summary(height) #基本統計量
Min. 1st Qu. Median Mean 3rd Qu. Max.
157.0 167.5 173.0 172.4 178.2 190.0
>

 

データの標準化

標準化:値・単位が変わっても、平均が0で標準偏差が1.0になるようにデータのサイズを変換することが有効なことが多い。

 f:id:cartman0:20140628145914p:plainf:id:cartman0:20140628150114p:plain

 

 > #Rで標準化
> height <- c(171,175,179,167,160,169,157,180,176,190)
> height
[1] 171 175 179 167 160 169 157 180 176 190
> n <- length(height)
> n
[1] 10
> hm <- mean(height)
> hm
[1] 172.4
> u <- (height - hm)/sd(height) #標準化
> u
[1] -0.1428538 0.2653000 0.6734538 -0.5510077 -1.2652768 -0.3469307
[7] -1.5713922 0.7754923 0.3673384 1.7958768
> mean(u)
[1] -5.801132e-16
> var(u) #標準化された身長の分散
[1] 1
> sd(u) #標準化された身長の標準偏差
[1] 1
> summary(u) #標準化された身長の基本統計量
Min. 1st Qu. Median Mean 3rd Qu. Max.
-1.57100 -0.50000 0.06122 0.00000 0.59690 1.79600
>