統計・データの処理といえば、ずっとExcelなどの表計算ソフト頼み。Excelさえあれば十分間に合う。Excelでできないような分析は研究者の域と思っているが、つい使ってみたくなるのがR言語。
Pythonの代わりではなく、元々、こっちを先にインストールしていたが、地図などグラフィックスがPythonのほうが綺麗かなと思ってPythonを使い始めた。
……が、R言語は統計オンリーのソフトというわけではなく、プログラミング言語みたいなものなので、いろいろできる。S言語のマニュアルも無駄にならない。
R言語のHP --- The R Project for Statistical Computing(www.r-project.org/)
からR本体をダウンロード(download R)。
より正確にはCRANミラーサイト CRAN mirrorからダウンロード。
※ CRAN Comprehensive R Archive Network
日本のサイトは、現在、東京(統計数理研究所)と米沢(山形大学)。デフォルトで日本語版が使える。以前は英語版だった(どこからダウンロードしたか忘れた)。
パッケージがいろいろ用意されている。
インストールはRコンソール起動後、
install.packages("パッケージ名")
と入力するか
パッケージ - パッケージのインストール
で表示されるウィンドウから選択する。
うまくいかない場合、CRANミラーサイトを変えてみる。
日本のサイトでうまくいかず、USA CA(カリフォルニア大学バークレー校)に変えてみたらOK、ということがあった。
あとはR本体が古いバージョンだと使えないものもある。
パッケージの依存関係とかもあるが、インストール絡みのトラブルは少ない。挙動もスムーズ。
library(パッケージ名)
で有効化。
ファイル - 作業ディレクトリの変更
で選択したディレクトリからデータファイルなどの読み込み、書き出しが行える。
計算
3^4
⇒ 81 ・・・ 3の4乗
x <- 1:100
sum(x)
⇒ 5050 ・・・ 1+2+…+100(=101×50)
pi
⇒ 3.141593 ・・・ 円周率 π
sqrt(2)
⇒ 1.414214 ・・・ 平方根 √2
cos(pi/4)
⇒ 0.7071068 ・・・ cos45°= 1/√2
行列(データ)
weight <- c(77,51,66,44)
mean(weight)
⇒ 59.5 ・・・ 平均
c()はデータの結合 Combine Values。配列 []がつくられる。
height <- c(160,150,170,155)
data1 <- data.frame(weight,height)
⇒ 4行2列の行列(weight列、height列)
データフレーム data.frame()で、2次元配列いわゆる行列が作られる。
nrow(data1)
⇒ 4 ・・・ 行数
ncol(data1)
⇒ 2 ・・・ 列数
プロット
plot(sin, -pi, pi)
・・・ sin曲線
plot(data1)
plot(iris)
・・・ インストールでついてくるアヤメのデータ
ggplot2パッケージを使ってプロット。
地図の場合、Leafletも使える。