Rによるデータ解析(その1)表やテーブルを読み込む

日付;2022/04/24(日)

Rを使ってデータを解析するとき、必ずデータセットを読み込む必要がある。ここではその方法を述べる。言っておくが、これは基礎医学・生物学研究で基本的に行う解析のみを述べるので、他にもいくらでも方法があるし、必要とあれば別の方法を述べなくてはならない。しかし、それを言っていてはキリがないので、そういうことは述べないことにする。しかし、正直なところ基礎医学・生物学研究では、当然正しい解析方法は必要であるが、そこまでギークな手法は必要とされていないし、データセットだって、例えばTCGAやRNA-seqのデータセット以外の通常の細胞実験や動物実験で出るデータについてはそんなに大きくはないので、以下に記す方法で十分であると思う。必要なことは、可能な限り正しい統計結果であると思う。

ここでは、Rのデータセットを読み込むためのコードを述べる。これをやらなければ、解析はどうやったって始まらない。ただし、全く深く考えることはない。

必要なもの

R

これがないと始まらない。しかし、個人的にはなるべく新しいバージョンのRをインストールしたほうが良いと思っている。古いバージョンだと、あるはずのライブラリがCRANから削除されていたりして、いざRのバージョンを変えたら動作が少し変わったりする。まぁ、別にこれは古くても新しくても起こるときは起こるから、なんとも言えないが。動けば良いという場合は、別に何でも良い。もしかしたらRをインストールするときに、 XQuarzをインストールしろって言われるかも知れないから、そのときはそれに従う。

RStudio

これはRのフロントエンドとして最適だと思う。その理由は、経験的に他のソフトより動作が軽いためだ。他にもVisual Studio Codeとか、Jupyterとかが使える。多分、他のソフトは色々プラグインを入れる必要がでてきて、最終的に起動が遅くなったりするのじゃあないかと、個人的に思っている。使っているパソコンが新しかったら、どっちでも同じくらい動作が軽いかもしれない。後者はRの他にもいろいろなプログラムが使えるので、慣れている人は後者にしても良いと思う。一連の流れはRStudioのマニュアルに従う。

データの準備

データとしては必ず一行目は変数名にする。そして、二行目からはすべてデータにする。データとしては、日付、数字、分類、コメントなどである。これはエクセルなどで作っても構わない。エクセルで作ったデータをそのままテキストファイルにコピーすると、タブ区切りテキスト(tab separeted values; tsv)になる。作ったらR用のオリジナルのファイルとしてR_Data.txtとして保存する。もしかしたら拡張子が.tsvになっているかも知れない。

データを読み込む

  1. まず、必要なライブラリを読み込む。データを読み込むためのライブラリはtidyverseを使う。tidyverseが使えないなら、少し面倒だが、必要なライブラリを1つつずつロードする。ここで実際に使用するライブラリはdplyrである。tidyverseはこの手のライブラリを全部一度にロードできる非常に便利なライブラリである。
  2. 次に、いちいちパスを書くのが面倒なので、setwd()で読み込むディレクトリ(フォルダ)を指定しておく。
  3. 次に、read_tsv()で実際のデータを読み込む。現時点のディレクトリがわからないなら、最初にgetwd()で現時点のパスを確認しておく。以下がコードである。
#ライブラリを読み込む。
library(tidyverse)
#パスを確認、設定。
getwd()
setwd("/Volumes/Data")
#データを読み込む。
Original <- read_tsv("R Data KS20220222 FCM .txt")

もし、setwd()なんかいらないならば、以下でも良い。

getwd()
Original <- read_tsv("/Volumes/Data/R Data KS20220222 FCM .txt")

もしファイル名にスペースや何かおかしな文字が含んでいたら、例の用に” “で囲む。

必要ならばcheetsheetがあるので、それも便利だと思う。