「日米腎臓内科ネット」活動ブログ

   日本・アメリカそれぞれの話題をお届けします日米腎臓内科ネット
<< January 2020 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 >>

Computing

臨床にせよ、研究にせよ、生命科学においてノイズはつきものです。それゆえ、データを処理、解析する作業は必須です。ちょっとしたデータ処理を自分で行えるようになることは、長期的にメリットがあると思います。昨今、インターネットを介して得られる情報量は莫大で、様々なツールも無料で入手できます。今回はフリーでできるcomputingの一例を挙げてみます。
computing.jpg
無料テキストエディタ 
テキストエディタにてテキストファイルを変換する“トリック”は、情報処理において幅広く利用できて、便利です。例えば、数百人分のIDや様々な検査結果がエクセルシートにまとめられているとします。このデータを使って統計処理する際、まず最初に、手元にある統計ソフトにフィットするように、データの形を整えないといけません。例えば、データAとデータBの間は、,(カンマ)で区切らないといけなかったりして、数百人分のデータ一つ一つにひたすら,(カンマ)を付ける単純作業をする必要があるかもしれません。データの抜けているところを自分の目で一つ一つ探して、特有の記号に置き換える必要もあるかもしれません。数百人の臨床データなら力技で押し通せるかもしれませんが、何千個にも及ぶ遺伝子発現のデータなどとなると、お手上げです。
一例として、ここにあげるテキストファイルデータ(ProximalTubuleData xx)はMark Knepperの管理するNIHのウェブサイトから引用したものです。
大量の文字や数字が並んでいますが、よくみてみると所々データが抜けていたり、遺伝子の説明があったりなかったり、それも” ”で囲われていたり囲われていなかったりで、これをそのまま統計ソフトに読み込むことはできません。そこで、テキストエディタを使えば、自分の必要とするデータを必要な配列に、例えばこのように(ProximalTubuleData xx b)瞬時に変換することが可能です。

無料統計ソフト R
Rは過去10年ほどで飛躍的に成長している無料の統計ソフトです。Rはプログラミング言語の一つで、R特有の表記を学ぶ必要がありますが、Rの基本となるベクターの働きを理解すると、データ処理に非常に優れている言語であることが実感できます。特にグラフィックの面で優れています。以前CQIのところで紹介したデータも全てRを使いました。

注:上記の無料テキストエディタの欄ではWindowsにて、フリーのNotepad++を使用しました。Search→replaceを選択し、search modeにてregular expressionを選択し、Find whatに  (\d+_\w+)\t(\w\w_\d+)\t(\d+\.\d+)\t([^\t]+)\t([^\t]+)\t([^\t]+)\t(.*)\t([A-Z]{10,})
を入れ、replace withに \2\t\3\t\5\t\6\t\"\"\t\8 を入力しました。Regular expressionは他のソフトでも広く共通して使え、Mac OSやLinuxではTextWrangler、gedit、jEditなどがNotepad++の代わりに無料で使用できます。Regular expressionの説明はここでは省略しましたが、興味のある方は、インターネット(無料)や関連する本(例えば、Practical computing for biologists, Steven Haddock, Casey Dunn, SINAUER Associates, Inc.)を参照してください。

波戸 岳
固定リンク | この記事を編集する | comments(0) | trackbacks(0)
< 尿細管性アシドーシス(RTA)part 2 | 透析膜の再使用 >
ARCHIVES
OTHERS