![Page 1: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/1.jpg)
Oct 04 2014 中級者向け講習会 1
フリーソフトRを用いたビッグデータ解析:塩基配列解析を中心に
東京大学・大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット
門田幸二(かどた こうじ)[email protected]
http://www.iu.a.u-tokyo.ac.jp/~kadota/
最終更新:2014.10.04, 07:52
![Page 2: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/2.jpg)
はじめに 講習会までにざっと目を通し、Rコードも実行し
ておいてください。
講習会当日は…
スライド22からスタート予定です。それ以前のスライドは自習。
スライド22以降でも右上に参考と書いてあるものは飛ばします。
必要なパッケージはインストールされているものとします。また、作業ディレクトリの変更などの基本的な作業はできるようになっているものとします。
ネットワークの有無や不具合に影響されないように、hoge.zip中に2つのhtmlファイルを入れてあります。ダブルクリックすると普通に見られますのでご利用ください。
右のように、デスクトップ上のhogeフォルダ中に下記ファイルが存在するという前提で行う。
2Oct 04 2014 中級者向け講習会
styleというフォルダをhogeフォルダ中にコピーしておくと、実際のhtmlと同じ見栄えになります。
USBはスタッフから。
![Page 3: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/3.jpg)
Rの起動と作業ディレクトリの変更
3Oct 04 2014 中級者向け講習会
① ②③
④
⑤⑥
⑦
④はヒトぞれぞれ
「Windows(C:)」となっている場合もあるが、気にしない
![Page 4: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/4.jpg)
getwd()と打ち込んで確認
4Oct 04 2014 中級者向け講習会
当たり前ですが、解析したいディレクトリ(またはフォルダ)を正しく指定できていなければエラーに遭遇します。また、解析したいファイルが存在しない状態でもエラーが出ます
![Page 5: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/5.jpg)
Contents 講義資料を取得(Rでできることの全体像を把握)
2連続塩基出現頻度解析(CpG解析) ヒトゲノム情報を含むRパッケージを入力とする場合
multi-FASTAファイルを入力とする場合
Sequence logos(ポジションごとに特徴的な塩基を強調表示) イントロダクション
small RNA-seqのカイコゲノムへのマッピング、およびアダプター配列除去前後の比較
マッピング結果レポートファイル中のポジションごとの塩基組成を眺めて全体像を把握
Sequence logosの実行
実データのgzip圧縮FASTQファイル(実習なし)
軽量版非圧縮FASTQファイル(実習あり)
計算手順の説明
組織特異的遺伝子の検出(内部的にエントロピーを利用)
5Oct 04 2014 中級者向け講習会
![Page 6: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/6.jpg)
6Oct 04 2014 中級者向け講習会
講義資料を取得http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html
ここでは、私の本務である大学院講義(90分×18コマ=27時間分)スライドを含め、2013年秋以降のPDFファイルを簡単な解説つきで公開しています。
![Page 7: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/7.jpg)
7Oct 04 2014 中級者向け講習会
講義資料を取得
R中心ですがトランスクリプトームデータ解析を一通り学びたい人は…
ここでは、私の本務である大学院講義(90分×18コマ=27時間分)スライドを含め、2013年秋以降のPDFファイルを簡単な解説つきで公開しています。
![Page 8: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/8.jpg)
8Oct 04 2014 中級者向け講習会
講義資料を取得
科目名:ゲノム情報解析基礎内容:Rの基礎。GC含量計算やCpG解析、上流配列解析、Rのバージョンの違いなど。実施日:2014.04.09、2014.04.23、2014.04.30
科目名:機能ゲノム学内容:データ取得、正規化、クラスタリング、発現変動解析、多重比較問題、機能解析など。実施日:2014.05.14、2014.05.21、2014.05.28、2014.06.04
科目名:農学生命情報科学特論I内容:公共DB、チェックサム、QC、前処理、k-mer、アセンブリ、マッピング、RPKM、発現変動など。実施日:2014.06.18、2014.06.25、2014.07.02
これら3科目の講義資料を順番にみていくとよい
![Page 9: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/9.jpg)
9Oct 04 2014 中級者向け講習会
講義資料を取得
科目名:ゲノム情報解析基礎内容:Rの基礎。GC含量計算やCpG解析、上流配列解析、Rのバージョンの違いなど。実施日:2014.04.09、2014.04.23、2014.04.30
科目名:機能ゲノム学内容:データ取得、正規化、クラスタリング、発現変動解析、多重比較問題、機能解析など。実施日:2014.05.14、2014.05.21、2014.05.28、2014.06.04
科目名:農学生命情報科学特論I内容:公共DB、チェックサム、QC、前処理、k-mer、アセンブリ、マッピング、RPKM、発現変動など。実施日:2014.06.18、2014.06.25、2014.07.02
Rコード中身の詳細な説明もあります。
![Page 10: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/10.jpg)
Contents 講義資料を取得(Rでできることの全体像を把握)
2連続塩基出現頻度解析(CpG解析) ヒトゲノム情報を含むRパッケージを入力とする場合
multi-FASTAファイルを入力とする場合
Sequence logos(ポジションごとに特徴的な塩基を強調表示) イントロダクション
small RNA-seqのカイコゲノムへのマッピング、およびアダプター配列除去前後の比較
マッピング結果レポートファイル中のポジションごとの塩基組成を眺めて全体像を把握
Sequence logosの実行
実データのgzip圧縮FASTQファイル(実習なし)
軽量版非圧縮FASTQファイル(実習あり)
計算手順の説明
組織特異的遺伝子の検出(内部的にエントロピーを利用) 基本形(Schug et al., Genome Biol., 2005)
発展形(Kadota et al., BMC Bioinformatics, 2006)10Oct 04 2014 中級者向け講習会
![Page 11: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/11.jpg)
11Oct 04 2014 中級者向け講習会
CpG解析(2014.04.23の講義資料)
科目名:ゲノム情報解析基礎内容:Rの基礎。GC含量計算やCpG解析、上流配列解析、Rのバージョンの違いなど。実施日:2014.04.09、2014.04.23、2014.04.30
科目名:機能ゲノム学内容:データ取得、正規化、クラスタリング、発現変動解析、多重比較問題、機能解析など。実施日:2014.05.14、2014.05.21、2014.05.28、2014.06.04
科目名:農学生命情報科学特論I内容:公共DB、チェックサム、QC、前処理、k-mer、アセンブリ、マッピング、RPKM、発現変動など。実施日:2014.06.18、2014.06.25、2014.07.02
Rコード中身の詳細な説明もあります。
![Page 12: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/12.jpg)
ヒトゲノム中のCpG出現確率は低い 全部で16通りの2連続塩基の出現頻度分布を調べると、CGとなる確率の
実測値(0.986%)は期待値(4.2%)よりもかなり低い 期待値
ゲノム中のGC含量を考慮した場合:約41%(A:0.295, C:0.205, G: 0.205, T:0.295)なので、0.205×0.205= 4.2%
ゲノム中のGC含量を考慮しない場合: 50%(A:0.25, C:0.25, G: 0.25, T:0.25)なので、0.25×0.25= 6.25%
k連続塩基の組合せは4k通り 2連続塩基の場合は42 = 16通り
AA, AC, AG, AT, CA, CC, CG, CT, GA, GC, GG, GT, TA, TC, TG, TT
3連続塩基の場合は43 = 64通り AAA, AAC, AAG, AAT, ACA, ACC, …, TGG, TGT, TTA, TTC, TTG, TTT
CpG解析(CGの結果を他と比較) 入力:ヒトゲノム配列のmulti-FASTA形式ファイル(またはRパッケージ) 出力:16種類の連続塩基の染色体ごとの出現頻度(または出現確率)
12Oct 04 2014 中級者向け講習会
Lander et al., Nature, 409: 860-921, 2001
BSgenome.Hsapiens.NCBI.GRCh38というヒトゲノム情報を含むRパッケージを入力としてCpG解析を行う
![Page 13: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/13.jpg)
RでCpG解析
13Oct 04 2014 中級者向け講習会
BSgenome.Hsapiens.NCBI.GRCh38というヒトゲノム情報を含むRパッケージを入力としてCpG解析を行う
![Page 14: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/14.jpg)
RでCpG解析
14Oct 04 2014 中級者向け講習会
入力:BSgenome.Hsapiens.NCBI.GRCh38というヒトゲノム情報を含むRパッケージ
出力:16種類の連続塩基の染色体ごとの出現確率情報を含むhoge7.txtというタブ区切りテキストファイル
![Page 15: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/15.jpg)
15Oct 04 2014 中級者向け講習会
基本はコピペ
①一連のコマンド群をコピーして②R Console画面上でペースト
WindowsのヒトはCTRLとALT
キーを押しながらコードの枠内で左クリックすると全選択できます
①
②
![Page 16: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/16.jpg)
実行結果
16Oct 04 2014 中級者向け講習会
エラーなく実行できると、出力ファイルとして指定したhoge7.txtが作業ディレクトリ中に生成される。
2分強かかります
![Page 17: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/17.jpg)
実際のhogeフォルダとR操作画面の関係
17Oct 04 2014 中級者向け講習会
ファイル保存前 ファイル保存後
list.files関数は作業ディレクトリ中のファイル名を表示
![Page 18: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/18.jpg)
18Oct 04 2014 中級者向け講習会
2連続塩基の出現確率:ヒトゲノム出力: hoge7.txt
確かにCGが期待値(4.2%)よりも低いことがわかります
![Page 19: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/19.jpg)
19Oct 04 2014 中級者向け講習会
2連続塩基の出現頻度:基本形
出力:hoge1.txt
参考
![Page 20: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/20.jpg)
20Oct 04 2014 中級者向け講習会
2連続塩基の出現頻度:基本形
出力:hoge1.txt
参考
contig_1の塩基配列中にはTCという2連続塩基が3つ存在するということ
![Page 21: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/21.jpg)
21Oct 04 2014 中級者向け講習会
2連続塩基の出現確率:基本形
出力:hoge2.txt
参考
![Page 22: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/22.jpg)
Contents 講義資料を取得(Rでできることの全体像を把握)
2連続塩基出現頻度解析(CpG解析) ヒトゲノム情報を含むRパッケージを入力とする場合
multi-FASTAファイルを入力とする場合
Sequence logos(ポジションごとに特徴的な塩基を強調表示) イントロダクション
small RNA-seqのカイコゲノムへのマッピング、およびアダプター配列除去前後の比較
マッピング結果レポートファイル中のポジションごとの塩基組成を眺めて全体像を把握
Sequence logosの実行
実データのgzip圧縮FASTQファイル(実習なし)
軽量版非圧縮FASTQファイル(実習あり)
計算手順の説明
組織特異的遺伝子の検出(内部的にエントロピーを利用) 基本形(Schug et al., Genome Biol., 2005)
発展形(Kadota et al., BMC Bioinformatics, 2006)22Oct 04 2014 中級者向け講習会
![Page 23: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/23.jpg)
NGSデータ解析とR
23Oct 04 2014 中級者向け講習会
塩基配列データ取得
QCやpreprocessing
マッピング
カウント情報取得
発現変動解析
クオリティの低いリードの除去(フィルタリング)やアダプター配列の除去もできます。特にアダプター配列除去はsmall RNA-seqマッピング結果に大きな影響を及ぼす。
![Page 24: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/24.jpg)
small RNA-seqデータのマッピング
24Oct 04 2014 中級者向け講習会
Nie et al., BMC Genomics, 2013
リファレンス(カイコゲノム配列)とアダプター配列除去前後のsmall RNA-seqファイルを入力として、Rでマッピング。実習ではやりません。マッピング後に得られる*_QC.pdfファイルのみhogeフォルダにあります。
![Page 25: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/25.jpg)
small RNA-seqデータのマッピング
25Oct 04 2014 中級者向け講習会
マッピング結果。除去後のマップされたリード数(1,308,126リード)が除去前(2,257リード)に比べて桁違いに多いことが分かる。
Nie et al., BMC Genomics, 2013
![Page 26: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/26.jpg)
small RNA-seqデータのマッピング結果
26Oct 04 2014 中級者向け講習会
おそらくどのマッピングプログラムもこのようなサマリーレポートファイルを出力する。上:クオリティ分布、下:塩基組成
全部で約1,200万リードのポジションごとの塩基組成。「1番目の塩基がT, 2番目がC, 3-4番目がT, …」が多いことを表している。
アダプター配列除去前 アダプター配列除去後
![Page 27: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/27.jpg)
small RNA-seqデータのマッピング結果
27Oct 04 2014 中級者向け講習会
おそらくどのマッピングプログラムもこのようなサマリーレポートファイルを出力する。上:クオリティ分布、下:塩基組成
同じ塩基配列からなるリード(TCTTCGGT…)がほとんどを占めているようにも見える。バグ?!
アダプター配列除去前 アダプター配列除去後
![Page 28: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/28.jpg)
28Oct 04 2014 中級者向け講習会
たしかに同じ種類のsmall RNA配列(TCTTCGGT…)が沢山存在してそう。念のためsequence logosで確認してみる。
アダプター配列除去前 アダプター配列除去後
![Page 29: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/29.jpg)
Contents 講義資料を取得(Rでできることの全体像を把握)
2連続塩基出現頻度解析(CpG解析) ヒトゲノム情報を含むRパッケージを入力とする場合
multi-FASTAファイルを入力とする場合
Sequence logos(ポジションごとに特徴的な塩基を強調表示) イントロダクション
small RNA-seqのカイコゲノムへのマッピング、およびアダプター配列除去前後の比較
マッピング結果レポートファイル中のポジションごとの塩基組成を眺めて全体像を把握
Sequence logosの実行
実データのgzip圧縮FASTQファイル(実習なし)
軽量版非圧縮FASTQファイル(実習あり)
計算手順の説明
組織特異的遺伝子の検出(内部的にエントロピーを利用) 基本形(Schug et al., Genome Biol., 2005)
発展形(Kadota et al., BMC Bioinformatics, 2006)29Oct 04 2014 中級者向け講習会
![Page 30: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/30.jpg)
30Oct 04 2014 中級者向け講習会
small RNA-seqファイルをそのまま入力としてSequence logosを実行することもできる。実習ではやりません。
(拡張子が.gzとなっている)gzip圧縮ファイルの場合は、WindowsではうまくいくがMacintoshではうまくいかないらしいです。
![Page 31: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/31.jpg)
31Oct 04 2014 中級者向け講習会
アダプター配列:TGGAATTCTCGGGTGC…
アダプター配列除去前の実行結果。アダプター配列に相当する部分のロゴがよくわかる。
![Page 32: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/32.jpg)
Oct 04 2014 中級者向け講習会 32
アダプター配列:TGGAATTCTCGGGTGC…
アダプター配列除去後の実行結果。アダプター配列に相当する部分のロゴが消えていることがわかる。実習ではやりません。
![Page 33: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/33.jpg)
33Oct 04 2014 中級者向け講習会
アダプター配列:TGGAATTCTCGGGTGC…
正しくアダプター配列を除去できていることもわかる
除去前 除去後
![Page 34: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/34.jpg)
Contents 講義資料を取得(Rでできることの全体像を把握)
2連続塩基出現頻度解析(CpG解析) ヒトゲノム情報を含むRパッケージを入力とする場合
multi-FASTAファイルを入力とする場合
Sequence logos(ポジションごとに特徴的な塩基を強調表示) イントロダクション
small RNA-seqのカイコゲノムへのマッピング、およびアダプター配列除去前後の比較
マッピング結果レポートファイル中のポジションごとの塩基組成を眺めて全体像を把握
Sequence logosの実行
実データのgzip圧縮FASTQファイル(実習なし)
軽量版非圧縮FASTQファイル(実習あり)
計算手順の説明
組織特異的遺伝子の検出(内部的にエントロピーを利用) 基本形(Schug et al., Genome Biol., 2005)
発展形(Kadota et al., BMC Bioinformatics, 2006)34Oct 04 2014 中級者向け講習会
![Page 35: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/35.jpg)
軽量版FASTQファイル作成
35Oct 04 2014 中級者向け講習会
実データの100分の1程度のリード数からなるファイルを作成して、マッピングやアセンブルなど目的の解析を仮実行。計算時間の見積もりや動作確認を行う際に利用。
参考
![Page 36: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/36.jpg)
36Oct 04 2014 中級者向け講習会
コピペ後のR Console画面。エラーなく実行できており、指定した100000リード分のサブセットになっていることが読み取れる。
参考
![Page 37: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/37.jpg)
37Oct 04 2014 中級者向け講習会
作業ディレクトリ中に指定した出力ファイル名のものが生成されているはずです。
参考
![Page 38: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/38.jpg)
38Oct 04 2014 中級者向け講習会
R Console画面上に表示されているものは、description部分に相当するものです。idという関数を利用しています。
参考
![Page 39: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/39.jpg)
39Oct 04 2014 中級者向け講習会
sread関数を利用してリード塩基配列情報の最初と最後の5リード分が表示されています。49塩基長で揃っていることもわかります。
参考
![Page 40: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/40.jpg)
40Oct 04 2014 中級者向け講習会
約1,200万リードで見られた「同じ種類のsmall RNA配列(TCTTCGGT…)が沢山存在してそう」な傾向は、10万リードの場合でも見受けられます。
参考
![Page 41: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/41.jpg)
41Oct 04 2014 中級者向け講習会
WindowsのヒトもMacintoshのヒトもうまくいくはずです。作業ディレクトリ中に入力ファイル(SRR609266_sub.fastq)が存在することを確認した上で、コピペで実行してみましょう。
目的:短時間で実行できるように、ファイルサイズの小さい非圧縮版のファイルを用いてsequence logosをコピペで実行
![Page 42: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/42.jpg)
基本はコピペ
42Oct 04 2014 中級者向け講習会
①一連のコマンド群をコピーして②R Console画面上でペースト
WindowsのヒトはCTRLとALT
キーを押しながらコードの枠内で左クリックすると全選択できます
①
②
![Page 43: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/43.jpg)
基本はコピペ
43Oct 04 2014 中級者向け講習会
①
WindowsのヒトもMacintoshのヒトも、うまくいくと以下のようなエラーメッセージのないR Console画面になっているはずです。
![Page 44: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/44.jpg)
実行結果
44Oct 04 2014 中級者向け講習会
サイズが800×370ピクセルからなるPNG形式ファイル(hoge10.png)が生成される。
800ピクセル
370ピ
クセ
ル
hoge10.png (100,000リードの結果)
![Page 45: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/45.jpg)
比較
45Oct 04 2014 中級者向け講習会
hoge10.png (100,000リードの結果)
hoge8.png (11,928,428リードの結果)
約120分の1のサイズでも全体的な傾向は不変であることがわかります。
![Page 46: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/46.jpg)
Contents 講義資料を取得(Rでできることの全体像を把握)
2連続塩基出現頻度解析(CpG解析) ヒトゲノム情報を含むRパッケージを入力とする場合
multi-FASTAファイルを入力とする場合
Sequence logos(ポジションごとに特徴的な塩基を強調表示) イントロダクション
small RNA-seqのカイコゲノムへのマッピング、およびアダプター配列除去前後の比較
マッピング結果レポートファイル中のポジションごとの塩基組成を眺めて全体像を把握
Sequence logosの実行
実データのgzip圧縮FASTQファイル(実習なし)
軽量版非圧縮FASTQファイル(実習あり)
計算手順の説明
組織特異的遺伝子の検出(内部的にエントロピーを利用) 基本形(Schug et al., Genome Biol., 2005)
発展形(Kadota et al., BMC Bioinformatics, 2006)46Oct 04 2014 中級者向け講習会
![Page 47: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/47.jpg)
Sequence logos実行結果の解釈
47Oct 04 2014 中級者向け講習会
全部で49塩基からなるリードの1番目のポジションはTが7割程度を占め、残りの塩基が1割程度ずつを占める、と解釈する。
![Page 48: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/48.jpg)
Sequence logos実行結果の解釈
48Oct 04 2014 中級者向け講習会
黒枠で囲まれた部分を実行することで、fastaというオブジェクトの中に入力ファイル情報(の一部)が格納される。
![Page 49: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/49.jpg)
Sequence logos実行結果の解釈
49Oct 04 2014 中級者向け講習会
fastaオブジェクト中には、widthに配列長、seqにリード塩基配列、namesにdescription情報が含まれていることがわかる。
![Page 50: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/50.jpg)
50Oct 04 2014 中級者向け講習会
consensusMatrix関数はポジションごとの塩基組成を計算しているだけです。計算結果を格納したhogeオブジェクトは5行×49列からなる数値行列。列数はリード数に相当し、5行である理由は、ACGT以外の文字をotherとして計数しているから。
![Page 51: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/51.jpg)
51Oct 04 2014 中級者向け講習会
1番目のポジションは、Aが6.986%, Cが5.186%, Gが5.654%, Tが81.998%の組成比であったことがわかる。この組成比がsequence logosにおける文字の長さ比に相当する。
![Page 52: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/52.jpg)
52Oct 04 2014 中級者向け講習会
出現確率ではなく出現頻度情報を得たい場合は、確率として出力するか否かを指定するas.probというオプションを(TRUEを意味する)Tから(FALSEを意味する)Fにすればよい。このデータは全部で10万リードからなるので、小数点の位置が変わっただけのように見える。
参考
![Page 53: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/53.jpg)
53Oct 04 2014 中級者向け講習会
sequence logosの縦軸の値(情報量; information content; ic)は、makePWM関数実行結果のoutオブジェクト中に存在する
![Page 54: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/54.jpg)
54Oct 04 2014 中級者向け講習会
縦軸の情報量の値(=1.0412504)は、出現確率のみから計算することができます。
![Page 55: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/55.jpg)
55Oct 04 2014 中級者向け講習会
20141004_ic.txt (の下のほう)
縦軸の情報量の値(=1.0412504)は、出現確率情報を格納したオブジェクトpのみから計算されていることがわかります。
![Page 56: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/56.jpg)
56Oct 04 2014 中級者向け講習会
20141004_ic.txt (の下のほう)
個別のオブジェクトの中身を表示させているだけです。Nは塩基の種類数、Hはエントロピーです。
![Page 57: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/57.jpg)
57Oct 04 2014 中級者向け講習会
仮想データで全体的なイメージをつかむ20141004_ic.txt (の下のほう)
特定の塩基のみの出現確率が高い場合には低いエントロピー。情報量の値は大きい。
塩基の出現確率が等しい場合には高いエントロピー。情報量の値は小さい。
![Page 58: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/58.jpg)
58Oct 04 2014 中級者向け講習会
特定の塩基のみの出現確率が高いポジションほど、エントロピーが低くなる。しかし意味のあるものほど縦軸の値が大きくなるようにしたいので、情報量を用いて表現している。
N:塩基の種類数= 4
Hの取りうる範囲: 0≦ H ≦log2N
![Page 59: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/59.jpg)
他の仮想データの計算例 position iの情報量 )()(log 2 ii HNIC x
59
2
IC
p5,3 = 50%
p5,1 = 50%
p1,4 = 90%
Oct 04 2014 中級者向け講習会
参考
水色の枠内がエントロピーの値
![Page 60: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/60.jpg)
Contents 講義資料を取得(Rでできることの全体像を把握)
2連続塩基出現頻度解析(CpG解析) ヒトゲノム情報を含むRパッケージを入力とする場合
multi-FASTAファイルを入力とする場合
Sequence logos(ポジションごとに特徴的な塩基を強調表示) イントロダクション
small RNA-seqのカイコゲノムへのマッピング、およびアダプター配列除去前後の比較
マッピング結果レポートファイル中のポジションごとの塩基組成を眺めて全体像を把握
Sequence logosの実行
実データのgzip圧縮FASTQファイル(実習なし)
軽量版非圧縮FASTQファイル(実習あり)
計算手順の説明
組織特異的遺伝子の検出(内部的にエントロピーを利用) 基本形(Schug et al., Genome Biol., 2005)
発展形(Kadota et al., BMC Bioinformatics, 2006)60Oct 04 2014 中級者向け講習会
![Page 61: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/61.jpg)
61Oct 04 2014 中級者向け講習会
仮想データで全体的なイメージをつかむ20141004_ic.txt (の下のほう)
ある遺伝子(gene1)の4つの組織(tissue1-4)における相対発現レベルだと解釈すればよい。gene1はtissue1特異的高発現遺伝子。
gene2はどの組織でも同程度の発現レベル。
gene3はtissue1と2で高発現、それ以外で低発現。
Schug et al., Genome Biol., 6: R33, 2005
![Page 62: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/62.jpg)
62Oct 04 2014 中級者向け講習会
仮想データで全体的なイメージをつかむ20141004_ic.txt (の下のほう)
(情報量でもよいが)遺伝子ごとにエントロピーHを計算しておき、Hの低いものが全体的な組織特異性が高いと判断すればよい。
Schug et al., Genome Biol., 6: R33, 2005
![Page 63: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/63.jpg)
63Oct 04 2014 中級者向け講習会
仮想データで全体的なイメージをつかむ20141004_roku.txt (の上のほう)
(情報量でもよいが)遺伝子ごとにエントロピーHを計算しておき、Hの低いものが全体的な組織特異性が高いと判断すればよい。
TCCパッケージ中のROKU関数を用いてエントロピー計算することもできる
Sun et al., BMC Bioinformatics, 14: 219, 2013
![Page 64: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/64.jpg)
64Oct 04 2014 中級者向け講習会
仮想データで全体的なイメージをつかむ20141004_roku.txt (の上のほう)
(情報量でもよいが)遺伝子ごとにエントロピーHを計算しておき、Hの低いものが全体的な組織特異性が高いと判断すればよい。
TCCパッケージ中のROKU関数は、出現確率でなく出現頻度を入力としてもエントロピー計算することもできる
Sun et al., BMC Bioinformatics, 14: 219, 2013
![Page 65: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/65.jpg)
65Oct 04 2014 中級者向け講習会
仮想データで全体的なイメージをつかむ20141004_roku.txt (の真ん中あたり)
(情報量でもよいが)遺伝子ごとにエントロピーHを計算しておき、Hの低いものが全体的な組織特異性が高いと判断すればよい。
ACGTの出現頻度をそのままtissue1-4とした場合。ポジションごとから遺伝子ごとのエントロピー計算に転用可能。
Schug et al., Genome Biol., 6: R33, 2005
![Page 66: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/66.jpg)
66Oct 04 2014 中級者向け講習会
仮想データで全体的なイメージをつかむ20141004_roku.txt (の真ん中あたり)
Schug et al., Genome Biol., 6: R33, 2005
8組織分の仮想発現データ。特異的高発現組織以外の発現レベルが0の場合にエントロピーが最小値となる。
![Page 67: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/67.jpg)
67Oct 04 2014 中級者向け講習会
仮想データで全体的なイメージをつかむ20141004_roku.txt (の真ん中あたり)
Schug et al., Genome Biol., 6: R33, 2005
8組織分の仮想発現データ。全組織で一定の発現レベルの場合にエントロピーが最大値(log28 = 3)となる。
![Page 68: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/68.jpg)
68Oct 04 2014 中級者向け講習会
不都合な例も存在(ROKU法開発の動機)20141004_roku.txt (の真ん中あたり)
Kadota et al., BMC Bioinformatics, 7: 294, 2006
8組織分の仮想発現データ。特異的発現以外の組織の発現レベルが比較的高い場合にエントロピーが最大値(= 3)に近い値となり、うまくランキングできない(こととその対応策を示したのがROKU)。
![Page 69: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/69.jpg)
69Oct 04 2014 中級者向け講習会
不都合な例も存在(ROKU法開発の動機)20141004_roku.txt (の真ん中あたり)
Kadota et al., BMC Bioinformatics, 7: 294, 2006
8組織分の仮想発現データ。特異的発現以外の組織の発現レベルが比較的高い場合にエントロピーが最大値(= 3)に近い値となり、うまくランキングできない(こととその対応策を示したのがROKU)。
![Page 70: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/70.jpg)
Contents 講義資料を取得(Rでできることの全体像を把握)
2連続塩基出現頻度解析(CpG解析) ヒトゲノム情報を含むRパッケージを入力とする場合
multi-FASTAファイルを入力とする場合
Sequence logos(ポジションごとに特徴的な塩基を強調表示) イントロダクション
small RNA-seqのカイコゲノムへのマッピング、およびアダプター配列除去前後の比較
マッピング結果レポートファイル中のポジションごとの塩基組成を眺めて全体像を把握
Sequence logosの実行
実データのgzip圧縮FASTQファイル(実習なし)
軽量版非圧縮FASTQファイル(実習あり)
計算手順の説明
組織特異的遺伝子の検出(内部的にエントロピーを利用) 基本形(Schug et al., Genome Biol., 2005)
発展形(Kadota et al., BMC Bioinformatics, 2006)70Oct 04 2014 中級者向け講習会
![Page 71: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/71.jpg)
71Oct 04 2014 中級者向け講習会
ROKU法の目的20141004_roku.txt (の真ん中あたり)
Kadota et al., BMC Bioinformatics, 7: 294, 2006
特異的高発現であろうが低発現であろうが、特異的発現パターンをもつ下記3遺伝子をエントロピーの低さに基づいて上位にランクインさせたい!
![Page 72: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/72.jpg)
72Oct 04 2014 中級者向け講習会
ROKU法の戦略20141004_roku.txt (の真ん中あたり)
Kadota et al., BMC Bioinformatics, 7: 294, 2006
特異的高発現組織以外の発現レベルが0の場合にエントロピーが最小値となるのだから、そうなるように予めデータの変換をしておけばよい。
![Page 73: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/73.jpg)
73Oct 04 2014 中級者向け講習会
データ変換の基本形20141004_roku.txt (の下のほう)
Kadota et al., BMC Bioinformatics, 7: 294, 2006
データ変換の基本は外れ値(この場合は10)に影響されない頑健な要約統計量で引く。実質的には下記例のように中央値のようなもので十分だが、ROKU原著論文中では中央値よりも頑健なTukey’s biweightを利用。
![Page 74: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/74.jpg)
74Oct 04 2014 中級者向け講習会
データ変換のほぼ最終形20141004_roku.txt (の下のほう)
Kadota et al., BMC Bioinformatics, 7: 294, 2006
データ変換の基本は外れ値(この場合は10)に影響されない頑健な要約統計量で引く。変換後の発現レベルがマイナスになるのを防ぐため、abs関数を適用して絶対値をとっている。
![Page 75: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/75.jpg)
75Oct 04 2014 中級者向け講習会
ROKU法20141004_roku.txt (の下のほう)
Kadota et al., BMC Bioinformatics, 7: 294, 2006
入力データ変換後にエントロピー計算を行ったものをmodified Entropy (modH)と呼び、modHでランキングすることを提唱。
![Page 76: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/76.jpg)
Oct 04 2014 中級者向け講習会 76
入力と出力の関係を簡単に説明します
![Page 77: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/77.jpg)
Oct 04 2014 中級者向け講習会 77
入力:sample21.txt
出力:hoge1.txt
これがデータ変換後のエントロピーとその順位
![Page 78: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/78.jpg)
エントロピー(組織特異的遺伝子検出)
78Oct 04 2014 中級者向け講習会
ROKU法はデータの変換を行うことでよりよいエントロピーでのランキング結果を得ている(変換前:○、変換後:▲)
![Page 79: フリーソフトRを用いたビッグデータ解析: 塩基配 …kadota/20141004_2_kadota.pdf2014/10/04 · Oct 04 2014 中級者向け講習会 1 フリーソフトRを用いたビッグデータ解析:](https://reader034.vdocuments.mx/reader034/viewer/2022050111/5f48bc2dd803f42f38629885/html5/thumbnails/79.jpg)
まとめ 講義資料を取得(Rでできることの全体像を把握)
2連続塩基出現頻度解析(CpG解析) ヒトゲノム情報を含むRパッケージを入力とする場合
multi-FASTAファイルを入力とする場合
Sequence logos(ポジションごとに特徴的な塩基を強調表示) イントロダクション
small RNA-seqのカイコゲノムへのマッピング、およびアダプター配列除去前後の比較
マッピング結果レポートファイル中のポジションごとの塩基組成を眺めて全体像を把握
Sequence logosの実行
実データのgzip圧縮FASTQファイル(実習なし)
軽量版非圧縮FASTQファイル(実習あり)
計算手順の説明
組織特異的遺伝子の検出(内部的にエントロピーを利用) 基本形(Schug et al., Genome Biol., 2005)
発展形(Kadota et al., BMC Bioinformatics, 2006)79Oct 04 2014 中級者向け講習会
Sequence logosとROKU、解析目的は違っても同じエントロピーを内部的に利用。基本形から発展形への思考回路を紹介。詳細は書籍中にも記載してます。