配列データのアライメント

 

例題データ: Actin gene coding region

 

(1) 「Translated Protein Sequences」タブをクリックし、アミノ酸配列を表示する。

 

(2) 「Ctrl+A」で全配列の全領域を選択し、ClustalWW)ボタンをクリックする。

(3) 表示される「ClustalW Parameters」ダイアログボックス(左下図)の「OK」ボタンをクリックし、アライメントを行う。(DNA配列の場合、右下図のダイアログボックスが表示される。)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


この条件で得られるアライメントのN末端領域(開始コドンのすぐ下流)のアライメント精度は通常よくない。アライメントの精度はDNA配列でも確認してみよう。

 

(4) アライメントの最上行(灰色)をドラグし、最初の10アミノ酸座 (amino-acid sites) だけ選択、アライメントしてみる。

 

(5) 同じ領域について、「Gap Opening Penalty」(PairwiseMultiple2箇所)を「1」にしてアライメントしてみる。

※理想的には領域毎に適切な「Gap penalty」値を用いてアライメントを行うのがよい。

※構造・機能ドメインのような領域を区別するための情報がある場合、積極的に利用するとよい。

 

(6)  DNA Sequences」タブをクリックし、DNA酸配列に戻した後、MEGA フォーマットでデータファイルを保存する。

 

【参考】

ドメイン毎の部分アライメント

タンパク質の機能ドメインや遺伝子のエクソン・イントロン構造などが分かっている場合、部分毎にアライメントする方が良いことが多い。例えば、全データのアライメントでは、エクソン部位とイントロン部位がアライメントされるようなエラーが起こる可能性があるが、を未然に防ぐことができる。

(1) ドメインの先頭をマークする(メニューの[Alignment]-[Mark/Unmark Site]又はツールボタンをクリック、又は選択するサイトをCtrlキーを押しながらクリック)

  

 


  注: 検索([Search]-[Find Motif])を用いてマークするサイト周辺を見つけやすくできる。

  

 

(2) メニューの[Alignment]-[Align Marked Sites]またはツールボタンのをクリックする(上図)とマークされたサイトがアライメントされる(下図)。

  

 

 


  

 

(3) 同様にドメインの最後をマークし、アライメントする。

  

 

 


  

 

(4) ドメイン全体を選択し、アライメントする。