配列データのアライメント

配列データのアライメント

例題データ：　Actin gene coding region

（１）「Translated Protein Sequences」タブをクリックし、アミノ酸配列を表示する。

（２）「Ctrl+A」で全配列の全領域を選択し、ClustalW（W）ボタンをクリックする。

（３）表示される「ClustalW Parameters」ダイアログボックス（左下図）の「OK」ボタンをクリックし、アライメントを行う。（DNA配列の場合、右下図のダイアログボックスが表示される。）

この条件で得られるアライメントのN末端領域（開始コドンのすぐ下流）のアライメント精度は通常よくない。アライメントの精度はDNA配列でも確認してみよう。

（４）アライメントの最上行（灰色）をドラグし、最初の10アミノ酸座 (amino-acid sites) だけ選択、アライメントしてみる。

（５）同じ領域について、「Gap Opening Penalty」（PairwiseとMultipleの2箇所）を「1」にしてアライメントしてみる。

※理想的には領域毎に適切な「Gap penalty」値を用いてアライメントを行うのがよい。

※構造・機能ドメインのような領域を区別するための情報がある場合、積極的に利用するとよい。

（６）「DNA Sequences」タブをクリックし、DNA酸配列に戻した後、MEGA フォーマットでデータファイルを保存する。

【参考】

ドメイン毎の部分アライメント

タンパク質の機能ドメインや遺伝子のエクソン・イントロン構造などが分かっている場合、部分毎にアライメントする方が良いことが多い。例えば、全データのアライメントでは、エクソン部位とイントロン部位がアライメントされるようなエラーが起こる可能性があるが、を未然に防ぐことができる。

（１）ドメインの先頭をマークする（メニューの[Alignment]-[Mark/Unmark Site]又はツールボタンをクリック、又は選択するサイトをCtrlキーを押しながらクリック）

　　注：　検索（[Search]-[Find Motif]）を用いてマークするサイト周辺を見つけやすくできる。

（２）メニューの[Alignment]-[Align Marked Sites]またはツールボタンのをクリックする（上図）とマークされたサイトがアライメントされる（下図）。

（３）同様にドメインの最後をマークし、アライメントする。

（４）ドメイン全体を選択し、アライメントする。