2015年10月15日 星期四

製作演化樹的簡單做法

物種的演化樹
必備的材料當然是有興趣的物種的核酸或蛋白質序列了!
有了序列過後,強大的工具也是必須的。
今天所學到的工具有:
BioEdit
Phylip
TreeView
Hypertree


BioEdit
一開始使用一組已知序列 (SEQ01~SEQ10)
在安裝好BioEdit過後開啟
開啟新的Alignment


















新的Alignment打開後,左上角的File才會出現“import”字樣,選擇"Sequence alignment file".


在文件類型中,選擇 "All Files",才可以看到想要使用的檔案( .fasta)



打開後,即可看到下圖排列整齊的序列

隨後就是將這十組序列排列整齊,我們使用 "ClusterW" 的工具將序列排列整齊




在開始RUN之前,先將"Bootstrap"取消勾選,因為之後再分析時會在使用一次。



開始RUN過後,就可以看到序列已經排列整齊了。



將分析的結果存起來,存檔時選擇 "Phylip 4" 的格式

這樣就完成BioEdit的部分了。
到這裡會得到一個 .phy 的檔案,作為後續分析的一個模板。


Phylip
第一次使用Phylip時,覺得這是個神奇的工具,整個文件夾內包含了許多的程式。
至於有哪些程式,就不一一說明了,壓縮檔載了自己試。

所有的步驟都跟著以下這張圖為主



















將BioEdit的輸出檔案應用在此軟體中,不過有個重要細節要改變。
BioEdit輸出檔案的檔名的副檔名為 .phy,Phylip內的程式的輸入檔都是使用 "infile" 這個不包含副檔名的檔名。
Ex:
以BioEdit輸出檔 " Test01.phy" 為例,其檔名需改成 "infile" 且不含有任何副檔名,才能讓phylip中的程式所讀取。









若用NotePad打開"infile",可以看到與BioEdit界面內ClusterW執行後相似的畫面



















檔名修改完畢後,直接打開"seqboot.exe"


phylip內的軟體特別的地方就是都是指令界面,不是一般常見的圖形界面。
使用起來很新穎但是卻不容易判別指令與其對應的內容。
下圖:seqboot.exe的工作界面。



















按D:選擇輸入檔案內容的種類
按J:選擇功能
按R:選擇複製的次數
按Y:確認並執行

接著會問進一步的問題,如下圖所示,程式詢問"Random number seed"并指定奇數,通常都會用"1"。



















確認後就會執行,執行完畢後便會自動輸出一個"outfile"的檔案。









用NotePad打開"outfile"可以看到一百次類似于"infile"的內容。



















在執行另一個程式前,需將檔名從"outfile"改成"infile",但是這會取代之前使用的"infile",所以在改"outfile"前,先改舊的"infile",通常會在後面加"01",方便留存。

接下來又回到流程圖了。這時候有兩個選擇:
1. Distance-Based method 橙框(上)
2. Character-Based method 橙框(下)
現在以 Distance-Based method 為主,先以 "PROTDIST.EXE" 為例,主要計算目標蛋白在演化上的距離。
打開後界面就跟 "seqboot.exe" 打開後的界面一樣,視窗裡面有多個狀態欄,可以讓你知道一些分析的設定值。以 "M" 為例,程式詢問 "infile" 的內容是否是多組的資料。答案是 "YES",因為我們在 "Seqboot.exe" 那裡已經設定了重複了100次的隨機排序。
設定 "M" 的方法也很簡單,直接在鍵盤上按 "m" 建並確定就好了。確定過後如下圖,程式會再問是哪種multiple數據,回答後再接著問一共有多少組數據。這時候應該回答的答案就要與 "Seqboot.exe" 里設定的次數是一樣的。


















這時候程式需要一點時間才能完成它的任務,所需的時間由數據的數量決定。



















終於............結束了!其實也沒有跑很久啦~~~
結束的畫面就這樣啦~最後會得到一個 "outfile" 啦~~
然後就照著視窗裡面的指令 "Press enter to quit." 來結束程式吧~



















確認一下程式的輸出文件 "outfile" 。
如下圖所示,一堆意義不明的數字!=.=
其實是序列之間的距離,可以不用管它,做到最後就知道了。



















接下來就是跟之前一樣,將 "outfile" 改成 "infile"...前,先把之前的 "infile" 改成 "infile02",至於為什麼是 "02" 不是 "01",你就勇敢地試試看你就知道了!
改完名字後,打開 "neighbor.exe" 。
右邊兩個反白的文件是neighbor.exe的輸出檔,在這裡沒什麼作用,不要理他XD









打開後可以看到下方的視窗,"N" 選項中有 "Neighbor-joining" OR "UPGMA" 兩種分析設定,通常比較常用前者,"UPGMA"的用途尚不知。
跟前面的步驟一樣,選擇 "M" 修改,並輸入之前設定的"100",外加上隨機參數 "1" (可隨意設定,但必須是奇數)
全部設定完成後,就直接按 "Y" 開始執行,執行過程迅速,結束畫面如下圖。這時候出現了兩個輸出檔案,一個是 "outfile" 另一個是 "outtree"。
用Notepad將 "outfile" 打開後,可以看到許多樹狀圖,但那並不是我們想要的,而是100筆數據隨機組合而成,但並不是最終想要的樹狀圖。



















同樣的方式再打開 "outtree",可以看到跟 "infile" 差不多但是更緊密的數字海....
雖然無法很明瞭地看懂其中的意義,但是可以觀察到多了許多括號,這些括號可能是說明樹狀結構的關係。
沒有什麼意義的 "outfile" 就可以果斷的刪除吧~因為之後沒什麼用了。
最後再把 "outtree" 改成 "intree" 。
將 "Consense.exe" 打開,這個程式只會打開 "intree" 檔案,並不會打開 "infile" 檔案,所以不需要先將之前的 "infile" 更改名字。
"Consense.exe" 的視窗更簡單,且不需要更改任何設定就可執行。
直接按 "Y" 開始執行,結束後輸出檔案跟上一個程式輸出的一模一樣,都有 "outfile" & "outtree"。

一樣來看一下 "consense.exe" 的輸出檔 "outfile" 以及 "outtree" 的內容。
首先是 "outfile",結果已經不像之前的 "outfile" 那樣密密麻麻且看不出所以然的數字了,而且最後還把序列之間的關係畫出來並顯示出序列之間的距離。


接下來換成 "outtree" 。
打開後發現內容就只有區區的三行罷了!
"outtree" 是作為 phylip分析過程中最後一個產物,也是產生 "tree" 的一個重要的數據。
在phylip之後,就是 "tree" 的呈現了。
這時候有兩個軟體可以呈現 "tree" :
1. "TreeView"
2. "HyperTree"
各有各的用法,接下來再介紹一下可以產生出什麼樣的 "tree" 。

TreeView
安裝完畢後直接開啟桌面的圖示或是在安裝文件夾內打開 "tv.exe",即可看到以下視窗
將 Phylip 的產物 "outtree" 直接拖進 "treeview" 的視窗內即可打開檔案。
在視窗上方的工具列上可以找到不同類型的 "tree" 可供切換,結果如同以下三張:















前兩張的差異在於其呈現圖形,而第三張與前兩張的差異則在於存在著 “距離” 的單位。


HyperTree
這個軟體不需要進一步的安裝(portable),打開後就可以直接用了。
打開後就馬上發現這個軟體沒辦法實現快速打開檔案,需要一步一步的透過程式內的 “開啟檔案” 功能才能順利打開檔案。以下目睹軟體的英姿:
打開後即可看到特別不一樣的 "tree"。這個 "tree" 有個神奇的地方,可以隨意切換視角!看起來就非常吸引使用者。

最後,一樣有好幾種呈現方式可以選擇。不過跟 "treeview" 不同,就是這是個無“根” "tree"。

視乎....是大功告成了!
讓我再仔細想想還有什麼需要補充的................

沒有留言:

張貼留言