真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 生物信息學分析

生物信息學分析

時間:2023-08-17 18:04:59

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇生物信息學分析,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

生物信息學分析

第1篇

>> 擬南芥和大白菜YABBY蛋白家族的生物信息學分析 黃瓜DVR基因的生物信息學分析 新疆細粒棘球絳蟲EgAgB8/3蛋白的生物信息學分析及意義 人ALK-1近端啟動子的生物信息學分析 酵母轉錄因子結合位點保守性的生物信息學分析 FZ6基因及其蛋白的生物信息學分析 玉米谷胱甘肽過氧化物酶的生物信息學分析 歐文氏桿菌鐵代謝相關基因的生物信息學分析 丹參SmNAC1基因的克隆和生物信息學分析 小菜蛾p38MAPK基因的克隆與生物信息學分析 棉鈴蟲類胰蛋白酶的生物信息學分析 葡萄NAC轉錄因子的生物信息學分析 抗逆性轉錄因子NAC的生物信息學分析 沙棘WRI1轉錄因子基因的生物信息學分析 水稻2個F―box基因的生物信息學分析 小菜蛾PxALP1基因的克隆與生物信息學分析 白樺五個MYB轉錄因子的生物信息學分析 斑馬魚TATA結合蛋白的生物信息學分析 C3和C4植物中PEPC的生物信息學分析 丙酮醛誘導細胞凋亡相關基因SHMT2L的生物信息學分析 常見問題解答 當前所在位置:)和WOLFPSORT server(http://psort.nibb.ac.jp)預測蛋白質的亞細胞定位情況;利用在線軟件ScanProsite(http:///cgi-bin/prosite/ScanView)分析蛋白質所含模體;蛋白質二級結構預測和三維建模分別使用在線軟件SOPMA(http://npsa-pbil.ibcp.fr/cgi-bin/secpred_sopma.pl)和SWISS-MODEL完成[11]。

2 結果與分析

2.1 不結球白菜BcGAPDH蛋白質理化性質分析

對不結球白菜BcGAPDH氨基酸序列的理化性質進行分析,結果表明,該酶含有328個氨基酸,總相對分子量為35 161.2,理論等電點pI值為9.03,負電荷氨基酸(Asp+Glu) 37個,正電荷氨基酸(Arg+Lys)36個,分子式C1558H2507N433O473S9,原子總數

4 980,摩爾消光系數1.043(胱氨酸全按半胱氨酸計),該酶蛋白不穩定性參數為20.46,屬于穩定蛋白,其脂肪系數為99.54,平均親水性(GRAVY)為0.006,預測該蛋白質為水溶性蛋白質。

2.2 不結球白菜BcGAPDH蛋白質跨膜結構域及疏水性的預測和分析

用TMpred在線軟件對不結球白菜BcGAPDH氨基酸序列的跨膜結構域進行預測,結果(圖1)表明,不結球白菜BcGAPDH整條肽鏈都位于細胞膜外,說明其不存在跨膜區。此外,利用在線軟件PHDhtm和ANTHEPROT對該酶跨膜螺旋進行預測,結果與TMpred所預測的結果一致,即均沒有跨膜螺旋。因此,此被預測的跨膜螺旋區可信度較高。

蛋白質的疏水性分析是蛋白質二級結構以及三級結構預測中一個必要過程,通過分析可以得到蛋白質的親疏水區域,一方面為二級結構預測結果提供參考,另一方面為結構域以及功能域的劃分提供依據。因此,對不結球白菜BcGAPDH氨基酸序列進行疏水性分析,結果(圖2)表明,多肽鏈第304位的氨基酸具有最低分值-4.500,親水性最強;第212位的氨基酸具有最高分值4.200,疏水性最強。整體來看,親水性氨基酸均勻分布在整個肽鏈中,且多于疏水性氨基酸。因此,整個多肽鏈表現為親水性,沒有明顯的疏水區域,可認為不結球白菜BcGAPDH是親水性蛋白質。結合跨膜結構域的預測結果,可以推斷不結球白菜BcGAPDH不存在明顯的疏水區域,與其不存在跨膜結構域的特征相吻合。

2.3 不結球白菜BcGAPDH信號肽及亞細胞定位的預測和分析

信號肽分析有助于蛋白質功能域的區分及蛋白質細胞定位。SignalP v3.0軟件是神經網絡、隱馬爾科夫模式工具[12],將不結球白菜BcGAPDH的ORF通過該軟件分析(圖3),獲得ORF的Cmax值為0.083、Ymax值為0.083、Smean值為0.561、Smean值為0.182,前3個值的位點分別在第25、25、1位。根據軟件的默認選擇,將Cmax值>0.5和Smean值>0.5的ORF確定為具有信號肽。根據分析結果,此信號肽計算結論為NO,表示沒有信號肽存在。

對基因產物在亞細胞位置的了解對判定這些基因產物的功能起著重要作用。用Target P server程序進行不結球白菜BcGAPDH蛋白質的亞細胞定位,結果表明,基本確認BcGAPDH蛋白質在線粒體中發揮生物學作用,氨基酸序列長度為328個,定位于葉綠體、線粒體和其他細胞部分的得分分別為0.031、0.745、0.572,作為信號肽的可能性為0.018,軟件的最終定位預測在線粒體,可信度為5。用 Subloc V server和WOLFPSORT server程序進行驗證分析,結果一致。

2.4 不結球白菜BcGAPDH蛋白質的模體分析

將不結球白菜BcGAPDH蛋白質的氨基酸序列利用在線軟件ScanProsite進行分析,發現其含有多種模點(圖4),其中包括1個氨基化合物位點(M1),1個依賴于cAMP或cGMP的蛋白質激酶磷酸化位點(M2),6個酪蛋白激酶Ⅱ磷酸化位點(M3),3個N-糖基化位點(M4),6個N-肉豆蔻?;稽c(M5),4個蛋白質激酶C磷酸化位點(M6)。

2.5 不結球白菜BcGAPDH蛋白質二級結構的預測分析

利用SOPMA在線工具預測不結球白菜 BcGAPDH蛋白質的二級結構,結果如圖5所示,BcGAPDH含有比較豐富的二級結構,由112個氨基酸殘基組成α螺旋結構,占全部氨基酸殘基的34.15%;82個氨基酸殘基組成延伸鏈,占全部氨基酸殘基的25.00%;由21個氨基酸殘基組成β轉角,占全部氨基酸殘基的6.40%;由113個氨基酸殘基組成隨機卷曲,占全部氨基酸的34.45%??梢钥闯?,隨機卷曲和α-螺旋是BcGAPDH多肽鏈中的主要結構元件,延伸鏈散布于整個蛋白質中。

2.6 不結球白菜BcGAPDH蛋白質三維結構的預測

將不結球白菜BcGAPDH氨基酸序列上傳到SWISS-MODEL的建模服務器中進行三維建模[13,14],然后在ViewerLite 4.2軟件中進行序列編輯,獲得BcGAPDH的三級結構模型,結果如圖6所示。

3 討論

GAPDH生物學的多功能性基于不同的研究結果,這些新的發現可以分為2組:第1組包括鑒定GAPDH新活性的研究,結果發現GAPDH有別于傳統的脫氫酶活性的新功能;第2組包括鑒定GAPDH與細胞內大分子的特異性結合,為GAPDH新功能提供了重要證據。

早期的研究證明GAPDH是一個膜結合蛋白[15],發現細胞中60%~70%的GAPDH能與膜結合,但不結球白菜BcGAPDH不具有該活性,因為通過本試驗分析該酶無跨膜區,是親水性蛋白質。另外,研究表明,GAPDH還具有磷酸轉移酶/激酶的活性,不僅能自身磷酸化,而且還能磷酸化其他蛋白質。本試驗對不結球白菜BcGAPDH蛋白質的模體分析發現,該酶包括蛋白質激酶磷酸化位點、酪蛋白激酶Ⅱ磷酸化位點和蛋白質激酶C磷酸化位點,表明BcGAPDH在不結球白菜體內具有磷酸化活性,BcGAPDH在其細胞病毒生理學上可能扮演著重要角色。

GAPDH廣泛存在于眾多生物體中,并且具有高度種屬保守序列,它作為一個多功能蛋白質,其結構與功能的關系仍有待研究。目前,GAPDH在機體的生理和病理狀態下的作用越來越引起有關學者的關注。但迄今為止,GAPDH在細胞中的功能還沒有完全搞清楚,因此,本試驗對不結球白菜BcGAPDH結構和功能的分析將有助于研究者進一步了解GAPDH反應的機制及所需條件。

參考文獻:

[1] 李曉澤,劉關君,楊傳平,等.西伯利亞蓼甘油醛-3-磷酸脫氫酶基因的cDNA克隆與序列分析[J].植物生理學通訊,2007,43(1):41-48.

[2] NAKAGAWA T,HIRANO Y,INOMATA A,et al. Participation of a fusogenic protein, glyceraldehyde-3-phosphate dehydrogenase, in nuclear membrane assembly[J]. J Biol Chem,2003, 278(22):20395-20404.

[3] TISDALE E J. Glyceraldehyde-3-phosphate dehydrogenase is required for vesicular transport in the early secretory pathway[J]. J Biol Chem,2001,276(4):2480-2486.

[4] TISDALE E J,KELLY C,ARTALEJO C R. Glyceraldehyde-3-phosphate dehydrogenase interacts with rab2 and plays an essential role in endoplasmic reticulum to golgi transport exclusive of its glycolytic activity[J]. J Biol Chem,2004,279(52): 54046-54052.

[5] ENGEL M, SEIFERT M, THEISINGER B, et al. Glyceraldehyde-3-phosphate dehydrogenase and Nm23-H1/nucleoside diphosphate kinase A. Two old enzymes combine for the novel Nm23 protein phosphor transferase function[J]. J Biol Chem, 1998,273(32):20058-20065.

[6] MEYER-SIEGLER K,MAURO D J,SEAL G,et al. A human nuclear uracil DNA glycosylase is the 37-kDa subunit of glyceraldehyde-3-phosphate dehydrogenase[J]. Proc Natl Acad Sci USA,1991,88(19):8460-8464.

[7] ANDRADE J,PEARCE S T,ZHAO H,et al. Interactions among p22, glyceraldehyde-3-phosphate dehydrogenase and microtubules[J]. Biochem J,2004,384(2):327-336.

[8] RAJE C I,KUMAR S,HARLE A,et al. The macrophage cell surface glyceraldehyde-3-phosphate dehydrogenase is a novel transferrin receptor[J]. J Biol Chem,2007,282(5):3252-3261.

[9] GASTEIGER E,HOOGLAND C,GATTIKER A,et al. The Proteomics Proto-cols Handbook[M]. Totowa,New Jersey:Humana Press,2005.

[10] HOFMANN K,STOFFEL W. TMbase-A database of membrane spanning proteins segments[J]. Biological Chemistry Hoppe-Seyler,1993,374:1-6.

[11] SODING J, BIEGERTA, LUPASA N. The HHpred interactive server for protein homology detection and structure prediction[J]. Nucleic Acids Research,2005,33:244-248.

[12] BENDTSEN J D, NIELSEN H, VON HEIJNE G, et al. Improved prediction of signal peptides:SignalP 3.0[J].J Mol Biol,2004,340:783-795.

[13] SCHWEDE T,KOPP J,GUEX N,et al. SWISS-MODEL:An automated protein homology-modeling server[J]. Nucleic Acids Research,2003,31(13):3381-3385.

第2篇

【摘要】 目的: 分析肉毒毒素E型重鏈(BoNT/E HC)的抗原表位及空間結構。方法: 利用在線生物信息學分析工具以及其它分析軟件分析重鏈蛋白的抗原表位和空間結構。結果: 預測并顯示了肉毒毒素E型重鏈的空間結構圖,以及9個可能的重鏈的B細胞抗原表位,靜電勢圖揭示了重鏈分子結構域的兩性特點。結論: 抗原表位的預測對于E型肉毒毒素相關診療試劑的開發有指導意義,而結構域的極性分析提示其等電點的不同可能在pH介導的穿膜中起了作用。

【關鍵詞】 肉毒毒素類; 抗原; 表位,B淋巴細胞; 氨基酸序列; 基因重排,B淋巴細胞,重鏈

Bioinformatic Analysis of Botulinum Neurotoxin

[Abstract] Objective: To analyze botulinum neurotoxin type E heavy chain (BoNT/E HC) antigen epitopes and its spatial structure. Methods: Online bioinformatic analysis tools and some other analysis softwares were used. Results: Tertiary structure of BoNT/E HC chain was anticipated and demonstrated. Nine possible antigen epitopes of the HC were predicted, and electrical potential map revealed the amphoteric domains of the HC. Conclusions: The predicting of antigen epitopes is of importance to the exploiting of BONT/E related agents, and domain analysis suggests domain′s pI is important to pH mediated membrane-passing.

[Key words] botulinum toxins; antigens; epitopes,B-lymphocyte; amino acid sequence; gene rearrangement,B-lymphocyte,heavy chain

肉毒毒素是肉毒梭菌分泌的外毒素,具有抑制外周神經末梢釋放膽堿神經遞質,麻痹肌肉的毒性作用,微克量級的毒素可致成人死亡,它被認為是已知的毒性最強的物質。肉毒毒素根據血清型分為A、B、C、D、E、F和G7個類型,對人類常見的致病血清型主要是A、B和E型。對于肉毒毒素的結晶和結構分析的相關研究主要集中在A、B兩型,而且各型抗原性差別主要在于重鏈,尤其是受體結合結構域。2007-2008年,利用生物信息學技術,對E型重鏈的三級結構以及抗原表位進行了分析,判定其潛在的抗原表位,為E型肉毒毒素相關的診療試劑的開發提供理論依據。同時,在肉毒毒素中毒機理的相關研究中,分析了BoNT/E HC(heavy chain)的不同結構域的等電點,繪制出三維的靜電勢圖像,顯示了組成HC的2個結構域的酸堿雙極性,提示在pH誘導的穿膜機制中,這種不同亞基的等電點和靜電勢的差異是重要的分子理化基礎。

1 材料與方法

1.1 BoNT/E HC蛋白的氨基酸序列及結構分析

從NCBI網站GenBank獲取全長BoNT/E型肉毒毒素的氨基酸序列(GenBank accession number CAA44558)[1]。第一位M翻譯后被切去,其全長共1 251個aa,近前1/3位置處的G419-R421三肽被蛋白酶切去后,單鏈蛋白分為輕重2條肽鏈,其中重鏈編碼830個氨基酸(K422~K1251),輕鏈編碼418個氨基酸(P1~K418)[2]。輕鏈和重鏈通過二硫鍵而連接在一起。重鏈的氨基酸序列如圖1所示。

1.2 BoNT/E HC的基本理化性質

使用anthewin軟件分析BoNT/E HC全長,以及2個各約50 kD的結構域,即重鏈N末端的跨膜轉運結構域HN (K1~Y408)和重鏈C末端的神經細胞特異性結合結構域HC (T409~K830)的等電點。

1.3 BoNT/E HC的抗原表位預測

使用anthewin軟件系統分析,采用其中的GOR算法,預測二級結構,尋找轉角易形成區域;采用Hopp & Woods算法,進行親水性預測,預測蛋白質中的親水區域;采用Boger & al.算法,進行可及性預測,預測蛋白質中的溶劑可及性區域;采用Parker方案,進行抗原性指數分析,分析抗原性。對各個參數的結果進行綜合分析,最后確定B細胞表位的可能位點[3]。

1.4 BoNT/E HC的空間結構預測

利用在線的SWISS-MODEL軟件進行3級結構的同源建模,預測蛋白質的空間構象,并通過Vector NTI suite軟件顯示蛋白質的3D結構圖,并將BoNT/E HC的抗原表位標記在三維結構圖上[4]。利用Swiss-PdbViewer 3.7計算BoNT/E HC的靜電勢并顯示三維圖像。

2 結果

2.1 BoNT/E HC的一般理化性質分析

利用anthewin軟件對BoNT/E HC和其HN結構域和HC結構域進行理化性質分析。HC全長分子量為95.7 kD,等電點為5.175。HN結構域的等電點為4.365,HC結構域的等電點為9.145。

2.2 BoNT/E HC的B細胞抗原表位的預測

本研究從4個方面對BoNT/E HC的抗原表位進行預測,即二級結構中形成轉角的可能性、親水性、可及性和抗原性。Anthewin軟件的具體分析結果見圖2和表1。

綜合不同的預測方法,發現其共有序列為:18-32、78-83、193-199、274-279、433-441、521-526、574-579、675-682、801-811,即為預測的可能的B細胞抗原表位。其中18-32、78-83、193-199、274-279 4個表位位于HN結構域,433-441、521-526、574-579、675-682、801-811 5個表位位于HC結構域。

2.3 重鏈的三維結構圖以及預測的線性表位的位置表1 BoNT/E HC的B細胞抗原表位分析氨基酸序列與蛋白結構數據庫中的蛋白質3級結構進行匹配,將結果在vector NTI suite軟件中打開,觀察BoNT/E HC的三維結構和結構域組成。如圖2所示,BoNT/E HC分子含有2個結構域,分別為HN跨膜轉運結構域和HC神經細胞特異性結合結構域,前者含有2個α螺旋和1個loop結構,后者包含2個亞結構域。

利用vector NTI suite軟件將預測的抗原表位標記在結構圖中,觀察表位所處的空間位置,驗證預測的抗原表位的可行性。如圖3、圖4所示,分析結果為所預測的抗原表位均位于BoNT/E HC的蛋白質分子表面,其中HN結構域中的274-279表位可能會受到loop結構的空間位阻的影響,HC結構域中的574-579表位可能會受到α螺旋的部分影響,其余的7個抗原表位均有較好的空間可及性。注:左側為HC神經細胞特異性結合結構域,右側為HN跨膜轉運結構域的2個α螺旋和loop結構,箭頭所示為抗原表位的位置

2.4 BoNT/E HC的靜電勢

將SWISS-MODEL的3級結構預測結果在Swiss-PdbViewer中打開,計算靜電勢并圖像顯示。如圖5所示,該蛋白的HN結構域的電負性很強,而HC結構域的電正性很強,這與該蛋白質做理化分析時發現的這2個結構域的等電點分別為4.385和9.165相一致。注:圖中紅色表示電負性,藍色表示電正性。可見HN結構域的2個α螺旋和 loop為電負性,HC結構域為電正性

3 討論

通過NCBI的GenBank中找到BoNT/E全長的氨基酸序列,其中K422~K1251共830個氨基酸為毒素重鏈,重鏈HC可以劃分為HN跨膜轉運結構域和HC神經細胞特異性結合結構域。

雖然對BoNT的A型、B型的全長結晶結構研究較多,但E型僅有對其輕鏈的結晶結構研究報告。本文利用在線的SWISS-MODEL軟件預測并繪制了BoNT/E重鏈的空間結構圖,三維圖像顯示其N末端為HN結構域中套索狀的的loop結構,中間區域為HN結構域中的2個長α螺旋為中心形成的圓柱體,C末端為HC結構域中的2個亞結構域,分別是近N端的lectin-like domain和受體結合域所在的近C端的β-trefoil fold[5,6]。此三維圖像顯示的結構與文獻中描述的A型和B型肉毒毒素的結構相一致。

利用生物信息學軟件anthewin中的2級結構分析、抗原性分析、親水性分析和可及性分析,綜合分析BoNT/E HC的抗原表位,共在HN結構域中找到4個抗原表位18-32、78-83、193-199、274-279,在HC結構域中找到5個抗原表位433-441、521-526、574-579、675-682、801-811。將這9個表位利用vector NTI suite軟件標在該蛋白的三維立體結構圖中,提示表位272-277可能會受到loop結構的空間位阻的影響,表位572-577可能會受到α螺旋的位阻影響,其余的7個抗原表位均有較好的空間可及性,從而驗證了抗原表位的可行性,并為合成抗原肽、制備該蛋白的特異性抗體、開發疫苗和檢驗試劑提供了理論依據。通過肉毒毒素A、B和E 3型間的序列比較,分析所得的抗原表位序列的保守性,可以發現78-83、274-279、675-682、801-811的保守性差,可以考慮用作肉毒毒素的型間鑒別。另一方面,通過對這些潛在的抗原位點進行改造,獲得低免疫原性的毒素分子,有望解決肉毒毒素在美容抗皺治療中出現的耐受現象。劉艷華等[7]對E型肉毒毒素重鏈的抗原表位也做了預測,比較發現與本文預測的274-279、433-441、675-682 3個位點與其相同,其他位點均不同,可能與不同的預測方法有關,實際的可行位點還需通過免疫實驗進一步驗證。

由于肉毒毒素分子亞基的相對獨立性和劃分的相對明確性的特點,使得我們可以將亞基作為獨立的多肽鏈進行分析。BoNT/E重鏈的HN、HC的理化性質顯示,HN的pI為4.385,HC的pI為9.165。利用Swiss-PdbViewer軟件,計算并顯示BoNT/E HC的三維結構靜電勢圖,顯示HN結構域有較強的電負性,HC結構域有較強的電正性,這與結構域的等電點預測相一致。眾所周知,肉毒毒素可以結合膽堿能神經元末稍,并使其輕鏈進入胞漿,抑制神經遞質囊泡的釋放。具體機制的探討中發現,被吞入內體中的毒素分子在酸性環境中,重鏈HN跨膜轉運結構域可以穿入內體脂雙層膜,形成跨膜通道,并將輕鏈送入胞漿,而HN的具體穿膜機制尚不清楚[8,9]。本文對BoNT/E分子的不同結構域的等電點分析以及靜電勢分析中,可以給出以下推測,肉毒毒素通過腸道入血液后,在pH約7.4的中性環境中,HN和HC結構域分別帶較強的負電荷和正電荷,表現為較強的極性,有較好的水溶性,當毒素和神經細胞受體結合并被吞入內體中,進入pH約5的酸性環境中,從而使HC端的極性增強而HN端的極性減弱,進而有利于HN的穿膜,至于HC端的極性增強對毒素和受體分子親和力的影響尚不確定。

參考文獻

[1] Whelan SM, Elmore MJ, Bodsworth NJ. The complete amino acid sequence of the Clostridium botulinum type-E neurotoxin, derived by nucleotide-sequence analysis of the encoding gene[J]. Eur J Biochem, 1992(2): 657-667.

[2] Antharavally BS, Dasgupta BR. Covalent structure of botulinum neurotoxin type E: location of sulfhydryl groups, and disulfide bridges and identification of C-termini of light and heavy chains[J]. J Protein Chem, 1997(8):787-99.

[3] 史晶, 蔭俊, 王慧. A型肉毒毒素Hc片段B細胞表位預測[J]. 生命科學研究,2004(8):139-142.

[4] Schwede T, Kopp J, Guex N, et al. SWISS-MODEL:An automated protein homology-modeling server[J]. Nucleic Acids Res, 2003(13):3381-3385.

[5] Giampietro Schiavo, Michela Matteoli, Cesare Montecucco.Neurotoxins Affecting Neuroexocytosis[J]. Physlologlcal Reviews, 2000(80):718-766.

[6] Chaddock JA, Marks PM. Clostridial neurotoxins: structure-function led design of new therapeutics[J]. Cell Mol Life Sci, 2006(5):540-551.

[7] 劉艷華, 賈揚, 王景林.E型肉毒神經毒素(BoNT)基因序列分析及其B細胞表位預測[J]. 軍事醫學科學院院刊, 2006(5):419-423.

第3篇

【關鍵詞】 生物信息學;2型糖尿病;SLC30A8

【Abstract】 Objective To investigate the structure and function of type 2 diabetes gene (SLC30A8) by bioinformatic methods. Methods Based on the human genome resource database, the programs of BioEdit, DANMAN and on line tools SMART, MHMM Server v. 2.0, NetPhos2.0 Serve, 3djigsaw were used for the analysis of protein basic characters, 3D structure and function prediction. Results The protein of gene SLC30A8 encoding was a transmembrane protein,it was important to transport zinc. Conclusions Protein encoded by SLC30A8 gene probably regulates and controls insulin secretion.

【Key words】 Bioinformatics; Type 2 diabetes; SLC30A8

眾多研究顯示,遺傳因素在2型糖尿病(T2DM)發病中起著非常重要的作用〔1,2〕,但由于T2DM系多基因遺傳病,研究的進展非常緩慢,直到2005年,不管是采用候選基因法還是連鎖定位克隆法,只有極少數幾個T2DM的易感基因在一些種族的研究中得到重復驗證,而它們僅輕度增加T2DM的發病風險〔3〕。近2年多來,隨著高通量SNPS檢測技術的出現和全基因組關聯(GWA)研究策略的運用,T2DM遺傳學的研究取得了一些突破性進展,美國和歐洲多個基因研究組織采用全基因組分析法對1 464例T2DM患者和1 467例糖耐量正常個體的基因結構進行了系統研究,確認了幾個與糖尿病相關的新基因位點——TCF7L2、SLC30A8、CDKN2A、CDKN2B、GF2BP2、CDKAL1〔4〕,這些基因的功能和調控機制還不十分清楚。在國內,鄔瑩等〔5〕研究發現在中國漢族人群中,CDKAL1、CDKN2A/B、SLC30A8等基因上的數個SNP位點與T2DM風險顯著相關。SLC30A8基因也是中國人T2DM的一個易感基因,但對SLC30A8基因的研究還不夠深入。因此,本文利用生物信息學工具和數據庫,對SLC30A8進行分析,研究SLC30A8基因的功能,了解中國人糖尿病的遺傳學基礎,對預防和控制糖尿病具有重要的理論和臨床意義。

1 材料與方法

1.1 材料 人類糖尿病基因SLC30A8核苷酸序列來源于已經提交到GenBank數據庫(GI:224589820)的序列。

1.2 SLC30A8基因結構分析及SLC30A8基因編碼蛋白質的理化性質分析 通過NCBI的ORF Finder、Protparam、Computer pI/MW確定其完整編碼框并預測蛋白質的理化性質;信號肽序列分析采用SignalP工具;蛋白質翻譯后修飾的糖基化位點和磷酸化位點分析分別采用DictyOGlyc在線軟件和NetPhos 2.0 Server分析;氨基酸序列的同源性比對用ClustalW在線工具完成,通過蛋白分析專家系統Expasy所提供的在線分析工具ProtScale分析蛋白的疏水性。

1.3 SLC30A8基因編碼蛋白質的結構和功能分析 利用互聯網ExPaSy數據庫進行SLC30A8蛋白質的跨膜結構域分析;利用PUMA2服務器的SOPM軟件進行蛋白序列的二級結構的分析;利用ExPasy的3djigsaw工具(bmm.icnet.uk/servers/3djigsaw/)向蛋白質立體結構數據庫PDB(Protein Data Bank)提交蛋白質的序列;利用RasMol軟件顯示蛋白的三維分子結構。利用在線工具TMHMM分析蛋白質的跨膜結構域;利用COILS進行卷曲螺旋分析;利用Pfam進行蛋白的結構域功能分析〔6〕。

2 結 果

2.1 SLC30A8在染色體上的定位及基因結構 人類糖尿病基因SLC30A8的Gene ID是169 026,定位在8q24.11。SLC30A8基因核苷酸序列全長41 617 bp(NC000008.9),含8個外顯子。mRNA序列長5 373 bp,編碼369個氨基酸的蛋白質(NP776250),有2個PolyA信號區域分布位于1 933~1 938、 5 353~5 338,5個PolyA位點分別位于1 955、1 961、2 750、2 754、5 373。見表1。表1 SLC30A8外顯子序列和對應的mRNA序列

2.2 SLC30A8基因編碼的蛋白基本性質分析

2.2.1 開放閱讀框(ORF)分析 ORF從第231個核苷酸開始,終止于第1 340個核苷酸,由其推導的氨基酸序列以甲硫氨酸為起始氨基酸,長為369個氨基酸。

2.2.2 疏水性分析 疏水性是氨基酸的一種重要性質,疏水性氨基酸傾向于遠離周圍水分子,將自己包埋進蛋白質的內部,這一趨勢加上空間立體條件和其他一些因素最終決定了一個蛋白質折疊形成的三維空間構象〔7〕。通過分析可以得到蛋白質的親疏水區域,這一結果一方面為二級結構預測結果提供參考,另一方面還可為結構域及功能域的劃分提供依據。ProtScale預測結果表明:疏水性最大值為3.044,最小值為-2.889(圖1)。

圖1 SLC30A8氨基酸序列的疏水性2.2.3 信號肽、跨膜結構域及翻譯后修飾分析 進行信號肽分析有助于蛋白質功能域的區分及蛋白質細胞定位。根據SignalP分析,蛋白質C分值、Y分值和S分值分別在248、157和150位點,分別為0.142、0.228和0.833,其信號肽計算結論為“NO”,表明其N端不含信號肽(圖2),推測其不是分泌蛋白。圖2 SLC30A8氨基酸序列的信號肽預測分析

跨膜結構域是膜中蛋白和膜脂相結合的主要部位,它可能作為膜受體起作用,也可能定位于膜的錨定蛋白或離子通道蛋白等,通過跨膜結構域預測可以正確認識蛋白質結構、功能及在細胞中的作用部位。筆者利用通過TMPRED服務器分析,表明該蛋白質是一個6次跨膜的蛋白質,在4和5螺旋之間有一個富含組氨酸的環(圖3)。用Smart對 SLC30A8基因的產物進行蛋白質序列結構功能域分析,結果表明蛋白質含有2個N糖基化位點,2個N?;稽c。NetPhos 2.0Server磷酸化位點分析結果表明:分值>0.5的磷酸化位點有:絲氨酸(Ser)磷酸化位點8個、蘇氨酸(Thr)磷酸化位點1個、酪氨酸(Tyr)磷酸化位點2個,計11個磷酸化位點,這些位點均勻分布于整個多肽鏈中。見圖4。圖3 SLC30A8氨基酸序列的跨膜結構域分析圖4 SLC30A8氨基酸序列的磷酸化位點分析 圖5 SLC30A8蛋白質三級結構的同源建模2.3 基因編碼蛋白質結構分析

2.3.1 三級結構構建與功能域分析 圖5可見,三級結構是蛋白質結構預測的最終目的。要充分研究蛋白質的功能,就需把蛋白質的高級結構研究清楚。從氨基酸序列預測三級結構的技術很多,其中之一是同源建模,它通過比較未知結構蛋白質序列與已知結構的蛋白質序列來預測蛋白質結構,可以通過同源建模以擊中序列的已知結構為模板,對蛋白質進行精確的結構模型構建。作者利用Expasy的3djigsaw工具預測蛋白質的三維結構,利用Ramol軟件察看預測結果。

hhhhhhhhcccccccccccchhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhcccc

WHRAEILGALLSILCIWVVTGVLVYLACERLLYPDYQIQATVMIIV

eeeeeeeeeeehhhhhhhhhhhhhhhhhhhccccchhhhhhhhhhhhhhhhhhhhhh

SSCAVAANIVLTVVLHQRCLGHNHKEVQANASVRAAFVHALG

hhhhhhhhheeeccccccchhhhhhhhhhhhhhhhhhhhhhhheeehcccccccc

DLFQSISVLISALIIYFKPEYKIADPICTFIFSILVLASTITILKDFSILL

chhhhhhhhhhcchhhhhhheehhhchhhhhhhhhhhcccccchhhhhhhhhhhhh

MEGVPKSLNYSGVKELILAVDGVLSVHSLHIWSLTMNQVILSA

HVATAASRDSQVVRREIAKALSKSFTMHSLTIQMESPVDQDP

DCLFCEDPCD

hccceceeeeeecccccccccccccccccc(總長度369 bp)

圖6 SLC30A8氨基酸序列的二級結構分析

3 討 論

從以上的研究和分析可以看出,糖尿病相關基因SLC30A8編碼的蛋白質是一種多次跨膜蛋白,并且蛋白經過了多種形式的修飾。磷酸化和去磷酸化是細胞內信號傳導的重要方式,而此蛋白有11個位點發生了磷酸化,蛋白質通過磷酸化和去磷酸化而發生構象改變導致其活性或性質的改變,從而調節細胞中各個生命活動過程, 所以推測SLC30A8基因編碼的蛋白質是一個有功能的比較活躍的蛋白質。另外蛋白質還發生了糖基化和?;?,推測蛋白質具有傳導信號的功能。研究表明SLC30A8編碼的是一種在胰島細胞大量表達的鋅離子轉運蛋白,其主要功能是將胞漿內的鋅離子轉運到胰島素分泌囊泡中,參與胰島素結晶六聚體的形成〔8〕。因此推測SLC30A8異常,可能會影響胰島細胞胰島素的正常分泌。本文利用生物信息學工具盒數據庫資源對SLC30A8基因的染色體定位、基因結構及所編碼的蛋白質性質、結構等進行了分析,為進一步研究SLC30A8基因在糖尿病發生中的作用提供參考依據。目前關于SLC30A8基因的研究還很少,其編碼的蛋白質是如何調控鋅離子轉運的以及如何參與胰島素分泌的都將有待于進一步研究。

參考文獻

1 Kahn SE.The importance of betacell failure in the development and progression of type 2 diabetes〔J〕.J Clin Endocrinol Metab, 2001;86(19):404758.

2 Bergman RN,Ader M,Huecking K,et al.Accurate assessment of βcell function.The hyperbolic correction〔J〕.Diabetes,2002;51(suppl 1):21220.

3 Sladek R,Rocheleau G,Rung J,et al.A genomewide association study identifies novel risk loci for type 2 diabetes〔J〕.Nature,2007;445(7130):8815.

4 Scott LJ,Mohlke KL,Bonnycastle LL,et al.A genomewide association study of type 2 diabetes in Finns detects multiple susceptibility variants〔J〕.Science,2007;316(5829):13415.

5 Wu Y,Li HX,Ruth J,et al.Common Variants in CDKAL1,CDKN2A/B,IGF2BP2,SLC30A8,and HHEX/IDE Genes are associated with type 2 diabetes and impaired fasting glucose in a chinese han population〔J〕. Diabetes,2008;57(10):283442.

6 薛慶中.DNA和蛋白質序列數據分析工具〔M〕.北京:科學出版社,2009:7298.

第4篇

【關鍵詞】金鐵鎖;糖基轉移酶;生物信息學

【中圖分類號】R9141【文獻標志碼】 A【文章編號】1007-8517(2017)04-0023-04

Cloning of PtT1 genes of Psammosilene tunicoides and BioinformaticsLI YuanLI GuodongZHANG Aili*QIAN Zigang*

Engineering Research Center for Reproducing Fine Varieties of Chinese Medicinal Plants, Yunnan University

of Traditional, Chinese Medicine, Kunming 650500, ChinaAbstract:Subject To clone the glycosyltransferase gene(PtT1) in Psammosilene tunicoides, and to analyze the bioinformation of PtT1. Methods cDNA was reversely transcriped according to the Transcriptome Sequencing. The protein characteristics was analyzed and the phylogenetic tree of PtT1 was constructed using the bioinformatics. ResultsThe 1529bp sequence in P. tunicoides was obtained, which has a 1377bp ORF, encoding 458 amino acids. The protein molecular weight was5125KD, with the isoelectric point of 580. The protein was located at mitochondria. The PtT1 in P.tunicoides was most similar with Dianthus caryophyllus DcT227 by NCBI blast. Conclusions The PtT1 in P. tunicoides was successfully cloned and analyzed, which provides the foundation for this gene function characterization.

Keywords: Psammosilene tunicoides; Glycosyltransferase; Bioinformation

植物中化合物的糖基化是一種很普遍的生理現象,是植物細胞維持代謝平衡的主要機制之一[1]。糖基轉移酶則是負責催化分子糖基化修飾反應的酶,其可將活性糖基從尿嘧啶核苷二磷酸-葡萄糖(UDP-glucose)轉移至次級代謝物及植物內外源毒性物質等一系列植物小分子化合物受體中[2]。糖基化經常是次生代謝產物主要的后修飾方式,往往修飾合成途徑中的最終一步或幾步。植物三萜皂苷類次生代謝產物,往往都具有較高的藥理活性價值。其合成途徑可前體形成,骨架構建及后修飾等三個過程[3]。次生代謝產物結構的基本骨架形成之后,經過細胞色素P450 酶和糖基轉移酶等一系列關鍵酶基因的后修飾,最終形成眾多種類繁多的三萜皂苷[4]。

金鐵鎖來源于石竹科金鐵鎖屬植物金鐵鎖Psammosilene tunicoides W C Wu et C Y Wu的干燥根[5]。主要分布在云南、貴州、等省,為云南的道地藥材[6],是云南白藥等中成藥的重要主要組成藥之一。其活性成分為齊墩果烷型的三萜總皂苷[7-8],具有顯著鎮痛、抗炎等的藥理活性[9-10]。目前,參與金鐵鎖三萜皂苷合成途徑前體形成,骨架構建等過程的關鍵酶基因都已有報道[11-12],而后修飾環節中的糖基轉移酶基因還未見報道。

鑒于此,本研究根據前期轉錄組數據,通過設計特異性引物克隆了一條金鐵鎖PtT1家族基因,命名為PtT1,并采用生物信息學軟件對其蛋白質理化性質、Y構特征、功能及系統演化關系等進行了預測分析。結果將為金鐵鎖PtT1基因的功能鑒定研究奠定基礎,揭示金鐵鎖三萜皂苷的分子形成機制。

1儀器與材料

11植物材料金鐵鎖采集于云南省麗江市,經云南中醫學院錢子剛教授鑒定為石竹科金鐵鎖屬植物金鐵鎖Psammosilene tunicoides WCWu et C Y Wu。

12儀器高速冷凍離心機(eppendorf);穩壓穩流電泳儀(BIO-RAD公司);DYC-33A微型電泳槽(BIO-RAD公司);凝膠成像系統(BIO-RAD公司);PCR反應擴增儀(BIO-RAD公司);移液槍(范圍100~1000μL,20~200μL,05~10μL)(eppendorf)。

13試劑EastepTM總RNA提取試劑盒(普洛麥格生產批號:7020001018); PrimeScriptTMⅡ1st strand cDNA Synthesis Kit(TaKaRa生產批號:AK3201);TransStart KD Plus DNA Polymerase(Trans生產批號:K10511);薄型瓊脂糖凝膠DNA回收試劑盒(GENEray生產批號:1601G20);pEASY-T1 cloning kit(Trans生產批號:I40914); DL2000 DNA Marker(TaKaRa生產批號:A2101A);引物由生工生物工程(上海)股份有限公司合成;測序由生工生物工程(上海)股份有限公司完成。

2方法

21引物設計根據金鐵鎖轉錄組中糖基轉移酶基因序列,設計1對特異性引物PtT1F: AAAAATGAAACACCAAGAAAAGCAG,PtT1R: GATTGAAGAAACCAAAGAAGGGGGC。

22PtT1基因的克隆按照EastepTM總RNA提取試劑盒(普洛麥格)說明書提取金鐵鎖根中的總RNA;并根據PrimeScriptTMⅡ1st strand cDNA Synthesis Kit(TaKaRa)說明書合成cDNA。以cDNA為模板使用TransStart KD Plus DNA Polymerase(AP301)通過PCR擴增目的片段。表1PCR反應體系

ComponentsVolumeTemplate1 μLForward Primer(10 μM)1 μLReverse Primer(10 μM)1 μL5×TransStart KD Plus Buffer10 μL25 mM dNTPs4 μLTransStart KD Plus DNA Polymerase1 μLddH2Oto 50 μLPCR反應條件:94℃、5min;94℃、30s;45℃、30s,68℃、2 min30sec,35個循環;68℃延伸10min。PCR產物經10%瓊脂糖凝膠電泳檢測后,選取較亮的目的條帶進行回收純化,并將回收產物與1μL pEASY-T1 cloning kit(Trans)配成連接體系,熱激轉化到大腸桿菌感受態細胞后,涂布于含Amp+ 抗性的LB固體培養基上,37℃過夜培養。挑選白色單克隆進行菌液PCR鑒定,選取陽性單克隆過夜搖菌保種后測序。

23金鐵鎖糖基轉移酶基因的生物信息學分析在NCBI(http://wwwncbinlmnihgov)網站上通過BLAST程序進行序列比對,應用 BioEdit翻譯為氨基酸序列,使用ORF Finder(http://wwwncbinlmnihgov/gorf/gorfhtml)確定開放閱讀框。并用ProtParam(http://webexpasyorg/protparam/)預測蛋白質相對分子質量等;使用ProtScale(http://webexpasyorg/protscale/)軟件進行疏水性分析;TMHMM(http://wwwcbsdtudk/services/TMHMM/)工具預測PtT1蛋白的跨膜螺旋區;Signal 30(http://wwwcbsdtudk/services/SignalP-30/)A測蛋白質信號肽;利用在線工具TargetP 11(http://wwwcbsdtudk/services/TargetP/)預測PtT1的亞細胞定位情況。使用PORTER對二級結構預測SWISS-MODEL(http://swissmodel expasyorg/interactive/k5MUhF/models/)服務器對三級結構預測;然后使用MEGA 50軟件內置的NJ法構建系統進化樹。

3結果與分析

31金鐵鎖PtT1基因的克隆以金鐵鎖根cDNA為模板進行PCR反應,擴增得到2000bp左右的片段。使用pEASY-T1載體通用引物對單克隆進行菌液PCR檢測為陽性克隆后送樣測序,結果表明擴增序列與轉錄組序列基本一致。見圖1。

32PtT1基因的生物信息學分析PtT1糖基轉移酶cDNA全長1529bp,ORF長1377bp,編碼458個氨基酸。通過Blastn比對分析可知與石竹科香石竹同源性最高,為81%。采用ProtParam工具預測PtT1編碼的氨基酸序列的蛋白質理化性質,從分析結果中可知PtT1的分子質量為5125KDa,理論等電點為580;在組成糖基轉移酶的20種氨基酸中,亮氨酸(Leu)所占的比例最高,達到114%;PtT1的不穩定指數為3719,為穩定蛋白;脂肪指數為9044。采用ProtScale分析PtT1氨基酸序列的疏水性/親水性,結果顯示415左右位置有一個典型的親水性區域,見圖2。

利用TMHMM 20對PtT1蛋白進行跨膜結構預測。推測其不存在跨膜區域,該糖基轉移酶編碼的蛋白不屬于跨膜蛋白。見圖3

使用SignalP 30對PtT1蛋白質的信號肽進行預測,由神經網絡模型分析可判斷該蛋白不存在信號肽。隱馬爾夫模型進一步證實了金鐵鎖PtT1編碼的蛋白是非分泌蛋白質,沒有信號肽存在。將PtT1編碼的蛋白質序列輸入在線細胞定位分析工具TargetP 11服務器,分析表明目的蛋白的分泌途徑為線粒體型,即定位在線粒體上。

對糖基轉移酶PtT1的結構域進行預測,在190位到442位之間存在高度保守的結構功能域―UDPGT,即UDPGT家族成員共有的典型結構域。見圖4。

利用PORTER對金鐵鎖PtT1進行二級結構分析,該蛋白二級結構中α-螺旋(H)占4432%,β-折疊(E)占1245%,無規則卷曲(C)占4323%,該蛋白質的二級結構屬于混合型。利用Swiss-Model Workspace對糖基轉移酶的蛋白質三維立體結構進行預測。見圖5。

將金鐵鎖PtT1與GenBank數據庫中17種植物的糖基轉移酶蛋白進行Clustal W比對分析后,利用MEGA 51中的Neighbor-Joining 方法,構建系統進化樹。結果表明金鐵鎖與同科植物香石竹聚為一類,親緣關系最近;其次與北柴胡、小麥、擬南芥等植物的親緣關系也比較接近,與蓖麻等植物中的PtT1親緣關系較遠。見圖6。

4 討論

糖基轉移酶催基因催化三萜皂苷骨架糖基化的反應,其通過催化生物物體內已活化的糖,連接到不同的受體分子上,對一系列化合物進行激活、抑制或者調節溶解度,從而參與植物體多種調控和代謝途徑。目前已發現的催化植物中天然產物糖基化的酶均屬于糖基轉移酶家族Ⅰ,其作用是將活性糖基從核苷糖(尿嘧啶核苷二磷酸糖)轉移到包括次生代謝物在內的多種植物小分子化合物受體上[13]。

目前,僅有少數幾個參與三萜皂苷生物合成的糖基轉移酶被報道[14-19]。本研究立足于金鐵鎖轉錄組測序數據,從金鐵鎖根中克隆得到一條糖基轉移酶基因PtT1,其cDNA全長1529bp,ORF長1377bp,編碼458個氨基酸。Blast比對分析可知與同科植物香石竹有較高的同源性,保守結構域分析顯示其具有UDPGT家族成員共有的典型結構域,說明所得糖基轉移酶蛋白具有較高的結構保守性。通過構建進化樹,發現該基因與香石竹、北柴胡、擬南芥等植物的親緣關系比較接近。為進一步研究金鐵鎖糖基轉移酶在大腸桿菌異源表達,三萜皂苷合成代謝途徑及其關鍵酶表達模式等研究奠定一定的基礎。參考文獻

[1]Weis M, Lim EK, Bruce NC, et al. Engineering and kinetic characterisation of two glucosyltransferases from Arabidopsis thaliana[J]. Biochimie,2008,90: 830-834

[2] 邢愛佳. 羅漢果葡萄糖基轉移酶基因的克隆及原核表達[D]. 南寧:廣西大學, 2013.

[3] Naoumkina M A, Modolo L V, Huhman D V, et al. Genomic and coexpression analyses predict multiple genes involved in triterpenes aponin biosynthesis in Medicagotruncatula[J]. The Plant Cell Online, 2010, 22(3): 85-86

[4] Seki H, Ohyama K, Sawai S, et al. Licorice β-amyrin 11-oxidase, a cytochrome P450 with a key role in the biosynthesis of the triterpene sweetener glycyrrhizin[J]. Proceedings of the National Academy of Sciences, 2008, 105(37): 1420

[5] 蘭茂.滇南本草[M].昆明:云南人民出版社,1976:86.

[6] 朱常成,徐土奎,錢子剛.金鐵鎖的地理分布及分布區的初步分析[J]. 中國現代應用藥學雜志,2007,24(1): 28-31.

[7] 田均勉.中藥金鐵鎖的系統化學成分研究[D].上海:第二軍醫大學,2011.

[8] 文波.中藥金鐵鎖地上部分的化學成分與生物活性研究[D].福州:福建中醫藥大學,2014.

[9] 王學勇,張元,許建陽,等.金鐵鎖總皂苷鎮痛作用及其對佐劑性關節炎大鼠c-fos基因的表達的影響[J].中實驗方劑學雜志,2010,16(3):94-96.

[10]Zhang J, Cao W, Tian J, et al. Evaluation of novel saponins from Psammosilene tunicoides and their analogs as immunomodulators [J].Int Immunopharmacol,2012,14(1):21.

[11] 戴住波,錢子剛,胡運乾,等.金鐵鎖鯊烯合酶cDNA的克隆和功能鑒定[J].藥學學報,2008,43(12) : 1245-1250.

[12] 劉佳佳.金鐵鎖β-香樹素合酶cDNA的克隆、原核表達和功能鑒定[D].昆明:云南中醫學院,2012.

[13] 許曉雙,張福生,秦雪梅. 三萜皂苷生物合成途徑及關鍵酶的研究進展[J]. 世界科學技術-中醫藥現代化,2014,16(11):2440-2448.

[14] Dai L, Liu C, Zhu Y, et al. Functional Characterization of Cucurbitadienol Synthase and Triterpene Glycosyltransferase Involved in Biosynthesis of Mogrosides from Siraitia grosvenorii[J]. Plant And Cell Physiology,2015,56(6):1172-1182.

[15] Achnine L, Huhman DV, Farag MA, et a1.Genomics-based selection and function alcharacterization of triterpene glycosyltrans-ferases from the model legume Medicago truncatula[J].Plant J,2005(41):875.

[16]Naoumkina M A, Modolo L V, Huhman D V, et a1.Genomic and coexpression analyses predict multiple genes involved in triterpene saponin biosynthesis in Medicago truncatula[J].Plant Cell,2010(22):850.

[17]Meesapyodsuk D, Balsevich J, Reed D W, et al.Saponin Biosynthesis in Saponaria vaccaria. cDNAs Encoding beta-Amyrin Synthase and a Triterpene Carboxylic Acid Glucosylansferase[J]. Plant Physiology,2006,143(2):959-969.

第5篇

關鍵詞:河八王;NpD53基因;克?。恍蛄蟹治觯籖ACE

0引言

[研究意義]河八王[Narengaporphyrocoma(Hance)Bor]是一個甘蔗野生種,具有分蘗力強、耐貧瘠、耐旱等優良性狀(李楊瑞,2010)。甘蔗產量受單位面積有效莖數影響,而有效莖數由甘蔗的有效分蘗決定(李楊瑞,2010)??梢姡痔Y是農作物莖數和穗數的重要性狀因子,對作物產量有重要影響(呂愛麗等,2016),而DWARF53(D53)基因編碼的D53蛋白與獨腳金內酯信號分子D14蛋白和D3蛋白互作形成D53-D14-SCFm蛋白復合體,D53蛋白作為獨腳金內酯信號途徑的抑制子,參與植物分蘗(分枝)等生長發育過程(Zhouetal.,2013)。因此,研究河八王分蘗基因D53及其分子調控機理,利用轉基因或雜交等技術進行甘蔗遺傳改良對提高甘蔗產量具有重要意義。[前人研究進展]獨腳金內酯是一種新型植物激素,屬萜類內酯,可抑制植物分枝生長、促進側根形成和誘導根毛伸長,從而調節植物的生長發育(Gomez-Roldanetal.,2008;吳轉娣等,2017),D14蛋白、F-box蛋白和D53蛋白等參與其信號轉導(陳虞超等,2015)。已有研究發現,水稻的3種DWARF蛋白(D27、D17和D10)將反式B-胡蘿卜素轉變成獨腳金內酯的前體己內酯(Alderetal.,2012),其他2種DWARF蛋白(D14和D3)在獨腳金內酯的感知和轉導中起重要作用(Ishikawetal.,2005;Ariteetal.,2009)。其中D14蛋白屬于α/β-水解酶折疊家族,是獨腳金內酯的受體(Aldereta1.,2012),D3蛋白是一個富集亮氨酸重復序列的F-box蛋白,參與獨腳金內酯信號的接收(Zhaoetal.,2013)。D53蛋白是連接獨腳金內酯信號接收和應答的重要抑制因子,當D53被降解,獨腳金內酯抑制植物分蘗(分枝);當D53未被降解,則獨腳金內酯受到抑制,促使植物多分蘗(分枝)(Jiangetal.,2013)。D53基因是水稻的顯性基因之一。Wei等(2006)構建了水稻顯性矮稈突變體dwarf(d53),通過圖譜定位發現D53基因定位于11號染色體的斷臂上。Jiang等(2013)克隆獲得水稻的D53基因全長。[本研究切入點]目前,未見有關甘蔗野生種河八王分蘗基因的研究報道。[擬解決的關鍵問題]利用RACE(cDNA末端快增)技術克隆河八王D53基因(NpD53)全長,并進行生物信息學分析,為甘蔗野生種分蘗的分子調控機理研究提供理論參考。

1材料與方法

1.1試驗材料

供試材料為河八王,保育于廣西農業科學院甘蔗研究所。RNAprepPure植物總RNA提取試劑盒、DNaseIRecombinant和SMARTerRACE5'/3’Kit購白天根生化科技(北京)有限公司。其余試劑均為國產分析純。引物由生工生物工程(上海)股份有限公司合成。

1.2總RNA提取及cDNA合成

剪取約0.1g河八王幼嫩葉片,參照RNAprepPure植物總RNA提取試劑盒說明提取其總RNA,用1%瓊脂糖凝膠電泳檢測其質量,并參照SMARTerRACE5’/3’Kit說明反轉錄合成cDNA。

1.3NpD53基因克隆

1.3.1中間序列擴增參考水稻分蘗基因D53(GeneBank登錄號KF709434.1)設計其中問序列的擴增引物(表1),反應體系(25.0uL)配置和擴增程序設置均參照2xESTaqMasterMix產品說明進行。PCR產物經膠回收純化后連接至pMD19-T克隆載體上,轉化DH5a感受態細胞,經菌液PCR驗證后,把含目的片段的陽性克隆送至生工生物工程(上海)股份有限公司進行測序。

1.3.2兩端序列擴增以NpD53基因的中間序列為基礎,設計NpD53基因5’與3’端RACE特異性引物(表1),采用RACE技術克隆NpD53基因的5’與3’末端序列。PCR產物經膠回收純化后連接至pMD19-T克隆載體上,轉化DH5a感受態細胞,經菌液PCR驗證后,把含目的片段的陽性克隆送至生工生物工程(上海)股份有限公司進行測序。對測序正確的5’與3’端序列進行拼接,得到NpD53基因cDNA全長序列。

1.4生物信息學分析

利用ORFFinder找出NpD53基因的開放閱讀框(ORF)編碼區。將獲得的NpD53基因cDNA提交至NCBI數據庫中進行比對,利用BLASTI具對其編碼蛋白(NpD53)進行氨基酸序列比對;基于NpD53蛋白的氨基酸序列與相似性較高的序列,利用MEGA6.0鄰接法構建系統進化樹,分析河八王與其他物種之間的親緣關系。

利用ExPASyProteomicsServer在線軟件ProtParam預測NpD53蛋白的理化性質;利用ProtScale預測NOD53蛋白的親/疏水性;利用NCBIBLAST-E具預測NpD53蛋白的結構域;利用SOPMA軟件預測NOD53蛋白的二級結構;利用TMHMMServerv.2.0預測NpD53蛋白的跨膜結構;利用在線軟件SWISSMODEL構建NpD53蛋白的三維結構模型;利用Wolf-Sport在線軟件預測NpD53蛋白的亞細胞定位。

2結果與分析

2.1NpD53基因克隆結果

由圖1可知,總RNA的28S和18S條帶明亮、清晰、完整,無其他雜質污染,說明提取的河八王幼嫩葉片總RNA質量較好,可用于后續試驗。

PCR擴增NpD53基因,其測序結果顯示,NpD53基因的中間序列長度760bp,5’端序列長度1497bp,3’端序列長度1233bp,經ContigExpress軟件拼接后,其cDNA序列全長為2597bp。

2.2NpD53基因同源性比對及系統進化樹分析

將克隆獲得的NpD53基因cDNA序列提交至NCBI數據庫中進行核苷酸序列比對,結果顯示,該序列與高粱(Sorghumbicolor)(XIVl002441614.2)、玉米(ZeamarsL_)(KUl31574.1)和水稻(Orvzasativa)(KF709434.1)的D53基因核苷酸序列的同源性分別為95%、86%和77%,說明本研究克隆獲得的基因為河八王分蘗基因D53。利用ORFFinder找到NpD53基因的ORF編碼區(238-2364bp),長度為2037bp,編碼678個氨基酸,其中5’非編碼區長度為237bp,3’非編碼區長度為233bp(圖2)。

NpD53基因編碼蛋白(NOD53)與高粱(XP002441659.1)、山羊草(Aegilopstauschii)(XP02016-8048.1)、小麥(Triticumaestivum)(ARB18226.1)和海棗(Phoenixdactylifera)(XP008805019.1)D53蛋白的氨基酸序列同源性分別為91%、63%、59%和39%。利用MEGA6.0進行氨基酸多序列比對,結果(圖3)顯示,NpD53與禾本科物種具有較高的同源性,其中與高粱的2個D53蛋白同源性最高,分別為91%和85%,而與海棗、油棕(Elaeisguineensis)、芭蕉(Musaacuminatasubsp.malaccensis)等物種的同源性僅30%-40%,說明河八王與海棗、油棕、芭蕉等物種的親緣關系較遠,而與高粱的親緣關系較近。

2.3NOD53蛋白的理化性質及親/疏水性預測結果

NpD53蛋白的理化性質及親/疏水性預測結果顯示,該蛋白分子式為C3226H5162N96401034532,分子量為75.02kD,由678個氨基酸組成,其中包含負電荷氨基酸殘基86個和正電荷氨基酸殘基82個,絲氨酸含量最高,達13.0%;理論等電點(pI)為6.59,為酸性蛋白質;親水性平均數為-0.506,有較多區段位于0分以下,以親水性為主(圖4),表明其為親水性蛋白;不穩定系數為54.83,半衰期約為30h,說明其為不穩定蛋白。

2.4NOD53蛋白的功能結構域預測結果

利用NCBIBLAST-E具預測NOD53蛋白的結構域,結果(圖5)顯示,該蛋白存在P-loopNTPase和ClpBD2-small超家族核心序列,含有4個非特異性位點:ClpA、AAA2、ⅥClpVl和ClDC。與圖3中的其他物種均具有相同的保守結構域ClpBD2-small。

2.5NOD53蛋白的二級結構和三維結構分析

NpD53蛋白的二級結構預測結果(表2)顯示,該蛋白的二級結構僅有4種卷曲類型,其中無規則卷曲最多,占42.77%,其次是α-螺旋,占35.55%,延伸鏈和β-轉角分別占15.34%和6.34%。NpD53蛋白跨膜結構預測結果顯示,該蛋白無跨膜結構域。NpD53蛋白三維結構如圖6所示,同源模型為MecA-ClpC復合物(3j3u.1),但同源性較低,僅19.3%。NpD53蛋白的亞細胞定位預測結果顯示,該蛋白位于細胞核內,可信度94.1%。

3討論

獨腳金內酯屬類胡蘿卜素植物激素,Jiang等(2013)、Zhou等(2013)研究發現,在水稻中D53蛋白為獨腳金內酯信號轉導途徑的抑制因子,Liu等(2017)發現D53基因在小麥分蘗和穗數上起一定的調控作用。本研究首次從河八王中克隆得到NpD53基因,可為后續河八王分蘗機制研究打下理論基礎。

應用RACE技術可對mRNA末端進行快速擴增,具有快速、穩定和成功率高等優點,是有效獲取cDNA全長的有效手段之一(唐克軒等,2002)。本研究采用RACE技術克隆獲得河八王NpD53基因,其具有完整的ORF,其編碼蛋白NpD53的氨基酸序列與其他物種的D53蛋白具有相同的保守結構域clpBD2-small,與禾本科物種的同源性較高,其中與高梁的2個D53蛋白同源性最高,分別為91%和85%,而與海棗、油棕、芭蕉等物種的相似性僅30%-40%,說明不同物種問的D53蛋白可能有不同的結構和功能。ClpB是HSP100/Clp蛋白家族的一員,與細胞的耐熱性緊密相關,可溶解熱脅迫下的蛋白聚集體,從而減少熱激對細胞產生的損害,其序列具有高度保守特性(Katiyar-Agarwaletal.,2003)。其中胞質型HSPl01/ClpB蛋白是植物抗高溫必需的因子,推測HSPl01/ClpB轉基因水稻有較高的耐熱性(Katiyar-Agarwaletal.,2003;楊金瑩等,2006)。由此推測河八王中的ClpB也與植株的自身耐熱性有關。

已有研究證實,D53蛋白與I類ClpATP酶類有相似的結構(Zhouetal.,2013),ClpATP酶是細菌中高度保守的調節亞基,是一種分子伴侶,其自身無水解活性,其中I類ClpATP酶類帶有2個不同的ATP結合區域(Freesetal.,2007)。本研究河八王NpD53蛋白序列中的非特異性位點ClpA和ClpC屬于I類,由此推測NpD53蛋白為一種分子伴侶,與河八王的自身耐熱性相關。

4結論

第6篇

[關鍵詞] 基因芯片;子宮內膜異位癥;生物信息學分析;靶基因;microRNA

[中圖分類號] R711.710.46 [文獻標識碼] A [文章編號] 1673-7210(2017)04(a)-0012-05

[Abstract] Objective To analyze and predict the expression of endometriosis (EMs) genes by bioinformatics methods, in order to provide a new basis for revealing the essence of EMs at the gene level and developing new treatment drugs. Methods Download gene dates which were related to EMs in Gene Expression Omnibus(GEO), were mined and analyzed by a series of bioinformatics tools, such as protparam, MotiScan, SignalP 4.0, NetPhos 2.0, TMHMM, GO, KEGG, STRING, BRB-Array Tools. Results 91 EMs related genes and 54 microRNA had been found in this study. These genes mainly involved in the process of cell proliferation regulation, cell apoptosis regulation and chemotaxis. Protein interaction network predicted 19 important EMs-related protein targets. Combined with target gene data mining, 134 EMs-related target genes were found. Conclusion Using bioinformatics method to analyze gene microarray data can acquire inner information of organisms, and provide new diagnostic markers and diagnostic thoughts for the early diagnosis of EMs.

[Key words] Microarray; Endometriosis; Bioinformatics; Target gene; MicroRNA

子m內膜異位癥(endometriosis,EMs)是一種常見的慢性婦科疾病,在女性人群中,發病率為10%~15%[1],其臨床表現為不孕、痛經、慢性盆腔痛、痛等[2],給年輕的女性帶來巨大的痛苦和經濟負擔。EMs是在子宮腔外部出現經過增殖、出血和再生的子宮內膜樣組織,其發病機制尚不清楚[3-4]。由于EMs病因復雜,目前主要治療手段是手術和激素治療,但該病的復發率高,達40%~50%[5]。因此,亟需新的有效的EMs治療方法。

基因調控在EMs的發展中起重要作用[6]。研究EMs患者的基因特征是開發新療法的有效步驟[7-8],基因芯片數據能夠大規模地揭示基因遺傳背景。根據基因芯片數據可以發現,免疫內分泌的功能障礙是影響子宮內膜異位的重要因素[9]。生物信息學被應用于整理基因表達、基因功能、基因產物以及細胞功能相關的大量信息,來鑒定發病過程中的關鍵因子,預測合適的治療靶標[10]。目前這種方法已被用于改進肝細胞癌[11]、淋巴瘤[12]和口腔癌的診斷[13]。基因芯片技術與生物信息學分析的結合能夠為疾病的分子生物學研究提供新的研究視角。

本研究應用基因芯片分析軟件BRB-Array Tools對基因芯片公共數據庫的EMs相關基因和microRNA進行數據挖掘,并進行microRNA的靶基因預測。用生物信息學的方法對EMs的相關基因進行通路和功能的分析,找出EMs相關蛋白質相互作用的網絡調控的關鍵靶標,研究EMs的發病機制,為進一步在基因水平上揭示EMs的本質和發現藥物治療靶點、開發治療新藥提供新的依據。

1 材料與方法

1.1 材料

從美國國立生物信息技術中心(National Center for Biotechnology Information,NCBI)的公共基因芯片數據庫(Gene Expression Omnibus,GEO)[14]下載與EMs相關的基因和microRNA。

1.2 方法

①把EMs相關基因上傳到String(Search Tool for the Retrieval of Interacting Genes)數據庫在線分析工具(http://)[15-16]可獲得EMs相關基因蛋白-蛋白相互作用的網絡,篩選節點(Hub)蛋白。

②把EMs相關基因上傳到DAVID(Database for Annotation,Visualization,and Integrated Discovery)[17],用功能注釋工具(Functional Annotation Tool),研究EMs相關基因參與FOTERM_MF_5以及GOTERM_BP_5基因本體數據庫(Gene Ontology,GO)[18]的分子功能和生物過程,分析EMs相關基因參與的PANTHER-PATHWAY和KEGG-PATHWAY數據庫中的生物學通路。

③應用PicTar2005[19]、TargetScan 5.1[20]、miRanda V5[21]3種軟件預測靶基因,有兩種或兩種以上的軟件同時預測到的結果則認為可靠。

2 結果

2.1 EMs相關基因的篩選

從公共基因芯片數據庫(Gene Expression Omnibus,GEO)下載與EMs相關的基因,共得到91個相關基因,結果見表1。

2.2 EMs相關基因的分析

對91個EMs相關基因編碼的蛋白進行蛋白-蛋白的相互作用網絡分析顯示,處于網絡節點的蛋白質有19個基因與之對應,分別是EGF、RELA、VEGFA、PCNA、PTEN、PIKCA、MDM2、MMP9、MMP1、NGF、PGR、PTGS2、IL11B、IL6、IL10、CD44、TP53、TNF、FOXO1,f明它們可能在致病中發揮著重要作用。GO富集分析結果顯示,EMs相關基因主要涉及細胞增殖、細胞凋亡、細胞代謝、信號轉導、趨化作用等反應過程(圖1)。生物學通路分析表明,EMs相關基因主要參與細胞因子受體互作、腫瘤通路、造血細胞系、Jak-STAT信號等生物學的通路(圖2)。

2.3 microRNA的靶基因預測

在PubMed數據庫中檢測到54個EMs相關的microRNA,聯合靶基因的數據挖掘和預測,共得到134個EMs的相關基因。

3 討論

EMs給社會和婦女帶來了嚴重的臨床上和經濟上的負擔,因此,需要將研究和資源的效用最大化來提高對疾病的了解,以便發展新的有效的治療方法。隨著近幾年生物信息學技術的興起,基因芯片技術已經成為生物醫學研究的基本方法?;蛐酒且环N大規模高效率獲取生物信息的新型技術,能夠檢測分析各個組織內的表達基因的差異,隨著計算機技術的快速提高和生物數據的急劇增長,生物信息學這一剛剛興起的學科得到了前所未有的迅速發展[22],尤其是應用生物信息學方法發現新基因和基因芯片,利用已知的核酸序列作為探針,與互補的靶核苷酸序列相互雜交,再進行信號的監測,最終完成定量或者定性的分析,在預防和新藥開發、輔助診斷疾病方面有廣闊的前景。生物信息學是涉及應用物理學、數學、生物學、化學、計算機等交叉學科的一門新興學科,應用現有的分析軟件和公共數據庫,可以探索生物分子結構和功能特性,為后續研究提供新的研究思路和方向。EMs的生物學過程復雜,決定了從基因組水平篩選與轉移相關表型的功能基因成為EMs治療研究的重要方向[23]。

本研究發現,EGF、RELA、VEGFA、PCNA、PTEN、PRKCA、MDM2、MMP9、MMP1、NGF、PGR、PTGS2、IL11B、IL6、IL10、CD44、TP53、TNF、FOXO1在EMs相關基因編碼蛋白-蛋白的作用網絡中起到節點蛋白的作用,推測這些基因對EMs的發病起重要作用。本研究通過GO富集分析和通路分析發現,EMs相關基因主要與細胞增殖調控、細胞凋亡調控、趨化作用有關。

綜上所述,本文應用生物信息學的方法對基于基因芯片數據庫挖掘的EMs基因及蛋白進行分析,為揭示EMs相關基因及microRNA的結構、功能、蛋白的相互作用提供了重要依據,發現了關鍵基因在EMs發生發展過程中可能起到重要的作用,為日后進一步研究EMs的發病機制、發現藥物治療的靶點,及為臨床治療和預防提供了新的切入點。

[參考文獻]

[1] Sourial S,Tempest N,Hapangama DK. Theories on the path?鄄ogenesis of Endometriosis [J]. International Journal of Reproductive Medicine,2014,2014:9.

[2] Giudice LC. Clinical pracice. Endometriosis [J]. N Engl J Med,2010,362(25):2389-2398.

[3] Mathew D,Drury JA,Valentijn AJ,et al. In silico,in vitro and in vivo analysis identifies a potential role for steroid hormone regulation of FOXD3 in endometriosis-associated genes [J]. Human Reproduction,2016,31(2):345-354.

[4] Aznaurova YB. Molecular aspects of development and regul?鄄ation of endometriosis [J]. Reproductive Biology and Endo?鄄crinology,2014,12(1):50.

[5] Guo SW. Recurrence of endometriosis and its control [J]. Human Reproduction Update,2009,15(4):441.

[6] Kobayashi H,Imanaka S,Nakamura H,et al. Understanding the role of epigenomic,genomic and genetic alterations in the development of endometriosis(review)[J].Molecular Medi?鄄cine Reports,2014,9(5):1483-1505.

[7] Burney RO,Talbi S,Hamilton AE,et al. Gene expression analysis of endometrium reveals progesterone resistance and candidate susceptibility genes in women with endome?鄄triosis [J]. Endocrinology,2007,148(8):3814-3826.

[8] Baranov VS,Ivaschenko TE,Liehr T,et al. Systems genetics view of endometriosis:a common complex disorder [J]. Euro?鄄pean Journal of Obstetrics & Gynecology & Reproductive Biology,2015,185:59-65.

[9] Khan MA. Genome-wide expressions in autologous euto?鄄pic and ectopic endometrium of fertile women with endom?鄄etriosis [J]. Reproductive Biology and Endocrinology,2012, 10(1):84.

[10] Ping S,Ma C,Liu P,et al. Molecular mechanisms underl?鄄ying endometriosis pathogenesis revealed by bioinformatics analysis of microarray data [J]. Archives of Gynecology and Obstetrics,2016,293(4):1-8.

[11] Zhang Y,Wang S,Dong L,et al. A Systems Biology-Based Classifier for Hepatocellular Carcinoma Diagnosis [J]. Plos One,2011,6(7):e22426.

[12] O'Neill MC,Li S. Neural network analysis of lymphoma microarray data:prognosis and diagnosis near-perfect [J]. BMC Bioinformatics,2003,4(1):13.

[13] Singaraju S,Prasad H,Singaraju M. Evolution of dental informatics as a major research tool in oral pathology [J]. Journal of Oral & Maxillofacial Pathology,2012,16(1):83-87.

[14] Barrett T,Wilhite SE,Ledoux P,et al. NCBI GEO:Archive for functional genomics data sets―update [J]. Nucleic Acids Res,2013,41(Database issue):D991-D995.

[15] Szklarczyk D,Franceschini A,Kuhn M,et al. The STRING database in 2011:functional interaction networks of prot?鄄eins,globally integrated and scored [J]. Nucleic Acids Res,2011,39(Database issue):D561-D568.

[16] Franceschini A,Szklarczyk D,Frankild S,et al. STRING v9.1:protein-protein interaction networks,with increased coverage and integration [J]. Nucleic Acids Res,2013,41(Database issue):D808-D815.

[17] Huang DW,Sherman BT,Lempicki RA. Systematic and integrative analysis of large gene lists using DAVID bioinf?鄄ormatics resources [J]. Nature Protocol,2009,4(1):44-57.

[18] Ashburner M,Ball CA,Blake JA,et al. Gene ontology:tool for the unification of biology. The Gene Ontology Consortium [J]. Nat Genet,2000,25(1):25-29.

[19] Kerk A,Grun D,Poy MN,et al. Combinatorial microRNA target predictions [J]. Nat Genet,2005,37(5):495-500.

[20] Lewis BP,Burge CB,Bartel DP. Conserved seed pairing,often flanked by adenosines,indicates that thousands of human genes are microRNA targets [J]. Cell,2005,120(1):15-20.

[21] Griffiths-Jones S,Saini HK,Dongen SV,et al. Tools for microRNA genomics [J]. Nucleic Acids Research,2008, 36(Database issue):D154-D158.

[22] GuC,ShenT. cDNA microarray and bioinformatic analysis for the identification of key genes in Alzheimer's disease [J]. International Journal of Molecular Medicine,2014,33(2):457-461.

第7篇

關鍵詞:生物信息學;雙語教學;改革及實踐

中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2015)46-0125-02

生物信息學是生物學、計算機科學及應用數學等學科相互交叉而形成的一門新興學科。它以DNA和蛋白質為研究對象,通過對生物學實驗數據的獲取、加工、存儲、檢索與分析,進而達到揭示實驗數據所蘊含的生物學意義的目的[1]。基于“加強基礎、拓寬專業、強化能力、提高素質”的人才培養指導思想,河南科技大學生物科學及生物技術本科專業開設了《生物信息學》課程,以便讓學生理解并掌握生物信息學領域的基本概念和基本理論,具備初步的生物信息學分析技能和實踐操作能力,從而適應今后工作和學習的需要。

生物信息學的研究對象為各種分子生物學數據,是在全世界各個實驗室中產生的,然后再提交到相應的數據庫中[2]。目前,這些大型分子生物學數據庫在存儲、檢索和可視化上,都是英文界面;《生物信息學》課程中講授的生物信息學軟件也均以英文為界面[3]。由于生物信息學學科的前沿性和交叉性,使得《生物信息學》課程的教學有其特殊性,其中一點就是適宜于開展較高水平的雙語教學。通過雙語教學,可使學生盡快掌握以英文為界面的生物信息學網絡資源及相關生物信息學分析軟件的使用,提高本科生生物信息學基本的分析技能,繼而培養其創新能力。根據《生物信息學》的課程特點,我們開展了雙語教學的改革和實踐,獲得了較好的教學效果。

一、激發學生學習興趣

《生物信息學》課程涉及的知識點較多,在線生物信息學分析平臺均為英文界面,多數學生因而存在一定的畏難情緒。因此,在授課的過程中,首先引導學生加強生物信息學基本分析方法及專業英語的學習。學生通過瀏覽英文網站,英文閱讀能力得到了很大提高;同時也開拓了視野,提升了知識面??傊?,通過激發學生的學習興趣,幫助學生逐步建立起學習的興趣和自信心,為開展《生物信息學》雙語教學打下了堅實的基礎。

二、選用英文原版教材

目前,適宜于本科生《生物信息學》雙語教學的英文原版教材較為欠缺[4]。其原因有兩點:一方面,部分《生物信息學》原版英文教材非常昂貴,因成本原因不適宜于本科生選用;另一方面,通俗易懂、適合入門的《生物信息學》英文教材又少之又少。項目組最終篩選到了一本適宜于我校生物科學和生物技術專業本科生選用的英文原版教材《Bioinformatics For Dummies》,該教材淺顯易懂,實踐操作性強,適宜于生物信息學初學者選用;另一方面,打印或復印該教材的成本較低,學生易于接受。

三、更新優化教學內容

基于英文原版教材《Bioinformatics For Dummies》,適當更新并優化了教學內容,重點傳授了應用性較強的生物信息學實踐分析技能。如核酸及蛋白序列數據庫的查詢、核酸及蛋白序列的相似性搜索、序列比對、分子系統進化樹構建、蛋白物理特性及3D結構的預測等分析技能。另外還講授了離線單機版生物信息學軟件如DNAMAN 6.0、Primer Premier 5.0、MEGA 5.0的使用方法。

四、適當講解理論算法

在注重傳授生物信息學實踐分析技能的同時,適當講解生物信息學理論算法。由于生物信息學涉及的算法多數都較為枯燥,在授課過程中側重于分析方法的講解和應用。如在講授Needleman-Wunsch全局比對和Smith-Waterman局部比對及分子系統發育樹構建UPGMA(Unweighted pair group method with arithmetic mean,非加權算術平均組隊法)等算法時,在多媒體教學的基礎上,結合互動式“提問”及“板書”等方法輔助學生理解算法的基本原理及分析方法;同時布置課后計算題作業,要求學生獨立完成后上交,從而促進學生鞏固基本理論和基本知識[5]。

五、采用雙語多媒體授課

為了更好地執行《生物信息學》課程的雙語教學任務,我們首先制定了《生物信息學》課程雙語教學計劃。即選用英文教材,制作英文PPT教學課件,采用中英文相結合的授課方式。隨著學生生物信息學分析能力及專業英語水平的不斷提高,逐步在授課過程中由少到多地加大英文授課的比例。項目組已于2014-2015學年第2學期成功應用英漢雙語完成了《生物信息學》課程的雙語教學任務,教學效果良好。

六、實時演示在線分析過程

我校基于網絡安全的考慮,在教室內僅能登陸校園網而不能登陸外網。在以往的《生物信息學》教學過程中,只能采用網頁抓圖的靜態教學方式,造成學生對生物信息學分析方法的體驗不夠強烈。為了達到更好的教學效果,項目組購置了能夠接收無線網絡信號的設備,在教室內可實時在線進行生物信息學分析,在講解數據庫查詢、BLAST分析、Bankit序列提交、蛋白質結構域分析、蛋白質物理特性及3D結構預測等內容時,學生得到了更加直觀的實踐體驗,加深了對生物信息學分析方法的印象,從而更加容易掌握這些實踐操作。

七、網絡教學資源建設

由于受學時的限制,《生物信息學》課堂教學的內容非常有限。為了讓學生更好地利用生物信息學豐富的網絡資源,我們基于學校開發的網絡教學綜合平臺,構建了《生物信息學》課程網絡平臺。平臺不僅提供雙語多媒體課件、教學視頻、作業及相關要求等教學資料;還提供了Primer Premier、DNASTAR、DNAMAN、MEGA、BioEdit軟件安裝程序和使用手冊、生物信息學英文文獻及常用的在線生物信息學分析工具的鏈接等內容。

八、科研與教學相長

在生物信息學課程的雙語教學過程中,我們堅持教學和科研互動,實現科研與教學相長。一方面,主講教師將科研中積累到的涉及到生物信息學的研究成果應用于《生物信息學》教學過程中,豐富了教學內容。如在講授Bankit在線序列提交序列時,我們以提交至國際核酸序列數據庫GenBank的芍藥(Paeonia lactiflora)乙烯受體ETR1(JX406435)、ETR2(KP265307)、ERS1(KP265307)、EIN4(KP265308)基因序列為例;在講授基因外顯子和內含子結構預測時,以芍藥ACO(KJ719260)和ACS(KP265309)基因組DNA序列為例;在講授Primer Premier軟件時,以芍藥ACO基因為例,分別設計用于半定量RT-PCR、CDS擴增及原核表達載體構建所需的PCR引物。通過把科研思路帶入教學中,從而有效培養了學生的科研能力及創新能力。另一方面,教學實踐也有利于教師全面了解生物信息學和相關學科的最新進展,不斷為科研提供新思路。

九、考試方式改革

《生物信息學》課程教學的目的是提高學生利用信息技術解決生物學問題的能力。因此,考試主要考查學生綜合利用所學知識分析問題和解決問題的能力。項目組對考試方式進行了改革,改閉卷考試為大作業。要求學生一人一題,綜合應用所學的生物信息學分析技能對所研究的核酸及其編碼的蛋白序列進行序列查詢、序列同源性搜索,PCR引物的設計,分子系統進化樹的構建,蛋白的物理性質及3D結構預測等分析,占考核成績的70%。采用這種考試方式,一方面促使學生在學習過程中不必花大量工夫去死記硬背,而把重點放在了基本理論、基本知識的鞏固及實踐操作技能的提高上,有效地提高了學生的實踐操作能力和創新能力;另一方面,也促使教師在教學過程中,注重從能力培養的角度進行教學課堂設計,提升教學質量和水平。

參考文獻:

[1]賀林.解碼生命――人類基因組計劃和后基因組計劃[M].北京:科學出版社,2000

[2]周到,黃敏.生物信息學雙語教學探討[J].科教文匯旬刊,2013,(231):48-49.

[3]戴凌燕,姜述君,高亞梅.《生物信息學》課程教學方法探索與實踐[J].生物信息學,2009,7(4):311-313.

第8篇

一、整合生物信息學的研究領域

盡管目前一般意義上的生物信息學還局限在分子生物學層次,但廣義上的生物信息學是可以研究生物學的任何方面的。生命現象是在信息控制下不同層次上的物質、能量與信息的交換,不同層次是指核酸、蛋白質、細胞、器官、個體、群體和生態系統等。這些層次的系統生物學研究將成為后基因組時代的生物信息學研究和應用的對象。隨著在完整基因組、功能基因組、生物大分子相互作用及基因調控網絡等方面大量數據的積累和基本研究規律的深入,生命科學正處在用統一的理論框架和先進的實驗方法來探討數據間的復雜關系,向定量生命科學發展的重要階段。采用物理、數學、化學、力學、生物等學科的方法從多層次、多水平、多途徑開展交叉綜合研究,在分子水平上揭示生物信息及其傳遞的機理與過程,描述和解釋生命活動規律,已成生命科學中的前沿科學問題(摘自:國家“十一五”生命科學發展規劃),為整合生物信息學的發展提供了數據資源和技術支撐。

當前,由各種Omics組學技術,如基因組學(DNA測序),轉錄組學(基因表達系列分析、基因芯片),蛋白質組學(質譜、二維凝膠電泳、蛋白質芯片、X光衍射、核磁共振),代謝組學(核磁共振、X光衍射、毛細管電泳)等技術,積累了大量的實驗數據。約有800多個公共數據庫系統和許多分析工具可利用通過互聯網來解決各種各樣的生物任務。生物數據的計算分析基本上依賴于計算機科學的方法和概念,最終由生物學家來系統解決具體的生物問題。我們面臨的挑戰是如何從這些組學數據中,利用已有的生物信息學的技術手段,在新的系統層次、多水平、多途徑來了解生命過程。整合生物信息學便承擔了這一任務。

圖1簡單描述了生物信息學、系統生物學與信息學、生物學以及基因組計劃各個研究領域的相關性。可以看出基因組計劃將生物學與信息學前所未有地結合到了一起,而生物信息學的興起是與人類基因組的測序計劃分不開的,生物信息學自始至終提供了所需的技術與方法,系統生物學強調了生物信息學的生物反應模型和機理研究,也是多學科高度交叉,促使理論生物學、生物信息學、計算生物學與生物學走得更近,也使我們研究基因型到表型的過程機理更加接近。虛線范圍代表整合生物信息學的研究領域,它包括了基因組計劃的序列、結構、功能、應用的整合,也涵蓋了生物信息學、系統生物學技術與方法的有機整合。

整合生物信息學的最大特點就是整合,不僅整合了生物信息學的研究方法和技術,也是在更大的層次上整合生命科學、計算機科學、數學、物理學、化學、醫學,以及工程學等各學科。其生物數據整合從微觀到宏觀,應用領域整合涉及工、農、林、漁、牧、醫、藥。本文將就整合生物信息學的生物數據整合、學科技術整合及其他方面進行初步的介紹和探討。

二、生物數據挖掘與整合

生物系統的不同性質的組分數據,從基因到細胞、到組織、到個體的各個層次。大量組分數據的收集來自實驗室(濕數據)和公共數據資源(干數據)。但這些數據存在很多不利于處理分析的因素,如數據的類型差異,數據庫中存在大量數據冗余以及數據錯誤;存儲信息的數據結構也存在很大的差異,包括文本文件、關系數據庫、面向對象數據庫等;缺乏統一的數據描述標準,信息查詢方面大相徑庭;許多數據信息是描述性的信息,而不是結構化的信息標示。如何快速地在這些大量的包括錯誤數據的數據量中獲取正確數據模式和關系是數據挖掘與整合的主要任務。

數據挖掘是知識發現的一個過程,其他各個環節,如數據庫的選擇和取樣,數據的預處理和去冗余,錯誤和沖突,數據形式的轉換,挖掘數據的評估和評估的可視化等。數據挖掘的過程主要是從數據中提取模式,即模式識別。如DNA序列的特征核苷堿基,蛋白質的功能域及相應蛋白質的三維結構的自動化分類等。從信息處理的角度來說,模式識別可以被看作是根據一分類標準對外來數據進行篩選的數據簡化過程。其主要步驟是:特征選擇,度量,處理,特征提取,分類和標識?,F有的數據挖掘技術常用的有:聚類、概念描述、連接分析、關聯分析、偏差檢測和預測模型等。生物信息學中用得比較多的數據挖掘的技術方法有:機器學習,文本挖掘,網絡挖掘等。

機器學習通常用于數據挖掘中有關模式匹配和模式發現。機器學習包含了一系列用于統計、生物模擬、適應控制理論、心理學和人工智能的方法。應用于生物信息學中的機器學習技術有歸納邏輯程序,遺傳算法,神經網絡,統計方法,貝葉斯方法,決策樹和隱馬爾可夫模型等。值得一提的是,大多數數據挖掘產品使用的算法都是在計算機科學或統計數學雜志上發表過的成熟算法,所不同的是算法的實現和對性能的優化。當然也有一些人采用的是自己研發的未公開的算法,效果可能也不錯。

大量的生物學數據是以結構化的形式存在于數據庫中的,例如基因序列、基因微陣列實驗數據和分子三維結構數據等,而大量的生物學數據更是以非結構化的形式被記載在各種文本中,其中大量文獻以電子出版物形式存在,如PubMed Central中收集了大量的生物醫學文獻摘要。

文本挖掘就是利用數據挖掘技術在大量的文本集合中發現隱含的知識的過程。其任務包括在大量文本中進行信息抽取、語詞識別、發現知識間的關聯等,以及利用文本挖掘技術提高數據分析的效率。近年來,文本挖掘技術在生物學領域中的應用多是通過挖掘文本發現生物學規律,例如基因、蛋白及其相互作用,進而對大型生物學數據庫進行自動注釋。但是要自動地從大量非結構性的文本中提取知識,并非易事。目前較為有效的方法是利用自然語言處理技術NLP,該技術包括一系列計算方法,從簡單的關鍵詞提取到語義學分析。最簡單的NLP系統工作通過確定的關鍵詞來解析和識別文檔。標注后的文檔內容將被拷貝到本地數據庫以備分析。復雜些的NLP系統則利用統計方法來識別不僅僅相關的關鍵詞,以及它們在文本中的分布情況,從而可以進行上下文的推斷。其結果是獲得相關文檔簇,可以推斷特定文本內容的特定主題。最先進的NLP系統是可以進行語義分析的,主要是通過分析句子中的字、詞和句段及其相關性來斷定其含義。

生物信息學離不開Internet網絡,大量的生物學數據都儲存到了網絡的各個角落。網絡挖掘指使用數據挖掘技術在網絡數據中發現潛在的、有用的模式或信息。網絡挖掘研究覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等。根據對網絡數據的感興趣程度不同,網絡挖掘一般還可以分為三類:網絡內容挖掘、網絡結構挖掘、網絡用法挖掘。網絡內容挖掘指從網絡內容/數據/文檔中發現有用信息,網絡內容挖掘的對象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數據。網絡結構挖掘的對象是網絡本身的超連接,即對網絡文檔的結構進行挖掘,發現他們之間連接情況的有用信息(文檔之間的包含、引用或者從屬關系)。在網絡結構挖掘領域最著名的算法是HITS算法和PageRank算法(如Google搜索引擎)。網絡用法挖掘通過挖掘相關的網絡日志記錄,來發現用戶訪問網絡頁面的模式,通過分析日志記錄中的規律。通常來講,經典的數據挖掘算法都可以直接用到網絡用法挖掘上來,但為了提高挖掘質量,研究人員在擴展算法上進行了努力,包括復合關聯規則算法、改進的序列發現算法等。

網絡數據挖掘比單個數據倉庫的挖掘要復雜得多,是一項復雜的技術,一個難以解決的問題。而XML的出現為解決網絡數據挖掘的難題帶來了機會。由于XML能夠使不同來源的結構化的數據很容易地結合在一起,因而使搜索多個異質數據庫成為可能,從而為解決網絡數據挖掘難題帶來了希望。隨著XML作為在網絡上交換數據的一種標準方式,目前主要的生物信息學數據庫都已經提供了支持XML的技術,面向網絡的數據挖掘將會變得非常輕松。如使用XQuery 標準查詢工具,完全可以將 Internet看作是一個大型的分布式XML數據庫進行數據瀏覽獲取、結構化操作等。

此外,數據挖掘還要考慮到的問題有:實時數據挖掘、人為因素的參與、硬件設施的支持、數據庫的誤差問題等。

一般的數據(庫)整合的方法有:聯合數據庫系統(如ISYS和DiscoveryLink), 多數據庫系統(如TAMBIS)和數據倉庫(如SRS和Entrez)。這些方法因為在整合的程度,實體化,查詢語言,應用程序接口標準及其支持的數據輸出格式等方面存在各自的特性而各有優缺點。同時,指數增長的生物數據和日益進步的信息技術給數據庫的整合也帶來了新的思路和解決方案。如傳統的數據庫主要是提供長期的實驗數據存儲和簡便的數據訪問,重在數據管理,而系統生物學的數據庫則同時對這些實驗數據進行分析,提供預測信息模型。數據庫的整合也將更趨向數據資源廣、異質程度高、多種數據格式、多途徑驗證(如本體學Ontology的功能對照)、多種挖掘技術、高度智能化等。

三、生命科學與生物信息學技術的整合

生物信息學的研究當前還主要集中在分子水平,如基因組學/蛋白質組學的分析,在亞細胞、細胞、生物組織、器官、生物體及生態上的研究才剛剛開始。從事這些新領域的研究,理解從基因型到表型的生命機理,整合生物信息學將起到關鍵性的作用。整合生物信息學將從系統的層次多角度地利用已有的生物、信息技術來研究生命現象。另外,由其發展出的新方法、新技術,其應用潛力也是巨大的。圖2顯示了生命科學與生物信息學技術的整合關系。

目前生命科學技術如基因測序、QTL定位、基因芯片、蛋白質芯片、凝膠電泳、蛋白雙雜交、核磁共振、質譜等實驗技術,可以從多方面,多角度來分析研究某一生命現象,從而針對單一的實驗可能就產生大量的不同層次的生物數據。對于每個技術的數據分析,都有了大量的生物信息學技術,如序列分析、motif尋找、基因預測、基因注解、RNA分析、基因芯片的數據分析、基因表達分析、基因調控網絡分析、蛋白質表達分析、蛋白質結構預測和分子模擬、比較基因組學研究、分子進化和系統發育分析、生物學系統建模、群體遺傳學分析等。整合生物信息學就是以整合的理論方法,通過整合生物數據,整合信息技術來推動生命科學干實驗室與濕實驗室的組合研究。其實踐應用涉及到生物數據庫的整合、功能基因的發現、單核苷酸多態性/單體型的了解、代謝疾病的機理研究、藥物設計與對接、軟件工具以及其他應用。

在整合過程中,還應該注意以下幾方面內容:整合數據和文本數據挖掘方法,數據倉庫的設計管理,生物數據庫的錯誤與矛盾,生物本體學及其質量控制,整合模型和模擬框架,生物技術的計算設施,生物信息學技術流程優化管理,以及工程應用所涉及的范圍。

四、學科、人才的整合

整合生物信息學也是學科、教育、人才的整合。對于綜合性高等院校,計算機科學/信息學、生物學等學科為生物信息學的發展提供了學科基礎和保障。如何充分利用高校雄厚的學科資源,合理搭建生物信息學專業結構,培養一流的生物信息學人才,是我們的任務和目標。

計算機科學/信息學是利用傳統的計算機科學,數學,物理學等計算、數學方法,如數據庫、數據發掘、人工智能、算法、圖形計算、軟件工程、平行計算、網絡技術進行數據分析處理,模擬預測等。生物信息學的快速發展給計算機科學也帶來了巨大的挑戰和機遇,如高通量的數據處理、儲存、檢索、查詢,高效率的算法研究,人工智能的全新應用,復雜系統的有效模擬和預測。整合生物信息學的課程設計可以提供以下課程:Windows/Unix/Linux操作系統、C++/Perl/Java程序設計、數據庫技術、網絡技術、網絡編程、SQL、XML相關技術、數據挖掘,機器學習、可視化技術、軟件工程、計算機與網絡安全、計算機硬件、嵌入式系統、控制論、計算智能,微積幾何、概率論、數理統計、線性代數、離散數學、組合數學、計算方法、隨機過程、常微分方程、模擬和仿真、非線性分析等等。

生物學是研究生命現象、過程及其規律的科學,主要包括植物學等十幾個一級分支學科。整合生物信息學的課程設計可以提供以下課程:普通生物學、生物化學、分子生物學、細胞生物學、遺傳學、分子生物學、發育生物學、病毒學、免疫學、流行病學、保護生物學、生態學、進化生物學、神經生物學、基礎醫學、生物物理學、細胞工程、基因工程、分子動力學、生物儀器分析及技術、植物學、動物學、微生物學及其他生物科學、生物技術專業的技能課程。

作為獨立學科的生物信息學,其基本的新算法,新技術,新模型,新應用的研究是根本。課程涉及到生物信息學基礎、生物學數據庫、生物序列與基因組分析、生物統計學、生物芯片數據分析、蛋白質組學分析、系統生物學、生物數據挖掘與知識發現、計算生物學、藥物設計、生物網絡分析等。另外,整合生物信息學的工程應用,也需要了解以下學科,如生物工程、生物技術、醫學影像、信號處理、生化反應控制、生物醫學工程、數學模型、試驗設計、農業系統與生產等。

此外,整合生物信息學的人才培養具有很大的國際競爭壓力,培養優秀的專業人才,必須使其具備優良的生物信息科學素養,具有國際視野,知識能力、科研創新潛力俱佳的現代化一流人才。所以要始終緊跟最新的學術動態和發展方向,整合學科優勢和強化師資力量,促進國際交流。

五、總結及展望

二十一世紀是生命科學的世紀,也是生物信息學快速不斷整合發展的時代,整合生物學的研究和應用將對人類正確認識生命規律并合理利用產生巨大的作用。比如進行虛擬細胞的研究,整合生物信息學提供了從基因序列,蛋白結構到代謝功能各方面的生物數據,也提供了從序列分析,蛋白質拓撲到系統生物學建模等方面的信息技術,從多層次、多水平、多途徑進行科學研究。

整合生物信息學是基于現有生物信息學的計算技術框架對生命科學領域的新一輪更系統全面的研究。它依賴于生物學,計算機學,生物信息學/系統生物學的研究成果(包括新數據、新理論、新技術和新方法等),但同時也給這些學科提供了更廣闊的研究和應用空間,并推動整個人類科學的進程。

我國的生物信息學教育在近幾年已經有了長足的進步和發展。未來整合生物信息學人才的培養還需要加強各學科有效交叉,尤其是計算機科學,要更緊密地與生命科學結合起來,共同發展,讓我們的生命科學、計算機科學和生物信息學的教育和科研走得更高更前沿。

作者簡介:

第9篇

關鍵詞:生物信息學;生物芯片;藥物開發;疾病檢測

Abstract: Bioinformatics was emerged in the 1980s,which is a new cross- discipline and then was applicated in the wide range of areas. Bioinformatics in biochips, drug development, energy fields, crop genetic analysis, disease detection are introduced in the context . Bioinformatics focuses on the collection, collation and services of biological data to discover laws guiding research,which is an indispensable tool for bioinformatics research.

Keywords: Bioinformatics;Biochip;Drug development;Disease detection

現代生物信息學是現代生命科學與信息科學、計算機科學、數學、統計學、物理學和化學等學科相互參透而形成的交叉學科,是應用計算機技術和信息論方法研究蛋白質及核酸序列等各種信息的采集、存儲、傳遞、檢索、分析和解讀,以幫助了解生物學和遺傳學信息的科學[1]。

1.生物芯片

生物芯片(Biochip)是指通過微電子、微加工技術在芯片表面構建的微型生物化學分析系統,以實現對細胞、DNA、蛋白質、組織、糖類及其他生物組分進行快速、敏感、高效的處理和分析

基因芯片是目前最重要的生物芯片。

基因微陣列是通過將核苷酸或DNA作為探針,緊密地排列在硅片等固相支持物上,然后將經過某種標記后的樣品與微點陣雜交進行檢測。根據雜交信息可以確定靶DNA的表達情況以及突變和多態性存在與否。芯片技術的突出特點是高度并行化、多樣化、微型化和自動化等,因而被廣泛用于測序、轉錄情況分析、不同基因型細胞的表現分析以及基因診斷、藥物設計等領域,成為后基因組時代基因功能分析的制程技術之一 [2]。

2.藥物開發

未來的藥物研究過程將是基于生物信息知識挖掘的過程。基因組研究對現代與未來藥物學和藥理學產生了重大影響,尤其為新藥篩選、藥靶設計和分子藥理學研究,以及疑難病的藥物設計和途徑選擇等提供了新的方法論基礎?;蚪M學與藥物學的結合已經產生出一門新的分支學科---藥物基因組學[3]。制藥公司特將充分應用藥物基因組學及生物信息學的理論知識和技術手段來設計臨床試驗并模擬和分析理論與實驗數據。這將大大減少新藥開發成本,縮短開發周期,為患者、醫生和健康醫療機構等諸方面帶來選擇性治療的革命。生物信息學也可用于破譯遺傳密碼、篩選免疫基因以及進行新藥研發等領域[4]。

3.生物信息學在能源領域的應用

綜合運用GenBank等數據庫以及各種分析軟件將各類數據對比分析,人們已經能夠使用酶來降解生物聚合物,通過篩選有益細菌來獲取高級的生物催化劑,從而提高使用的產量[5-6]。原核生物采礦技術也得到了迅速發展。同樣,不同類型的煤也會發生類似的生物轉變,可以轉變成甲烷。人們通過生物信息學技術手段開采能源的新方法,可提高能源的采出率和降低開采難度。

通過生物信息學技術改良生物基因,使之轉變為生物能源,這是解決能源短缺問題的途徑之一。這主要通過生物催化劑的基因轉變和代謝工程,利用酶和細菌對生物體的碳氫化合物進行新陳代謝優化,從而用于開發生產生物乙醇等生物能源。

4.農作物基因分析

對重要農作物及經濟植物進行基因組分析也需要生物信息學工具。例如,在植物基因組調控和結構研究中,涉及生物信息學的內容有:調控序列數據庫;基因表達的調控分析;基因組序列識別;基因結構預測,轉錄與翻譯控制模型;大規模基因數據集分析。

通過數據檢索、序列對比、同源性分析、結構預測等工具軟件的運用,可將分析數據應用于農作物模式植物研究、種質資源保存、病蟲害防治、作物遺傳育種等[7]方面,從而為解決模式植物的基因組測序、保護瀕危種質資源、控制動植物病蟲害和培育優良高產的農作物品種方面提供可靠保障。

5.疾病檢測

基因組計劃產生的基因及基因多態性數據與臨床醫學檢驗結果之間的關系需要利用生物信息學的方法去分析、去揭示,根據這樣的分析結果,科學家能夠更準確地了解疾病產生的根本原因,更精確地預測某個人患癌癥、糖尿病或者心臟病的可能性,從而徹底改變我們診斷、治療和預防疾病的方式[8]。

6.小結與展望

生物信息學的發展將給生命科學研究帶來明顯的變革,將幫助人類認識生命的起源、進化、遺傳和發育的本質,解釋人體生理和病理過程的分子基礎,為人類疾病的預測、診斷、預防和治療提供合理和有效地方法或途徑,同時還將對醫藥、衛生、食品、農業等產業產生巨大的推動作用,甚至可能引發新的產業革命。21世紀是生命科學的時代,生物信息學為生命科學的發展提供了遍歷和強有力的技術支持,推動者生命的迅速發展。

參考文獻:

[1] 張明德.生物信息學[M].北京:科學出版社,2004.

[2] 蔡祿.生物信息學教程[M].北京:化學工業出版社,2008.

[3] 姜遠英.藥物基因組學[M].北京:人民衛生出報社,2011.

[4] 李松,王英.生物信息學在生命科學研究中的應用[J].熱帶醫學雜志,2009,9(10)1:218-1220.

[5] 趙進,駱江濤.能源:未來生物技術的挑戰[J].國外油田工程,2008,24(8)5:3-54.

[6] 劉永軍,金鵬康.石油集輸系統中微生物群落結構研究[J].微生物學雜志,2009,29(3) 2:5-31.

第10篇

關鍵詞:生物信息學 實踐能力 課程體系 培養模式

中圖分類號:G4 文獻標識碼:A 文章編號:1673-9795(2013)07(a)-0047-02

1 生物信息學概述

伴隨現代高通量分子生物學技術的快速發展,生物信息學在生物醫藥領域的應用日益深入[1]。作為數學理論、計算機技術和生物醫藥研究的整合學科,生物信息學在生物進化、生理功能、疾病治療、藥物開發、農林產業等眾多領域均具有重要的應用價值,是研究生命科學、醫藥科學內在定量規律的重大交叉前沿學科。鑒于生物信息學的重要研究價值和廣闊的產業化前景,發展生物信息學專業教育,有計劃的建設生物信息學專業課程體系,開展面向實踐能力的生物信息學人才培養對促進現代生物醫學發展有重要的意義[2]。

2 生物信息學教育發展現狀

生物信息學發展起步于20世紀末,在短短的十幾年中,生物信息學已經發展成為了橫跨多個研究領域的朝陽專業,國內眾多高等學府、科研院所相繼開設了生物信息本科和研究生專業[3]。但是,在實際的教學和研究過程中,絕大數單位依托于單一的數學、計算機或生物學專業開展,人才培養模式尚處于探索階段,在培養過程存在生物信學理論基礎薄弱、課程體系不健全、課程內容不完善、專業教材匱乏、專業師資隊伍缺乏等問題。

哈爾濱醫科大學生物信息科學與技術學院是全國領先創辦生物信息學專業的單位之一,多年來致力于生物信息學的科學研究和本、碩、博各類人才培養,堅持以學生為本,以培養高素質生物信息學專門人才為目標,深化教學改革,以滿足日益發展的生物信息學高端人才需要[4]。為解決生物信息學的教育教學問題,培養高水平的現代生物信息學人才,我們提出立足國內高等生命科學與醫學教育,建立面向實踐能力培養的生物信息學專業課程體系,以實現高質量培養具有理工科創新思維能力的生物醫學人才,為我國生命科學―醫藥學科教育教學、科學研究和產業化輸送大批專門人才。

3 生物信息課程體系建設

3.1 課程建設目標和指導方針

結合生物信息學才培養目標,經過數十名骨干教師十余年生物信息學教學實踐及人才培養成果經驗反饋,我們適時調整本科生課程及教學內容,逐步建立起面向實踐能力培養的生物信息學專業課程體系。奠定了本科生的人文素養與科學素養并重,公共基礎理論及專業理論相輔相乘,重視學生理工生物醫學全方面素質提高,重點突出學生實踐能力的人才培養方針,并在實踐中培養了大批具有創新思維能力的優秀高端生物信息學專業人才。

3.2 生物信息學課程體系建設方案

考慮到生物信息學多學科交叉特點和國家大學生培養要求,及學生未來就業深造所必需的基礎和專業能力,我們在國內率先開創了生物信息學專業人才培養課程體系,并在醫學院校獨立開展近40余門數理基礎課程和生物信息學專業課程。主要的課程建設情況如下:

(1)公共基礎課程(國家限修課):政治理論課程、公共外語、體育。

(2)生物醫學基礎課程:解剖生理學、發育生物學、生物化學、細胞生物學、分子生物學、生物技術實驗、分子藥理學等。

(3)計算機基礎課程:計算機基礎、高級語言程序設計(C++&JAVA)、數據結構、Perl語言程序設計、數據庫系統原理、Linux操作系統與程序設計等(上述課程均含上機實踐)。

(4)數學基礎課程:數學分析、高等代數、概率論與數理統計、數理邏輯、組合數學與圖論、微分動力學方程、運籌學等(上述課程均含上機實踐)。

(5)專業基礎課程:信息論基礎、生物統計學、生物醫學圖像處理、模式識別、優化算法、隨機過程、生物信息學概論、生物信息數據挖掘、生物信息軟件設計與開發、分子生物軟件工程、生物信息學數據可視化、專業外語等(上述課程均含實驗)。

(6)專業課程:生物芯片技術、結構生物學、分子進化、分子生物網絡、基因組信息學、蛋白質組信息學、藥物基因組信息學、統計遺傳學、計算表觀遺傳學、計算機輔助藥物設計等(上述課程均含實驗)。

(7)綜合實踐課程:課題標書設計、科研論文寫作、生物信息學進展等。

我們在實踐基礎上開創的面向實踐能力培養的生物信息學專業課程體系不同于其他院校,具有明顯的跨專業交叉性教學計劃特色。該課程體系著眼于基礎理論與實踐應用相結合、素質培養與專業培養相結合、扎實穩妥與創新思維相結合。注重學生在醫學、生物學、數學、計算機科學方面的基礎性教育,同時,強調了創新型人才培養、高精尖人才培養、特色化人才培養。厚基礎、寬口徑,使學生在本科階段不但打好將來從事生物信息學、系統生物學、生物醫藥等相關領域創新性研究工作基礎,更重要的是該專業課程體系與實踐密切聯系,切合相關研究開發與產業實際,能夠培養學生從事原始創新研究與產業開發的能力。

4 生物信息學本科生培養模式建設

4.1 五年制分段培養與多學科教育體系

目前,我們根據生物信息學交叉學科人才培養特點,考慮到基礎課程多,實踐能力要求高等因素,采取“2+2+1”的五年制本科人才培養模式,包括兩年理論基礎課程、兩年專業課程與一年實踐應用課程培養(含科研訓練+畢業設計)。此模式在學生就業和用人單位反饋中證實具有顯著的人才培養效果。

課程體系建設依托于生物醫學綜合優勢及深厚的數學、計算機科學功底,通過理論教學與實踐訓練中的知識技能交叉、滲透,培養適應21世紀生命學科與轉化醫學領域急需的生物信息學復合型人才。在此基礎上,從學科的交叉性出發,進一步加強不同類別課程之間的有機融合,加大相關領域知識的整合力度,建立更為緊密、完善,符合生物信息學學科特點的課程體系,將進一步推動學科的發展和系統性教育理論體系的建立。

4.2 面向實踐能力培養的本科生教育模式

在本科學生的培養過程中,我們特別重視學生實踐能力的培養,通過教研一體化、學業導師制、報告研討制等先進的教學方法,引導學生早期接觸生物信息學應用領域和科學研究,在鞏固學習知識的同時,加強對學科的認識和對未來的把握。

“教研一體化”的實踐教學模式:面向實踐能力培養的課程體系建設,要求教學模式上的改革,使得人才培養模式由注重多數學生基礎理論知識培養的大眾教育,向注重少數高精尖創新能力培養的精英式教育轉變。充分利用骨干教師在生物信息學領域的研究經驗,將科學研究成果快速轉化成優秀的教學素材,培養學生動手、實踐、創新能力,注重培養學生實際產業化的認知水平和實踐能力。

本科生學業導師制:本科生進入專業課教學階段,實行學業導師制。采取學生與一線骨干教師雙向選擇方式,使每名學生擁有自己的學業指導教師。導師為學生提供思想教育和專業輔導,并通過指導大學生數學建模競賽、創新創業科研訓練、早期科學研究等方法促進學生的學習盡頭和對專業的深入認識。

專題報告與研討制度:本科生畢業設計階段,強調學生的“主體”學習地位,使學生選擇感興趣的學科方向,在導師指導下進行科研訓練與實踐。要求學生自主利用網絡等各方面資源,獲取學科前沿信息,并以專題報告形式展示學習成果,通過提問、研討、總結,提升自身專業素養及專業技能,獨立完成達到核心期刊發表水平的生物信息這科研課題。

5 生物信息學課程體系建設的意義

在全體師生的努力下,經過多年的實踐探索,我們對生物信息學課程體系從基礎到實踐的不同階段進行分段式、推進式的改革與建設。在政策措施、人員配備、經費匹配等各方面給予鼎力支持。優先保證面向實踐能力培養的生物信息學課程體系快速、有效的建設,已經形成國內頂尖的生物信息學本科教育理論和實踐團隊,并為國家輸送著大批高水平生物信息學人才。

面向實踐能力培養的生物信息學課程體系建設,一方面能夠完善生物醫學本科生、研究生的知識結構,提高運用理工科思維和技能解決復雜生命科學問題的綜合科研能力,更為有效的實現生命科學攻關和創新研究理論形成;另一方面,生物醫藥是我國科技研發的薄弱環節,在課程體系建設基礎上,培養適用于現代高通量分子生物學技術的創新型生物信息學人才,將為我國的醫藥物研發提供強有力的推動作用,并有利于創新臨床診斷技術開發和個性化醫療的實現,促進科技轉化,產生潛在的、不可估量的經濟價值。

6 致謝

本文研究內容是在黑龍江省高等教育教學改革專項項目,黑龍江省高教學會重點課題創新型生物醫學信息學人才培養模式研究,黑龍省創新創業人才培養項目面向生物信息產業開發的創新型專業人才培養模式研究與實踐,哈爾濱醫科大學醫學教育研究課題面向實踐能力培養的生物信息學專業課程整合設計研究資助下完成的,課程體系的建設得到哈爾濱醫科大學學校領導的支持,并得到兄弟院校相關領域專家、學者的幫助,在此一并感謝。

參考文獻

[1] Ned Wingreen and David Botstein. Back to the Future:Education for Systems-level Biologists[J].Nature Review Molecular Cell Biology,2006,7(11):829-832.

[2] 徐良德,馬曄,孫紅梅,等.八年制醫學教育中開展《生物信息學》教學的實踐探討[J].素質教育,2011,11:33-34.

第11篇

【摘要】

目的 應用生物信息學分析軟件預測分析結核分支桿菌ESAT-6基因及相關蛋白的特性。方法 應用NCBI、Expasy等在線生物信息學網站及DNAstar、Rasmol等軟件包分析ESAT-6并進行同源比對;預測二級、三級結構,以及預測主要抗原表位等。結果 結核分支桿菌重組抗原ESAT-6與已發表氨基酸序列同源性為90%。預測該蛋白分子質量約為9885.7Da,PI為4.6,4個抗原表位,其結構域位于56-87位。結論 生物信息學技術在結核分支桿菌ESAT-6重組抗原研究中有一定的理論和應用價值。

【關鍵詞】 生物信息學;結核分支桿菌;ESAT-6;重組抗原

Abstract: Objective To predict the structure and function of recombinant antigen ESAT-6 of Mycobacterium tuberculosis using bioinformatics method. Methods By online analysis at bioinformatics websites such as NCBInibi.nlm.nih.gov/)and Expasy (cn.expasy. org/), and employing software packages such as DNAstar and Rasmol to do multi-sequence homological alignment, secondary structure and tertiary structure,antigenic epitope analysis,etc. Results Compared with the amino acid sequence of ESAT-6 of Mycobacterium tuberculosis published , the homologies was 90%. Analysis of the predicted protein indicated a molecular mass of 9885.7 KDa, PI was 4.6, function sites and four antigen pitope were found. Conclusion Bioinformatic is valuable to the study ESAT-6 of Mycobacterium tuberculosis.

Key words:bioinformatics; mycobacterium tuberculosis;ESAT-6;recombinant protein

生物信息學是在生命科學的研究中, 以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一, 同時也是21 世紀包括臨床醫學在內的自然科學的核心領域之一。對于感染性疾病中病原體、生物傳播媒介、宿主的整體基因信息分析, 抗感染藥物的設計, 耐藥機制的闡明, 疫苗的研發、個體化的預防策略等均有著日益重要的作用[1]。本文通過生物信息學方法對本室已獲得的ESAT- 6( 6KDa Early Secretory Antigenic Target)基因進行進一步預測分析,希望從中盡可能多地搜索和了解該基因的特性及相關蛋白的結構與功能的信息,以便為結核病防治篩選新的診斷抗原分子,為實驗研究和應用前景分析提供信息。

1 材料與方法

1.1 材料

1.1.1 ESAT-6 DNA序列

全長基因序列為本實驗室從結核分支桿菌標準菌株H37Rv中通過PCR方法獲得并亞克隆于pGEM-T中,經BamH I、Xohl I雙酶切初步鑒定為陽性克隆菌株送往上海生物工程公司進行核苷酸測序。將克隆基因測序結果輸入DNAStar /EditSeq,查找開放閱讀框,并對其所編碼的氨基酸序列用DNAStar /Protean軟件進行分析。

1.1.2 分析軟件

DNAStar(V5.01),下載網址:dnastar.com; RasMoL Windows2.7.3,下載網址:Berns tein-plus-so ns. Com/ software/ RasMol-2.7.3/。

1.2 方法

通過NCBI網站(ncbi.nlm.nih.gov/)ORF finder 以及Prot Param(ca.expasy.org/tools/protparam/html)對序列與GenBank中的序列進行在線比對、確定其完整編碼序列并預測蛋白質理化性質。通過蛋白質分析專家系統Expasy(ca.expasy.org/)所提供的蛋白質組學和序列在線分析工具:PredictProtein (http:cubic.bioc. columbia. edu/predi ctprotein/)預測氨基酸序列的跨膜區和二級結構;通過SMART(http: //smart. embl-heidelberg.de/smart/show_motifs.pl)預測其結構域;通過Mobyle (mobyle. pasteur.fr/cgi-bin/portal. py?form= psort)進行亞細胞定位;利用SWISS-MODEL(swissmodel.expasy.org/)進行二級三級結構的預測分析,用Rasmol軟件包中的三維分子視屏顯示。

2 結果

2.1 ESAT-6核苷酸及編碼的氨基酸序列及理化特性

ESAT-6基因序列由288個bp組成,編碼95個氨基酸,氨基酸序列為:

MTEQQWNFAGIEAAASAIQGNVTSIHSLLDEG

KQSLTKLAAAWGGSGSEAYQGVQQKWDATATELN

NALQNLARTISEAGQAMASTEGNVAGMFA。用DNAStar軟件及ExPASy Protemics Server protparam 預測氨基酸序列的分子質量、等電點、穩定性指數等。綜合二者結果如下:ESAT-6分子質量單位為9885.7KDa,理論等電點為4.6,堿性氨基酸殘基(Arg+Lys)百分比為4.3%,酸性氨基酸殘基(Asp+Glu)百分比為9.5%,在哺乳動物、酵母、大腸埃希菌中的半衰期分別為30h(體外)、>20h(體內)和>10h(體內),不穩定指數為53.37,脂溶性指數為69.05,兩親性指數為-0.359。

2.2 ESAT-6氨基酸序列的同源性分析

與NCBI/GenBank上發表的ESAT-6(GenBank序列號:pdb|1WA8|B)氨基酸序列進行比較分析,結果發現同源性為90%(圖1)。

2.3 ESAT-6二級結構預測

用DNAStar /Protean分析重組蛋白特性及二級結構見圖2(封3)。結果顯示ESAT-6的二級結構中含有較多的α-螺旋結構(占78%),β-片層、轉角(Turn)、無規則卷曲(Coil)依次為1%、5%和16%。

2.4 ESAT-6的跨膜區域、結構域預測及亞細胞定位

跨膜區域如圖3所示(封3),該蛋白位于細胞外,說明為分泌性蛋白。SMART預測結果顯示ESAT-6的結構域位于56-87位(QKWDATATELNNALQNLARTISEAGQAMASTE)。存在于細胞核的可能性為26.1%,在線粒體上存在的可能性為39.1%,在胞漿的可能性為34.8%。

2.5 ESAT-6的親水性及疏水性分析

根據ProtScale軟件預測結果(分值越高,其疏水性越強,分值越低,親水性越強),與跨膜區域的推測結果一致,其疏水性較強。就整體而言,親水性氨基酸分布在整條鏈上,為兩親性蛋白,見圖4(封3)。

2.6 ESAT-6的抗原表位肽段的預測

用Predicting Antigenic Peptides對ESAT-6抗原表位進行預測,結果表明該蛋白有4個抗原位點,見圖5(封3),分別為:10-16(GIEAAAS)、18-30(IQGNVTSIHSLLD)、35-41(SLTKLAA)、50-56(AYQGVQQ)。

2.7 ESAT-6的三維結構預測

Internet/SW ISSMODEL /EXPASY/ swiss2spdbv37 sp5分析模擬ESAT-6重組蛋白質三維結構見圖6(封3)。

3 討論

近年來研究表明,重組蛋白抗原研究是結核病血清學診斷研究的熱點。重組蛋白抗原的獲得為結核病診斷提供了極大的方便。利用基因工程技術可獲得質量更好,純度更高的蛋白抗原,為結核病血清學診斷方法及蛋白質芯片檢測技術的建立奠定了堅實的基礎。目前發現的結核分枝桿菌蛋白抗原主要有14KD、16KD、38KD、mtb81和ESAT-6等[2-6]。其中,ESAT-6抗原是早期分泌抗原,是區別結核桿菌和非結核桿菌的最佳候選蛋白抗原,也是目前研究蛋白抗原中較為敏感和特異的一種較為理想的免疫診斷蛋白抗原。

傳統生物學認為,蛋白質的序列決定了它的結構,也就決定了它的功能[7]。蛋白質的功能不僅取決于其氨基酸組成順序決定的一級結構,在很大程度上生物學活性取決于其高級結構。然而通過實驗方法獲得蛋白質結構不僅成本高而且速度慢。因此,隨著近10年來生物學分子序列信息的發展,目前已經可以用理論預測的方法獲得大量的結構和功能信息,用生物信息學的方法,通過計算機模擬相關的輔助信息,可以用較低的成本和較快的時間就能獲得可靠的結果[8]。DNAStar軟件是一個常用的功能強大的基因和蛋白質綜合分析軟件。

本研究中我們利用生物信息學技術對獲得的重組ESAT-6基因所編碼蛋白分子在一級結構分析的基礎上,又進行了蛋白特性及高級結構的初步分析。根據對ESAT-6蛋白氨基酸序列的一、二級結構分析預測, 我們對此新基因有了一定的了解:該基因開放閱讀框長度為288bp,推導編碼95個氨基酸,分子量約為9885.7Da,理論等電點為4.6,不穩定指數為53.37,脂溶性指數為69.05,兩親性指數為-0.359。同源性比對發現其基因序列與Genbank公共數據庫檢索出的ESAT-6基因序列的同源性比較發現,它們的基因幾乎完全相同(同源性達99%)。提示該蛋白具有較好的遺傳學穩定性,適合作為結核病診斷抗原研究的候選分子。一般來說,由于在有機體內部親水性殘基位于表面,因此蛋白質的親水部位與蛋白質的抗原位點有密切的關系。而無規則卷曲區域除了決定蛋白質的功能外, 與抗原表位也有關[8]。經分析,該序列中α螺旋和無規則卷曲的比例為94%,提示該蛋白有很好的可塑性,可能與其功能有關。SMART預測結果顯示ESAT-6的結構域位于56-87位。亞細胞定位表明該蛋白存在于細胞核的可能性為26.1%,在線粒體上存在的可能性為39.1%,在胞漿的可能性為34.8%。綜合本研究的親水性、疏水性、二級結構等預測結果發現:ESAT-6親水性和可塑性較大、抗原性指數較高,這為ESAT-6抗原表位的確定提供有力的證據。此外,通過專業分析軟件明確了ESAT-6蛋白抗原表位位點有4個,抗原表位的肽段序列的確定,為將來進一步開展的結核病診斷血清價值的研究提供理論依據,并為其他蛋白質抗原表位的分析提供了一種可借鑒的手段。ESAT-6重組蛋白的三級結構模擬能夠直接提供更多的蛋白質立體構象信息,這對ESAT-6進一步的研究和應用提供很好的線索及數據平臺。

對ESAT-6基因的生物信息學分析為研究該基因的功能和其在診斷、治療及預防方面的應用價值研究提供了信息。

參考文獻

[1]李大江,劉焱斌,劉 凱.生物信息學在未來感染病學教學中的地位和作用[J].華西醫學,2006,21 (3):474-476.

[2]Verbon A, Hartskeerl RA,Sehttitema A,et al.The 14,000 moleceular-weight antigen of Mycobacterium tuberculosis is related to the alpha-crystallin family of low-molecular-weight heat shock proteins[J].J Bacteriol,1992,174:1352-1359.

[3]Jacket PS,Bothamley GH,Barta HV,et al.Specificity of antibodes to immunodominant mycobsterial antigens in pulmnonary tuberoulosis[J].J Clin Mierobiol,1988,26:2313-2318.

[4]Andersen AB,Hansen EB.Structure and mapping of antigentic domains of protein antigen b, 38000-molecular-weight of Myeobacterium tuberculosis[J].Infect Immun,1989,57:2481-2488.

[5]Arend SM,Engelhord AC,Groot G,et al.Tuberculin skin testing compared with T-cell responses to Myeobectedum tubercufosis specific and noaspecific antigens for detection of latent infection in persons with recent tuberculosis contact[J].Clin Diagn Lab Immunol ,2001, 8: 1089-1096.

[6]Doherty TM,Demissie A, Olobo J, et al. Immune responses to the Mycobacterium tuberculosis specific antigen ESAT-6 signal subclinical infection arroag contacts of tuberculosis patients[J].J Clin Micmblol, 2002, 40: 704-706.

第12篇

【關鍵詞】 亞洲帶絳蟲 烯醇酶 結構 能 生物信息學

Abstract: 【Objective】 To get the messages on the structures and characteristics of enolase from Taenia asiatica(T.a.ENO) by bioinformatics. 【Methods】 A full-length cDNA sequence encoding enolase from cDNA plasmid library of Taenia asiatica was identified by using tools of bioinformatics at webs sites of NCBI. The characteristics of the deduced protein including the physico-chemical characteristics, modification sites after translation, domains, subcelluar location, topological structure, secondary structures, and 3D structure were predicted by employing bioinformatics software package supplied by the website of ExPaSy. 【Results】 The full cDNA sequence encoding T.a.ENO includes a complete open reading frame of 1299bp which encoded a putative protein of 433 amino acids. The coding region is 205 bp ~ 1503 bp. The amino acids sequence has a high identity with enolase from other species in GenBank. The protein has one transmembrane region and stable physico-chemical characteristics. The molecular weight of T.a.ENO is predicted to be 46653.5u. The protein has three hydrophilic regions. The relationship of phylogenesis between T.a.ENO and enolase of other trematodes is close. 【Conclusion】 The cDNA sequence encoding enolase was screened from cDNA library of adult Taenia asiatica by bioinformatics. The structure and characteristics of the gene and protein of T.a.ENO were obtained.

Key words:Taenia asiatica; Enolase; structure; function;bioinformatics

亞洲帶絳蟲(Taenia asiatica,T.a.)廣泛分布于東南亞,包括我國西南地區及臺灣, 韓國、泰國、印尼和菲律賓等地[1-3]。人們通過食生或半生含有亞洲帶絳蟲囊尾蚴的豬、或野豬的內臟, 特別是肝臟而感染,對勞動生產力和畜產品破壞極大。亞洲帶絳蟲成蟲形態與牛帶絳蟲成蟲相似,但其幼蟲卻與豬帶絳蟲的囊尾蚴相似。亞洲帶絳蟲成蟲與牛帶絳蟲成蟲的形態極為相似,人們長期以來把亞洲帶絳蟲誤認為是牛帶絳蟲。上世紀80年代以來人們對其形態學、流行分布、中間宿主及實驗動物感染、遺傳學進行了研究,但大部分工作仍局限在細胞水平[4]。本課題組構建了亞洲帶絳蟲成蟲的cDNA質粒文庫,獲得了大量的Unigene,在這些工作的基礎上開展了對亞洲帶絳蟲基因組及蛋白質組學的研究,以期從分子水平尋求3種帶絳蟲的起源、演化和彼此間的親緣關系及宿主選擇性的形成等問題的答案。本文分析的烯醇酶(enolase, ENO)是進行這方面研究中感興趣的分子之一。

1 材料與方法

1.1 材 料

亞洲帶絳蟲成蟲全長cDNA質粒文庫, 由上海聯合基因公司構建。大規模測序得到多個表達序列標簽(EST),Washington University BLAST(WU-BLASTX)方法歸并EST獲得UniGene[5], 由本課題組與該公司合作完成。編碼亞洲帶絳蟲烯醇酶(T.a.ENO)基因的文庫質粒編號為HC1-G6。其他寄生蟲及其他物種的ENO氨基酸序列源自GenBank(http://www.ncbi.nlm.nih.gov/Genbank/index.html):肝片形吸蟲烯醇酶基因(Fasciola hepatica ENO,登錄號AAA57450),棘口吸蟲烯醇酶基因(Echinostoma caproni ENO,登錄號ABI26619),秀麗隱桿線蟲烯醇酶基因(Caenorhabditis elegans ENO,登錄號CAH10783),布氏錐蟲烯醇酶基因(Trypanosoma brucei ENO,登錄號EAN77714),人烯醇酶基因(Homo sapiens ENO1,登錄號AAY43128;Homo sapiens ENO2,登錄號AAH02745;Homo sapiens ENO3 登錄號AH17249),褐鼠(Rattus norvegicus ENO 登錄號AAH83566), 牛烯醇酶基因(Bos taurus ENO 登錄號AAI02989),野豬烯醇酶基因(Sus scrofa ENO 登錄號ABC75829)。

1.2 方 法

1.2.1 T.a.ENO基因的識別

通過美國國家生物技術信息中心(National Center for Biotechnology Information, NCBI, http://www.ncbi.nlm.nih.gov/)網站的基本局部比對搜索工具(basic local alignment search tool,BlastX,http://www.ncbi.nlm.nih.gov/BLAST/)程序[6],將文庫質粒編號為HC1-G6的插入序列與GenBank中的序列進行比對,分析該基因的翻譯序列與其他蛋白質氨基酸序列的一致性、判斷其是否為全長基因。利用rpsblast分析其保守功能域。

1.2.2 T.a.ENO核酸和氨基酸序列分析

綜合性蛋白核酸分析工具包(vector NTI suite)中的ORF Finder確定其完整的編碼序列(complete coding sequence,cds),然后用Translation程序推導并輸出氨基酸序列。AlignX對T.a.ENO與GenBank中其他物種的同源蛋白氨基酸序列進行比對分析,構建分子進化樹。

1.2.3 T.a.ENO蛋白理化性質及結構分析

通過瑞士生物信息學研究所的蛋白分析專家系統(Expert Protein Analysis Systerm,ExPASy, http://ca.expasy.org/)所提供的蛋白組學和序列分析工具, 對目的基因及其產物進行生物信息學分析。 預測T.a.ENO的理化性質,如分子量、等電點、氨基酸組成、摩爾消光系數、重組產物在細菌、酵母和哺乳動物細胞中的半衰期、在溶液中的穩定性等。預測T.a.ENO一級結構中糖基化、脂?;?、磷酸化、硫酸化等修飾位點、亞細胞定位。預測氨基酸序列的跨膜區和拓撲結構以及二級結構、分子的親水性、溶液中的分子形態等, 通過二級結構比對和折疊,對蛋白質的空間構象建模。

1.2.4 T.a.ENO的親水性分析

Pcgene軟件分析繪制氨基酸親水性分布圖,確定強親水性的線性表位位置。

2 結 果

2.1 文庫質粒編號為HC1-G6插入序列的Blastx分析

該基因是烯醇酶的同源基因,與GenBank中棘口吸蟲(Echinostomatidae caproni)的烯醇酶同源性高達78%。該克隆基因的5'端序列長于棘口吸蟲烯醇酶的完整編碼序列,所以該基因應該是亞洲帶絳蟲烯醇酶的全長基因序列,其最大的ORF就是其完整的編碼區(圖1)。用rpsblast分析發現有完整的烯醇酶的保守結構域(圖2)。

2.2 T.a.ENO蛋白質的理化性質

T.a.ENO的相對分子量理論值和等電點分別為46 653.5和6.77。含有5個半胱氨酸,預測這5個半胱氨酸之間形成二硫鍵的可能性較小,該蛋白在水溶液中280 nm處的摩爾消光系數為33 140 mol·L-1·cm-1;蛋白濃度為1 g/L時,半胱氨酸未形成二硫鍵時吸光系數(Abs)為 0.708。若其成熟肽N端為蛋氨酸時,在哺乳動物網狀紅細胞體外表達的半衰期為30 h, 在酵母和大腸埃希菌中表達的半衰期分別大于20 h和10 h。在溶液中的不穩定指數為32.33, 在溶液中性質穩定。疏水指數為89.47, 疏水性較高。

轉貼于

2.3 T.a.ENO翻譯后修飾、亞細胞定位的預測

用Motif scanning(Motifscan)分析T.a.ENO特定位點結果顯示,T.a.ENO含有6個潛在的酪蛋白激酶Ⅱ(CK2)磷酸化位點, 5個潛在的蛋白激酶C(PKC)磷酸化位點,2個酪氨酸激酶磷酸化位點,10個潛在的N-肉豆蔻酰位點, 1個潛在的天冬氨酸糖基化位點。T.a.ENO沒有分泌信號肽序列和質體以及線粒體定位序列。

2.4 T.a.ENO的拓撲結構、二級結構和親水性特征

用Predict protein預測結果如圖3所示。Htm預測該蛋白是一個膜蛋白,有1個跨膜區(M),N端位于膜內(i),C端位于膜外(o)。Sec預測α螺旋(H)、β折疊(E)和無規卷曲(空白部分)的比例分別是40.42 ∶ 21.15 ∶ 38.43。

2.5 T.a.ENO的親水性分析

利用 Pcgene軟件包預測T.a.ENO氨基酸的親水性分布(圖4)。推導其線性抗原決定簇的位置分別是:①Ah = 2.03 From 50 to 55:Arg-Asp-Gly-Asp-Lys-Asn;②Ah = 1.73 From 86 to 92: Asp-Gln-Glu-Lys-Ile-Asp-Glu;③Ah = 1.48 From 373 to 380:Arg-Ser-Gly-Glu-Thr-Glu-Asp-Ser(Ah,average hydrophilicity,平均親水性)。

根據拓撲圖,其中①和②序列位于膜內,③序列位于膜外,是另一個高親水性的線性表位。該序列位于膜外區域,而且③的序列是ENO蛋白質特征指紋序列。

2.6 T.a.ENO的三維結構圖和酶關鍵氨基酸的位置

利用同源建模法服務器(SWISS-MODEL)將T.a.ENO 與蛋白結構數據庫中的蛋白質三維結構進行匹配,輸回模擬的T.a.ENO三維結構圖,文件在綜合性蛋白核酸分析工具包中打開該蛋白質結構文件,將構成酶活性中心的關鍵氨基酸標示在結構圖上:ENO的關鍵氨基酸分別為第211位的谷氨酸(Glu211)、第343位的賴氨酸(Lys343)、和第371位的組氨酸(His371)[7],它們在空間位置上十分靠近,并且 His 371 出現在ENO的蛋白指紋區域[8](圖5)。

2.7 T.a.ENO與其他物種ENO的比較和分子進化樹的構建

應用vector NTI suite軟件鄰位相連法(neighbour joining 法)對 9 個物種11個ENO的氨基酸序列構建分子進化樹(圖6)。結果顯示在這9個物種中T.a.ENO與吸蟲屬的ENO的進化關系最近。這幾個物種ENO的關鍵氨基酸都處在相對保守的區域中。在與人的3個型別的ENO比對中,T.a.ENO與ENO3的同源性高達74.7%,與ENO1、ENO2同源性為74.3%(圖6),這與BlastX分析的結果是一致的。

3 討 論

生物信息學可以通過對已有的核酸和蛋白質序列數據庫進行掃描和比對,搜索目標序列特殊的結構特征(如各種亞細胞的定位信號、翻譯后的修飾位點、功能域等),對基因的功能進行初步的理論預測,為其功能研究尋找線索。生物信息學對基因的編碼區、限制性酶識別位點、編碼的蛋白質的理化性質(包括等電點、分子量、半衰期、穩定性、疏水性等)的分析,有助于采取合理的克隆和表達策略,選用適合的表達載體,提高目的蛋白高效的可溶性表達的可能性,獲得有活性的重組蛋白[5]。

本文分析亞洲帶絳蟲烯醇酶基因,在GenBank中有其同源序列,經多個生物信息學分析軟件預測,該基因與其他物種的烯醇酶編碼基因同源性較高,具有烯醇酶的特征氨基酸序列和保守功能域?;谶@個分析結果,作者認為可以在以后的實驗中驗證其是否具有催化2-磷酸甘油酸與磷酸烯醇式丙酮酸間轉化的活性、是否具有烯醇酶的其他已被確定的特點,從而確定其是否為亞洲帶絳蟲的烯醇酶編碼基因。

在進行驗證性的工作時,生物信息學分析獲得的結果(如:烯醇酶的分子量、等電點、在溶液中的穩定性、在不同系統或細胞中的半衰期等)可以幫助我們更好地進行實驗,避免實驗的盲目性。

烯醇酶是糖酵解途徑中催化2-磷酸甘油酸與磷酸烯醇式丙酮酸之間進行轉化的酶,是一個比較保守的蛋白,對它的分析可以提供一些亞洲帶絳蟲進化的信息。但由于目前GenBank中還沒有豬帶絳蟲、牛帶絳蟲及其他絳蟲的烯醇酶氨基酸序列,所以在本文中僅將T.a.ENO氨基酸序列與可以作為亞洲帶絳蟲的宿主的人、豬、牛、鼠,以及其他寄生蟲的烯醇酶進行了比對、構建了進化樹。這個比對結果雖然不能判斷T.a.ENO與豬帶絳蟲、牛帶絳蟲或其他絳蟲的進化關系,但是如果把T.a.ENO作為藥物靶點, 或者從其中尋找表位來研制疫苗, 則必需考慮它與宿主烯醇酶氨基酸的同源性,要選取T.a.ENO與宿主有差別、但又比較關鍵的序列來進行實驗研究。

另外,對T.a.ENO拓撲結構的預測顯示,T.a.ENO是一個膜蛋白,沒有質體及線粒體的定位序列,很多研究發現烯醇酶定位于細菌、真菌、原蟲[9]、蠕蟲[10]的表面,也可通過免疫定位來確定T.a.ENO是否位于亞洲帶絳蟲的表膜, 從而進一步研究其在致病及免疫方面的作用。

絳蟲生理代謝所需的能量來自糖酵解,雖然烯醇酶不是糖酵解途徑的關鍵酶,但它是一種多功能蛋白,是一個嗜神經因子。它能與細胞骨架蛋白和多聚核苷酸結合、還具有熱休克蛋白的功能[11-13]。此外,它還是纖溶酶原及層粘連蛋白的受體[14],在寄生蟲侵襲宿主組織過程中發揮作用[9],它在感染和免疫中還作為抗體作用的靶分子[15]。利用生物信息學方法分析得到的結果將有助于全面了解T.a.ENO的功能。

【參考文獻】

Fan PC, Lin CY, Kosman ML, et al. Experimental infection of Indonesia Taenia (Somosir strain) in domestic animals [J]. Int J Parasitol, 1989,19(7):809-812.

Fan PC, Chung WC, Lin CY, et al. Experimental infection of Thailand Taenia (Chiengma strain) in domestic animals [J]. Int J Parasitol, 1990, 20(1):121-123.

Fan PC, Lin CY, Chung WC, et al. Experimental infevtion of philippine Taenia in domestic animals [J]. Int J Parasitol, 1992, 22(2):235-238.

王正蓉. 亞洲牛帶絳蟲分類學研究進展[J].貴陽醫學院學報,2001,26(1):43-45.

黃 江,胡旭初,包懷恩,等. 亞洲帶絳蟲成蟲全長cDNA質粒文庫的構建及EST測序[J]. 熱帶醫學雜志, 2007,7(2):116-118.

吳忠道,余新炳,徐 勁,等.日本血吸蟲(大陸株)成蟲基因表達譜的研究[J].中山醫科大學學報, 2002,23(6):401-404.

Zhang E, Brewer JM, Minor W, et al. Mechanism of enolase: the crystal structure of asymmetric dimer enolase-2-phospho-D-glycerate/enolase-phosphoenolpy-ruvate at 2.0 A resolution [J]. Biochemistry, 1997, 36(41):12526-12534.

Babitt PC, Hasson MS, Wedekind JE, et al. The enolase superfamily: a general strategy for enzyme-catalyzed abstraction of the a-protons of carboxylic acids [J]. Biochemistry, 1996, 35(51):16401-16489.

Pancholi V. Multifunctional alpha-enolase: its role in diseases [J]. Cell Mol Life Sci, 2001, 58(7):902-920.

Jolodar A, Fischer P, Bergmann S, et al. Molecular cloning of an alpha-enolase from the human filarial parasite Onchocerca volvulus that binds human plasminogen [J]. Biochim Biophys Acta, 2003, 1627(2-3):111-120.

Williams LA, Ding L, Horwitz J, et al. Tau-crystallin from the turtle lens: purification and partial characteri-zation [J]. Exp Eye Res, 1985,40(5):741-749.

Takei N, Kondo J, Nagaike K, et al. Neuronal survival factor from bovine brain is identical to neuron-specific enolase [J]. J Neurochem,1991,57(4):1178-1184.

主站蜘蛛池模板: 建阳市| 修水县| 平远县| 西乌珠穆沁旗| 西和县| 垦利县| 巴东县| 万山特区| 南川市| 高台县| 隆德县| 云林县| 栾城县| 大同县| 满城县| 新营市| 定安县| 河源市| 宜兴市| 抚远县| 辽阳市| 新泰市| 海宁市| 保德县| 南皮县| 西贡区| 建水县| 大渡口区| 湛江市| 青州市| 北票市| 麻江县| 修武县| 图们市| 司法| 临夏市| 灌阳县| 丹阳市| 通江县| 淮安市| 虞城县|