病毒會(huì)“逃跑” “語言”露馬腳

分類:醫(yī)學(xué)醫(yī)療健康    發(fā)布時(shí)間:2021年01月18日    點(diǎn)擊:1825次

病毒會(huì)“逃跑” “語言”露馬腳:


病毒科普動(dòng)漫制作


病毒可能比人們想象得更狡猾,它能不斷偽裝自己,逃避“疫苗獵人”的追捕。

一直以來,研制對(duì)抗流感和艾滋病病毒(HIV)等病毒的有效疫苗之所以如此困難,原因之一是這些病毒的變異非常迅速。這使得它們可以通過一種被稱為病毒逃逸的過程,避開特定疫苗產(chǎn)生的抗體。


美國(guó)麻省理工學(xué)院研究人員現(xiàn)在設(shè)計(jì)了一種計(jì)算病毒逃逸的新模型。該模型基于最初用來分析語言的模型,可以預(yù)測(cè)病毒表面蛋白的哪些部分更容易發(fā)生突變,從而使病毒能夠逃逸,也可以識(shí)別出不太可能發(fā)生突變的部分,使它們成為新疫苗的良好靶標(biāo)。

  

“病毒逃逸是個(gè)大問題?!甭槭±砉W(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室教授Bonnie Berger說,“流感病毒表面蛋白和HIV病毒包膜表面蛋白的病毒逃逸是造成目前沒有通用疫苗的主要原因。這兩種疾病每年都會(huì)導(dǎo)致數(shù)十萬人死亡。”

  

在1月15日發(fā)表在《科學(xué)》上的一項(xiàng)研究中,Berger及同事確定了流感、HIV和新冠病毒疫苗的可能目標(biāo)。研究人員還將該模型用于研究最近在英國(guó)和南非出現(xiàn)的新冠病毒新變種。研究人員說,尚未經(jīng)過同行評(píng)審的相關(guān)分析發(fā)現(xiàn),這些病毒的基因序列應(yīng)該被進(jìn)一步調(diào)查,以確定它們是否有可能逃脫現(xiàn)有疫苗的影響。

  

病毒也有語言

不同類型的病毒以不同的速度發(fā)生基因突變,HIV和流感是突變最快的病毒之一。

“HIV和流感病毒突變得很快,這是它們復(fù)制生物學(xué)的結(jié)果。例如,HIV和流感遺傳物質(zhì)復(fù)制的機(jī)制容易出錯(cuò),從而導(dǎo)致突變?!痹撗芯客ㄓ嵶髡?、麻省理工學(xué)院生物工程助理教授Bryan Bryson在接受《中國(guó)科學(xué)報(bào)》記者采訪時(shí)表示。


為了讓這些突變促進(jìn)病毒逃逸,它們必須幫助病毒改變其表面蛋白質(zhì)的形狀,這樣抗體就不能再與它們結(jié)合。然而,這種蛋白質(zhì)不會(huì)發(fā)生使其失去功能的變化。

  

Berger、Bryson以及研究生Brian Hie等人,決定使用一種被稱為語言模型的計(jì)算模型對(duì)這些標(biāo)準(zhǔn)進(jìn)行建模。這種模型來自自然語言處理(NLP)領(lǐng)域,最初被設(shè)計(jì)用來分析語言模式,特別是某些單詞同時(shí)出現(xiàn)的頻率。然后,這些模型就可以預(yù)測(cè)哪些單詞可以用來完成一個(gè)句子,比如要補(bǔ)全“薩莉在()中吃了雞蛋”,NLP模型可能預(yù)測(cè)“早餐”或“午餐”。

  

“我們對(duì)NLP語言模型的最新進(jìn)展感到興奮,這些模型可以通過訓(xùn)練原始文本來理解人類語言。于是,我們認(rèn)為,由于病毒最豐富的數(shù)據(jù)只是原始的病毒序列,我們也可以通過訓(xùn)練語言模型從病毒序列數(shù)據(jù)集中學(xué)習(xí)非常復(fù)雜的模式?!盉ryson說。

  

當(dāng)這種模型應(yīng)用于生物信息,如基因序列時(shí),語法類似于確定特定序列編碼的蛋白質(zhì)是否具有功能的規(guī)則,語義意義類似于蛋白質(zhì)是否能夠呈現(xiàn)新的形狀,幫助它逃避抗體。因此,使病毒能夠逃脫的突變必須保持序列的語法性,但同時(shí)能以一種有用的方式改變蛋白質(zhì)的結(jié)構(gòu)。

  

用序列訓(xùn)練模型

“如果病毒想要逃離人類的免疫系統(tǒng),又不想讓自己因突變而死亡或無法復(fù)制,換句話說,它既想保持健康,又想充分偽裝自己,以便不會(huì)被人體免疫系統(tǒng)檢測(cè)到。”Hie說。

  

為了模擬這一過程,研究人員訓(xùn)練了一個(gè)NLP模型來分析基因序列中的模式,該模型可以預(yù)測(cè)具有新功能但仍遵循蛋白質(zhì)結(jié)構(gòu)生物學(xué)規(guī)則的新序列。這種建模的一個(gè)顯著優(yōu)點(diǎn)是它只需要序列信息,這比獲得蛋白質(zhì)結(jié)構(gòu)容易得多。

  

此外,該模型可以在相對(duì)少量的信息上進(jìn)行訓(xùn)練——在這項(xiàng)研究中,研究人員使用了6萬條HIV序列、4.5萬條流感序列和4000條冠狀病毒序列。

  

“語言模型非常強(qiáng)大,因?yàn)樗鼈兛梢詫W(xué)習(xí)這個(gè)復(fù)雜的分布結(jié)構(gòu),并從序列變化中獲得一些對(duì)功能的洞見?!盚ie告訴記者,“我們?cè)诿總€(gè)氨基酸位置都有大量的病毒序列數(shù)據(jù),模型通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)氨基酸共現(xiàn)和共變的這些特性?!?/p>

  

一旦該模型被訓(xùn)練,研究人員能使用它來預(yù)測(cè)冠狀病毒刺突蛋白、HIV包膜蛋白和流感血凝素(HA)蛋白的序列變化,這些蛋白或多或少可能產(chǎn)生逃逸突變。

  

“發(fā)現(xiàn)看似不相關(guān)的科學(xué)分支之間的聯(lián)系,可能會(huì)發(fā)展出來加速一個(gè)分支研究的新方法。該研究提供了一個(gè)此類聯(lián)系的示例。作者們發(fā)現(xiàn)了病毒與自然語言之間的相似之處,進(jìn)而提出了一種識(shí)別突變的強(qiáng)大新方法,這種突變可以使病毒通過中和抗體而逃脫識(shí)別?!蔽磪⑴c該研究的美國(guó)國(guó)家醫(yī)學(xué)圖書館Teresa M. Przytycka等人在相關(guān)評(píng)論文章中指出。

  

知己知彼 阻斷逃逸

對(duì)于流感,該模型揭示了最不可能發(fā)生突變和產(chǎn)生病毒逃逸的序列是在HA蛋白的莖部。這與最近的研究一致,研究表明,針對(duì)HA莖部的抗體可以提供幾乎全面的保護(hù),以對(duì)抗任何流感毒株。

在對(duì)HIV的研究中,研究人員發(fā)現(xiàn),該蛋白的V1-V2高變區(qū)域有許多可能的逃逸突變,這與之前的研究結(jié)果一致,他們還發(fā)現(xiàn)了逃逸概率較低的序列。

  

該模型對(duì)冠狀病毒的分析表明,被稱為S2亞基的刺突蛋白的一部分最不可能產(chǎn)生逃逸突變。但新冠病毒變異的速度仍是一個(gè)問題,因此目前部署的抗擊新冠肺炎大流行的疫苗將在多長(zhǎng)時(shí)間內(nèi)保持有效尚不清楚。

  

“目前,對(duì)于新冠病毒,我們認(rèn)為我們的模型可以迅速標(biāo)記出與以前看到的病毒序列有本質(zhì)區(qū)別的新序列,以便在實(shí)驗(yàn)室進(jìn)行進(jìn)一步測(cè)試?!? Berger告訴《中國(guó)科學(xué)報(bào)》,“你可以想象,模型能檢查每一個(gè)新序列,而改變超過一定閾值的序列就需要在實(shí)驗(yàn)室中進(jìn)行進(jìn)一步研究。”

  

初步證據(jù)表明,這種病毒的變異速度不像流感或HIV那么快。然而,研究人員最近發(fā)現(xiàn)了新加坡、南非和馬來西亞出現(xiàn)的新突變,他們認(rèn)為應(yīng)該對(duì)潛在的病毒逃逸進(jìn)行調(diào)查。

  

研究人員認(rèn)為,我們面臨的問題仍然是新冠病毒的變異速度有多快。

  

“該病毒種類繁多,控制其復(fù)制的生物機(jī)制因人而異,所以盡管它們有共同的特征,人們?nèi)孕枰獙?duì)每種病毒進(jìn)行專門研究,以了解它們的突變率?!盉ryson說,“我們最好的見解將來自于動(dòng)物感染模型,其中完整的免疫反應(yīng)是存在的,因此我們可以理解總的免疫壓力是如何影響病毒突變率的。之后,我們需要對(duì)新冠病毒感染者的病毒進(jìn)行測(cè)序,以識(shí)別感染這些人的病毒中存在的突變?!?/p>


此外,研究人員現(xiàn)在正與其他人合作,利用他們的模型確定癌癥疫苗的可能目標(biāo),從而刺激人體自身免疫系統(tǒng)摧毀腫瘤。他們說,它還可以用于設(shè)計(jì)小分子藥物,這種藥物可能不太可能引發(fā)結(jié)核病等疾病的耐藥性。

相關(guān)論文信息:https://doi.org/10.1126/science.abd7331

https://doi.org/10.1126/science.abf6894

黃鶴樓動(dòng)漫 返回黃鶴樓動(dòng)漫,查看更多。

最近發(fā)表