近年來,深度學(xué)習逐漸成為冷凍電鏡圖像處理流程中顆粒挑選的常用方法。然而,現(xiàn)有基于深度學(xué)習的顆粒挑選方法無法在新數(shù)據(jù)訓(xùn)練中動態(tài)地向模型中積累新的知識。也就是說,現(xiàn)有模型在新樣本上被訓(xùn)練后,雖然能夠在*新的數(shù)據(jù)上獲得良好的性能,但是往往無法保持其在舊數(shù)據(jù)上的顆粒挑選精度。此外,現(xiàn)有方法都是在特定數(shù)據(jù)集上訓(xùn)練出通用模型,當要加入新的訓(xùn)練數(shù)據(jù)時存儲和計算成本都很高,大大限制了其在未曾見過的數(shù)據(jù)上的識別能力和精度。因此,我們需要改進現(xiàn)有深度學(xué)習網(wǎng)絡(luò)訓(xùn)練的方式和方法。同時,現(xiàn)有的冷凍電鏡設(shè)施每天都在產(chǎn)生大量的新數(shù)據(jù)。如果能發(fā)展一種持續(xù)學(xué)習的技術(shù),在持續(xù)的應(yīng)用過程中,讓深度神經(jīng)網(wǎng)絡(luò)能夠不斷地學(xué)習和積累新數(shù)據(jù)中的新特征,不斷地增強對生物樣本圖像識別能力,對發(fā)展現(xiàn)代化的自動化冷凍電鏡系統(tǒng)具有非常重要的意義。
清華大學(xué)生命科學(xué)學(xué)院李雪明副教授團隊,清華大學(xué)電子工程系沈淵教授團隊,北京科技大學(xué)計算機與通信工程學(xué)院陳健生教授團隊聯(lián)合在《自然?通訊》(Nature Communications)雜志在線發(fā)表研究論文,題目為“一種用于冷凍電鏡顆粒挑選知識積累的范例驅(qū)動持續(xù)學(xué)習方法EPicker”(EPicker is an exemplar-based continual learning approach for knowledge accumulation in cryoEM particle picking)。該論文報道了一種范例驅(qū)動的持續(xù)學(xué)習方法在蛋白質(zhì)顆粒挑選中的應(yīng)用,通過在顆粒挑選過程中不斷學(xué)習新的知識來擴展檢測模型識別生物大分子的能力。發(fā)展持續(xù)學(xué)習方法的重要意義在于,可以使人工深度神經(jīng)網(wǎng)絡(luò)具有類似人的學(xué)習方式,在使用中持續(xù)學(xué)習新知識、新技能,從而不斷增強自身能力。EPicker經(jīng)過訓(xùn)練之后可以挑選蛋白質(zhì)顆粒、囊泡和纖維等廣泛的生物對象。
圖1 EPicker的網(wǎng)絡(luò)框架和持續(xù)學(xué)習的示意圖
針對現(xiàn)有方法的不足之處,研究團隊設(shè)計了一種基于持續(xù)學(xué)習的顆粒挑選算法,能夠在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中不斷積累新的顆粒挑選知識,提高通用模型的顆粒挑選能力。該算法通過設(shè)計雙路網(wǎng)絡(luò)結(jié)構(gòu)(圖1)和融合知識蒸餾、歷史回放、正則化、稀疏標注方法,將新樣本的知識不斷積累到通用模型中去的同時,不會遺忘舊知識。這很好解決了模型在新數(shù)據(jù)上訓(xùn)練后無法挑選舊數(shù)據(jù)樣本的問題?;谶@些算法,研究團隊開發(fā)了一個名為EPicker的新軟件系統(tǒng)。為了進一步擴展方法的適用范圍,團隊針對廣泛的生物對象設(shè)計了相應(yīng)的挑選算法,包括挑選囊泡和纖維等多種不同的生物對象,支持有偏和無偏的顆粒挑選方式以滿足用戶的不同需求等等。通過在具有代表性和挑戰(zhàn)性的數(shù)據(jù)集上進行大量實驗,并與目前較為流行的顆粒挑選方法進行對比,驗證了EPicker的有效性和優(yōu)越性(圖2)。實驗結(jié)果表明,EPicker可以通過高效、高度自動化的持續(xù)學(xué)習過程得到精度高、召回高且泛化能力強的蛋白質(zhì)顆粒挑選結(jié)果。
圖2 不同方法的顆粒挑選結(jié)果比較
清華大學(xué)生命科學(xué)學(xué)院李雪明副教授、清華大學(xué)電子工程系沈淵教授,北京科技大學(xué)計算機與通信工程學(xué)院陳健生教授為本文的共同通訊作者。清華大學(xué)電子工程系2019級碩士生張馨予,2020級碩士生趙天放為該論文的共同**作者。本工作獲得了科技部重點研發(fā)計劃,國家自然科學(xué)基金委,北京市結(jié)構(gòu)生物學(xué)高精尖**中心,北京市生物結(jié)構(gòu)前沿研究中心,生命科學(xué)聯(lián)合中心和北京信息科學(xué)與技術(shù)國家研究中心等的資金支持。