近日,小麥育種全國重點實驗室在《Briefings in Bioinformatics》發表了題為“WheatGP, a genomic prediction method based on CNN and LSTM”的研究論文。生命科學學院李祥、機電學院劉平為通訊作者,王春穎副教授與碩士研究生張迪為共同第一作者,山東農業大學為唯一通訊單位。
全基因組預測是如今作物育種的核心技術之一,能夠有效縮短育種周期。近年來基于深度學習的全基因組預測技術快速發展,已初步應用于水稻、玉米、大豆等主要作物。然而,小麥的多倍體結構涉及復雜的等位基因之間的相互作用以及明顯的非加性效應,使其在復雜性狀的預測中面臨著諸多挑戰。
研究團隊基于卷積神經網絡(CNN)和長短期記憶神經網絡(LSTM)提出了一種小麥基因組預測方法(WheatGP),利用了多層CNN捕獲基因組序列中的短程依賴性和LSTM獨特的門控機制,提取并保留基因位點之間的長距離的依賴關系。
圖1 WheatGP算法結構
利用WheatGP所訓練的模型在小麥籽粒產量預測中相關性達到0.73,對多種農藝性狀的預測相關性介于0.62-0.78之間,同時表現出在不同作物數據集中的適應性和魯棒性。對模型的輸入實施有選擇性的降維能夠提高WheatGP 的計算效率,同時不會降低準確性,而特征可視化技術能夠有效地識別關鍵的單核苷酸多態性(SNPs)以及有助于預測的關鍵特征,從而提高模型的可解釋性,為小麥智慧育種技術提供了新工具。
該研究得到了山東省重點研發計劃項目的資助。
論文鏈接:https://doi.org/10.1093/bib/bbaf191
編 輯:萬 千
審 核:賈 波