科研進(jìn)展

田志喜研究組搭建大豆多維組學(xué)數(shù)據(jù)庫(kù)

日期:2023-03-28

|  來源:遺傳所【字號(hào):

  大豆(Glycine max (L.) Merr.)是世界范圍內(nèi)重要的糧油作物之一,其產(chǎn)量提升、品質(zhì)改進(jìn)關(guān)乎全球人口的需求和利益。21世紀(jì)后,基因組學(xué)的興起為作物研究帶來了全新的驅(qū)動(dòng)力。近10年來,基因組學(xué)持續(xù)繁榮,大豆的組學(xué)研究也發(fā)生了極大的躍遷,體現(xiàn)在數(shù)據(jù)類型的擴(kuò)展、數(shù)據(jù)維度的交叉以及數(shù)據(jù)體量的激增(圖1)。因此,后基因組學(xué)時(shí)代全新的多維組學(xué)數(shù)據(jù)庫(kù)的開發(fā),將會(huì)為大豆遺傳育種提供有力支持。 

   

  1. 10年間大豆數(shù)據(jù)的增長(zhǎng) 

  2023322日,中國(guó)科學(xué)院遺傳與發(fā)育生物學(xué)研究所田志喜研究組協(xié)同北京基因組所(國(guó)家生物信息中心)章張、宋述慧研究組在Molecular PlantDOI:10.1016/j.molp.2023.03.011)發(fā)表了題為“SoyOmics: A deeply integrated database on soybean multi-omics”的論文,以大規(guī)模基因組、變異組、表型組、轉(zhuǎn)錄組、泛基因組數(shù)據(jù)為基礎(chǔ),開發(fā)了名為SoyOmics的大豆多維組學(xué)深度整合數(shù)據(jù)庫(kù),提供了高質(zhì)量的大豆組學(xué)數(shù)據(jù)檢索和分析平臺(tái),為大豆研究社群提供了新的數(shù)據(jù)平臺(tái)。 

  大豆基因組于2010年公布,其后Soybase等大豆數(shù)據(jù)庫(kù)相繼誕生,建立起了早期的大豆組學(xué)數(shù)據(jù)網(wǎng)絡(luò)生態(tài)。但以現(xiàn)今多維組學(xué)發(fā)展的角度審視,早年的數(shù)據(jù)庫(kù)框架存在諸多不足,反應(yīng)在組學(xué)數(shù)據(jù)類型覆蓋不全,各數(shù)據(jù)類型、功能模塊間的聯(lián)動(dòng)性不充分等。深度整合多維組學(xué)數(shù)據(jù),提供具備實(shí)用交互性,并且提供一站式分析結(jié)果的在線集成工具是當(dāng)下多組學(xué)數(shù)據(jù)庫(kù)開發(fā)面對(duì)的重點(diǎn)需求(圖2)。 

   

  2. 多組學(xué)構(gòu)建的作物遺傳全景圖與數(shù)據(jù)需求 

  基于此,研究團(tuán)隊(duì)開發(fā)了面向大豆多維組學(xué)數(shù)據(jù)庫(kù):SoyOmcis。SoyOmics全面收錄了大豆相關(guān)研究領(lǐng)域的多維組學(xué)數(shù)據(jù),包括:29個(gè)Glyince Soja亞屬物種及6個(gè)Glycine亞屬物種的從頭組裝基因組;近3000份大豆種質(zhì)資源的種質(zhì)信息,以及來自這些材料的約3800萬條SNP/INDEL變異數(shù)據(jù);針對(duì)115個(gè)表型多年多點(diǎn)測(cè)定的約27千條表型記錄;來自29個(gè)Soja亞屬物種比較基因組的約55萬條結(jié)構(gòu)變異數(shù)據(jù),以及基于結(jié)構(gòu)變異構(gòu)建的圖泛基因組;自泛基因組種質(zhì)取樣的覆蓋9~28個(gè)組織/時(shí)期的轉(zhuǎn)錄組數(shù)據(jù)數(shù)據(jù);取樣自50個(gè)種質(zhì)資源的甲基化測(cè)序數(shù)據(jù);以及GenoBaits Soy40K大豆芯片數(shù)據(jù)(圖2)。此外,數(shù)據(jù)庫(kù)還收錄了大豆中已報(bào)道的QTL、GWAS位點(diǎn)和近200個(gè)功能明確的基因注釋信息,便于在搜索中提供更豐富的參考信息。 

  研究團(tuán)隊(duì)將這些數(shù)據(jù)整合為6個(gè)基礎(chǔ)模塊,并且搭建了各模塊間的聯(lián)動(dòng)架構(gòu),可以滿足用戶對(duì)于基因組區(qū)段特征、基因、變異位點(diǎn)、種質(zhì)、表型等相關(guān)知識(shí)的檢索、分類和統(tǒng)合需求。在此基礎(chǔ)上,研究團(tuán)隊(duì)開發(fā)了多個(gè)實(shí)用的“一站式”分析模塊,支撐實(shí)現(xiàn)GWAS分析、表達(dá)模式分析、單倍型分析、基因組坐標(biāo)轉(zhuǎn)換、圖泛基因組可視化等分析操作。以上共同組成SoyOmics的基本功能群(圖2)。 

   

  3. SoyOmics框架介紹與應(yīng)用實(shí)例 

  綜上,SoyOmics是在后基因組學(xué)時(shí)代推出的,面向新需求、新數(shù)據(jù)組織形式開發(fā)的大豆多維組學(xué)數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)具備多維組學(xué)數(shù)據(jù)間的深度關(guān)聯(lián)性、用戶的高度可交互性以及分析場(chǎng)景的高覆蓋性,預(yù)期能為大豆遺傳學(xué)及育種研究提供基礎(chǔ)的數(shù)據(jù)支撐和全新的觀察視角。 

  中科院遺傳發(fā)育所田志喜研究員為該論文通訊作者,中科院北京基因組所(國(guó)家生物信息中心)章張研究員、宋述慧研究員為該論文的共同通訊作者,中科院遺傳發(fā)育所劉羽誠(chéng)博士,中科院北京基因組所(國(guó)家生物信息中心)博士研究生張陽(yáng)、劉曉楠,中科院遺傳發(fā)育所申妍婷副研究員為該論文共同第一作者。該研究得到了中科院先導(dǎo)項(xiàng)目、科技創(chuàng)新2030-重大項(xiàng)目、國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、博士后創(chuàng)新人才計(jì)劃等項(xiàng)目的資助。 

附件: