如何整合多组学对生物的复杂性状进行研究?

问题年度:2022 问题类型:前沿科学问题 学科领域:农业科技 学科细分归类:畜牧学

推荐机构:中国畜牧兽医学会

多组学 复杂性状 大数据 机器学习

问题描述

如何整合多组学对生物的复杂性状进行研究,解析相关的分子机制,这将为今后相关产业的发展提供重要的依据。如在人上,采用多组学对于复杂疾病如癌症、复杂遗传病形成机理的研究,可以有效地对于相关疾病进行预测以及采取相关的治疗手段。在动物上,则可以对如肉质性状等复杂性状进行选择,提升肉产品的品质;而且对于相关疾病等的研究,一方面可以提升肉、蛋、奶的产量,另一方面,很多的动物可以作为模式动物,促进人类相关例如衰老、疾病等的研究。综上,如何利用多组学的数据,去更精准地解析动物的复杂性状形成机制、以及相关的生理过程,将对农业生产产业、人类疾病研究等方面有着重要的意义。

问题背景

近年来,随着相关研究技术的不断发展,应用组学数据进行生物性状的分子机制研究已非常普遍,如使用基因组、表观基因组、转录组、蛋白组以及代谢组进行相关性状分子机制的研究。但是随着研究的深入,更多的性状被发现并非可以由单一因素进行解释,其更多的是由多方面共同作用而形成,因此仅使用单一组学信息进行相关机制的研究已经无法形成一套清晰的脉络。如近年被广泛使用的GWAS 分析,虽然找到了大量的变异位点,但这些变异仍然只能解释很小的一部分遗传机制,这就是因为很多性状(包括众多的复杂性状)其并非仅由单一位点进行控制,而是由多个位点乃至多个组学之间共同作用的结果。再比如目前常见的利用转录组进行分析,尽管找到了众多和性状相关的差异表达基因,但是什么原因造成其差异表达以及其差异表达是否最终传导到了性状的表现上,这些均为未知。并且,随着研究的深入,很多研究表明,对于复杂性状形成和调控的分子机制,不仅是由多个组学所造成的,而且多个组学之间还有着复杂的作用关系。有研究就表明在多个组学之间,其并非简单的线性回归关系,而是存在大量的互作(如基因-基因互作,基因-环境互作)、调控等现象,这些信息通过单组学分析难以有效捕获。因此,在上述诸多问题的指引下,很多研究开始考虑如何去对复杂的多组学信息进行研究,剖析其内在之间的联系与作用,以便完整解析复杂性状的分子机制。

最新进展(截止问题发布年度)

目前对于多组学的研究以在人类和植物上居多,在人类上多是对于癌症进行多组学的研究,如使用mRNA测序数据、miRNA测序数据以及基因组拷贝数变异对卵巢癌进行研究,并最终鉴定得到了与卵巢癌相关的19个生物学标记以及8个生物学通路。而且由于前述的各组学之间存在着相互作用,并且在很多情况下,这些作用均不是简单的线型相关作用,而是以非线性的形式存在。而机器学习因为有着可以解决这种非线性相关问题的优势,这几年在生物学的研究中被广泛的应用。在大数据分析和人工智能研究领域,各类机器学习及深度学习算法被研究人员广为青睐:Chaudhary 等人通过深度神经网络,成功实现了对疾病的准确预警;Ma 等人通过可视化神经网络,对基因组、转录组、蛋白组间的互作、调控机制进行了分析与预测,获得了显著的成果。卷积神经网络自上世纪90年代被提出,被广泛用于高维变量(文本模式识别、图像等资料)特征提取,卓有成效。卷积神经网络将邻近的特征位点综合分析,利用卷积核优化特征提取的过程可以有效地捕获多位点间的作用模式,对解决多组学信息整合问题提供了理论依据。而支持向量回归机,则早已证明其在高维空间进行线性拟合的强大能力相比普通线性回归,支持向量回归机在回归问题上允许一定的偏差,并且训练完成后仅需要计算新数据与支持向量的距离关系,简化了计算量,并拥有更优秀的泛化能力。尽管目前已经有了众多的研究已经尝试了去通过机器学习的方法进行多组学的整合研究,但是目前依然有三大难点亟待解决:1.对于使用机器学习进行多组学整合分析没有一个“金标准”进行评判。大多数的提出的机器学习方法是对特定研究对象进行分析提出的,因此可能有着数据的特异性,从而无法得知该方法的泛用性。2.正如前所述,目前组学的类型众多,包括有基因组、转录组、蛋白组等等类型的组学,以及近几年来在植物上开始推广应用的表型组等。使用何种组学组合进行分析又是又是一个难点,尤其是评判哪种多组学的组合可以更好地进行后续的分析又是一个重大的挑战。以及是否组学使用的类别越多,组学利用的维度越高最终对于生物学机制的解析就更准确也是个重点问题。3.如何利用多组学进行快速、准确并且经济的预测。如对疾病模型的预后研究,如何通过多组学进行准确地预测并降低整体的预测费用,可以使相关的研究结果更好地应用于社会服务中。因此,如何解决这些问题,成为多组学应用于相关的生物学功能分子机制分析以及相关的疾病预测、表型预测的关键。

重要意义

目前国际上已有研究者开始进行相关的研究。该问题的突破将在很大程度上提升人们对于复杂性状的研究能力,如在对复杂疾病的研究上,特别是对癌症的研究。而在农业生产上,则可以通过多组学的研究,一方面解析重要的农艺性状、经济性状形成的分子机制,从而指导相关的生物育种;另一方面,通过多组学的分析,对动植物的生产性能进行评估,指导生产,促进农业产业的发展。