逍遥右脑 2017-04-24 11:24
自2000年人类基因组图谱绘制后,生物学研究迈入全新的“组学”时代,科学家们争先恐后地测序各种有机生物的基因组或蛋白质组。
现在,即使一些简单的实验都会产生大量数据,而从“背景噪音”中获得想要的结果则成为了一大挑战。美国趣味科学网站近日报道指出,计算机技术正帮助科学家们征服这些数据大山,甚至提出科学假设并对新生物学进程进行解释。包括机器学习、计算机模拟等数据科学将革新前沿生物学研究。
机器学习变革生物学研究
尽管科学家通过基因和蛋白质测序让我们知晓它们的名字和所处方位,但这些并不能告知它们的功能以及工作原理,我们需要理解这些基因、蛋白质以及中间成分在不同生物过程中的相互作用,从而最终征服癌症、心脏病、阿尔茨海默氏症等多种顽疾,但这会涉及到海量数据。
例如,科学家希望借用DNA测序等“组学”工具,弄清楚人类哪些基因会受到病毒性流感的影响,但人体包含数万个基因,常见的流感研究也会牵涉多达数千个基因。
计算机在处理海量数据方面是一把好手,因为其能同时考虑所有重要条件并进行分析。尽管编写程序的人也会犯错,导致程序出错,但计算机能有效地处理大量数据且不会像人一样产生偏见。生物学家们将用计算机来解决这些复杂的问题并定义新的生物学。
人类也能“教会”计算机在实验数据中发现特定的模式,这种名为“机器学习”的方法首先由“人工智能之父”阿兰?图灵于上世纪50年代提出,借用这一方法,科学家们可以借助已有数据组开发出新算法模式,从而对新数据进行预测。从这一方面来说,机器学习已经革新了生物学研究。
计算机能模拟大脑“思考”
美国亚利桑那州立大学生物和健康系统工程学院的斯里?克里希纳博士表示,他们正在借助机器学习的一种??人工神经网络(ANN)进行实验、分析并解决多种疑难问题。
ANN试图通过模拟大脑神经网络处理记忆信息的方式进行信息处理。例如,谷歌公司的“深度梦想项目(DDP)”图像识别软件就使用了一个功能强大的ANN来对图片分门别类,甚至生成新图片。据国外媒体报道,为了处理网络上数以亿计的图片,谷歌开发的这个ANN系统会先对大量相似图片进行处理和学习,从中找到特定物体独一无二的特征。
克里希纳的研究团队主要研究免疫系统,目的是找到癌症新疗法。在研究中,他们使用ANN计算模型来研究短的表面蛋白质编码,更好地了解各种免疫细胞如何区分正常(自己的)和反常的(外来的)事物,从而设计出更好的疫苗和疗法。
克里希纳团队将多年来研究确定的数以千计蛋白质编码的大数据集分成两组:源于健康人体细胞的正常蛋白质编码与源于病毒、肿瘤和细菌的反常蛋白质编码,接着他们将这些蛋白质编码输入自己研发的一台ANN,新算法能区分出正常/反常的蛋白质编码。
通过机器学习进行预测
机器学习在生物学领域最重要的应用是基于大数据进行预测,测试理论猜想。
亚利桑那州立大学应用数学博士迭戈?丘威尔解释称,如在T细胞生物学领域,弄清楚朝哪个引起病毒感染的蛋白质“开火”对疫苗研发和疾病治疗意义重大,但某个病毒可能与多个蛋白质编码有关,因此,很难通过实验对每个蛋白质编码逐一测试,且测试成本也极其高昂。
他们现在的解决办法是训练ANN帮助机器学会自有和外来两类蛋白质编码所有重要的生物化学属性,接着要求其“预测”哪种蛋白质编码与外来的蛋白质编码类似,并能被T细胞发现。
他们用很多病毒蛋白质对这个ANN模型进行了测试,结果发现:这个ANN系统能精确地在病毒内“揪出”大部分能被T细胞激活的蛋白质编码。研究人员也对找到的蛋白质编码进行了测试,证实了这种ANN预测的精确性。使用这种ANN模型,科学家们能快速预测与某个病毒有关的所有重要的短蛋白质编码并进行测试,从而找到疗法或疫苗,而不是逐一猜测然后进行实验。
聪明地利用机器学习
随着大数据科学和机器学习自身不断地优化,它们在生物学领域发挥的作用也越来越大:从厘清哪些生物标记结合在一起能最好地探测出疾病,到理解为何只有某些病人能从特定的疗法受益等。
当然,计算机也不是万能的。大数据科学的最大问题是数据本身。如果组学研究获得的数据一开始就是错的,或者基于伪科学,那么,机器有可能提供错误的结果。还有科学家担心计算机变成数据的“黑盒子”,因为他们对计算机内进行计算和操控的细节知之甚少。
克里希纳表示,尽管存在这些问题,但大数据和计算机带来的巨大好处将使它们成为科学研究的“好伙伴”。科学家们应时刻保持警惕,聪明地利用计算机,最终借助“机器之眼”来更好地揭示生命的奥秘。