UCSD研究人员利用AI技术发现新DNA启动码

发布时间:2021-01-13 13:52:03
分享到:
近日,加州大学圣地亚哥分校(UCSD)研究人员在《自然》杂志上发表研究,介绍其使用人工智能技术发现了新的DNA启动码“下游核心启动子区”(downstream core promoter region-DPR),有望在生物技术和生物医学应用领域用来控制基因启动。

据研究人员介绍,DNA接收到A、C、G、T这4种碱基的编码指导后发出精确指令,人类基因收到指令后被激活采取行动。目前已知,近25%的基因都是由TATAAA类似序列(即“TATA框”)进行转录的,但由于DNA碱基序列可能性非常多,剩下75%的基因是如何启动的一直是个谜。

研究人员对50万个随机DNA序列的DPR活动进行了评估,筛选出其中20万个序列生成了一种能够精确预测人体DNA中DPR活动的机器学习模型,此外还制作了一个能够识别TATA框序列的类似机器学习模型。研究人员使用新模型对数千个已知TATA框和DPR活动情况的测试样本进行评估后发现,其预测能力“非常棒”。研究结果显示,人类基因中确实存在DPR活动,且其发生率与TATA框相当。据研究作者、UCSD生物科学系特聘教授角川介绍称,DPR能够启动约1/4至1/3的基因。此外,研究人员还发现,DPR和TATA框之间存在一种奇妙的二元性,TATA框序列启动的基因缺少DPR序列,反之亦然。

角川表示,DPR此前之所以未被发现是因为其不具备显而易见的序列模式,隐藏在DNA序列中的加密信息使之具备DPR属性,人类无法破译这一信息,但机器学习模型可以。使用人工智能对DNA序列模式进行分析应该可以提升研究人员对人体细胞中基因启动的理解和控制。

来源:生物谷