alpha fold 2 nature(alpha fold2开源)

蛋白质三维结构预测是一项计算量非常巨大的任务,科学家多年的探索研究,形成了X射线晶体学法、核磁共振法、冷冻电镜等

2021年底,谷歌的DeepMind团队的采用人工智能方法的AlphaFold2算法在生物界引起了极大的轰动,它能准确地预测蛋白质的结构,AlphaFold2是当今预测蛋白质3D结构的最强工具。它将被大量用于推动世界蛋白质研究向前发展

.(一)AlphaFold2蛋白质结构预测计算特点

如何配置好硬件,最快速度完成训练、推理计算,首先分析其计算过程以及算法特点

环节1 数据处理-序列特征生成计算特点

计算过程

总输入单个蛋白质序列FASTA格式(推理);

通过搜索工具(jackHMMER/HHblits)分别对多个遗传数据库--执行隐马尔可夫模型的搜索生成MSA(序列-残基);见图1

搜索的结构和序列产生的Pairing信息(残基-残基);

通过HHsearch搜索的Template

计算与硬件配置分析

数据库搜索过程涉及数据库密集I/O读写,数据放到高速SSD硬盘上,数据量累积超过2TB,非常耗时,加速手段提升CPU计算速度。

环节2 神经网络预测计算特点

计算过程

利用多序列比对(MSA),把蛋白质的结构和生物信息整合到深度学习算法中,主要包括:神经网络EvoFormer和结构模块(Structure module).

在EvoFormer中,主要是将图网络(Graph networks)和多序列比对(MSA)结合完成结构预测,Alphafold2使用Transformer结构,不管是MSA还是残基-残基对的信息更新都使用了Attention机制,结构模块的更新使用了三角法则,简化了计算的复杂度,准确率也提高了不少.

结构模块(Structure Module)主要工作是将EvoFormer得到的信息转换为蛋白质3D结构.

整个模型的Evoformer和Structure module部分都使用了Recycling,即将输出重新加入到输入在重复refinement,进行信息的精炼.

计算特点

上述计算过程用GPU更合理,对GPU要求是高显存带宽、大容量显存、大蛋白质计算通过将多GPU卡设置统一内存架构,大的显存可支持更大的计算数据存

2.1 蛋白质结构预测工作站配置参考

2.2 AlphaFold训练集群配置参考

集群技术特点

(1)本集群是由高频服务器、GPU计算服务器、管理服务器、并行存储服务器组成。

(2)集群硬件配置每个环节都基于人工智能预测蛋白质三维结构算法最快优化设计。

(3)【高频服务器】采用有限多核高频CPU、高速NVME SSD用于密集海量序列比计算,计算性能和io读写性能完美匹配高效,支持多个单核计算或2个以上并行版的比对软件同步计算。

(4)【GPU计算服务器】配备最新Xeon3代处理器,32核+8块RTX A6000 48GB,cpu频率和pcie 4.0 x16是蛋白质折叠人工智能并行计算最理想架构。

(5)作业调度软件针对蛋白质预测元计算两个主要环节:序列比对计算(CPU有限多核计算环节)、人工智能预测(GPU多卡并行计算环节),

序列比对计算环节--调用【高频服务器】处理,

蛋白质结构预测计算环节--调用多台【GPU服务器】并行计算。

(6) 集群性能从硬件架构、作业调度系统均比常规集群性能达到极致,全新改写的作业调度系统,比市面上的作业调度系统效率更高。

方案1 蛋白质智能预测集群方案(40块GPU卡)

方案2 蛋白质智能预测集群方案(80块GPU卡)