首页 理论教育 国家蛋白质科学研究(上海)设施电镜数据处理的收集

国家蛋白质科学研究(上海)设施电镜数据处理的收集

时间:2023-10-18 理论教育 版权反馈
【摘要】:通过这种方式,可以有效降低电子与探测器基底材料发生相互作用而产生背散射现象所带来的噪声。目前市场上存在3家公司,生产3种不同品牌的DDD相机。DDD相机在300 kV电镜上获得的图形质量,远远高于胶卷所获得的信息。DQE表示在检测器信号转换过程中加入多少噪声,会影响图像的原始信号。这把相机的DQE限制在60%左右。

国家蛋白质科学研究(上海)设施电镜数据处理的收集

21世纪初,直接电子探测设备(direct electron detection device,DDD)照相机和高分辨率图像处理算法的出现,是促进低温冷冻电镜设备领域发生革命性转变之重要因素。

6.4.1 相机

6.4.1.1 直接电子探测器

图6-26 300 keV电压下,电子束穿过探测器晶片时的Monte-Carlo分布(彩图见图版第23页)

通过背向剪薄至35μm(深灰色部分),最终只有红色的电子轨迹成为图像上的信息,而白色的轨迹将被平均,成为噪声的一部分。图上整张硅片的厚度为350μm,背向剪薄后最终厚度为35μm。(图片引自[11])

直接电子探测器的制造,运用了互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)技术,这是一种大规模应用于集成电路芯片制造的技术。这种探测器包含一套滚动式快门读出装置(rolling-shutter readout mechanism)。在连续读出图像时,可达到1 000帧/s甚至更高的频率。每帧的读出速率,取决于有多少模拟-数字转换器(analog-to-digital converter,ADC)能够同时将加载在每个像素点二极管上的电压数字化。这种电压是由穿过探测器的高能电子束,激发电子空穴对而形成的,因此对于探测器具有潜在的辐射损伤。在技术上,可以通过增加特殊耐辐射的材料和增加读出速率,来减少辐照损伤。另外,半导体探测器在制成晶片以后,可通过背向剪薄的方式,制造超薄形态的晶片(图6-26)。通过这种方式,可以有效降低电子与探测器基底材料发生相互作用而产生背散射现象所带来的噪声。背向剪薄技术可以将直接电子探测器的调制传递函数(modulation transfer function,MTF)和探测量子效率(detective quantum efficiency,DQE)增加1倍甚至更多。背散射现象的削弱,会减弱电子作用于相机后产生的能量,从而可将探测器寿命延长2~3倍[7]。DQE的提高与相机快速的读出速率,带来了诸多的优点。对于同等剂量的电子信号,更高的探测量化效率意味着增加了相机对于信号检测的敏锐性,提高了图像的信噪比;而且更高的读出速率使得探测器能够记录样品在接受电子束照射过程中的动态变化,通过算法可以计算并消除电子照射所引起的样品移动,从而得到更清晰的图像。另外,通过评估每一帧的电子剂量,能够最大化图像中有效信息(如单颗粒样品)的信噪比。这种经过算法校正的图像,能够更好地反映出每个样品单颗粒的位置和趋向,从而得到分辨率更清晰的样品三维模型,为下一轮的迭代提供更准确的颗粒趋向信息。总而言之,新一代探测器所带来的,不仅仅是探测量化效率本身的提高,更是样品中高分辨率信息所得到的保留和还原。

目前市场上存在3家公司,生产3种不同品牌的DDD相机。DDD相机在300 kV电镜上获得的图形质量,远远高于胶卷所获得的信息。3家公司的相机都基于类似的传感器技术。Direct Electron LP生产的DE系列相机,物理像素在6.0μm×6.0μm和6.5μm×6.5μm,帧频为30~60帧/s。FEI公司生产的Falcon系列相机,物理像素在14μm×14μm,检测器上面存在较厚的敏感层,增加了DQE,但是目前的帧频为18帧/s。Gatan公司生产的K2相机,物理像素在5μm×5μm,帧频为400帧/s(表6-3)。

表6-3 3种直接电子探测器与典型的电镜高分辨成像参数[12]

电子传感器已经发展多年,2种技术在电镜的发展中起着重要的作用,通过电荷耦合装置(CCD)和标准互补金属氧化物半导体技术(CMOS)制造了单片有源像素传感器(monolithic active pixel sensor,MAPS)。探测量子效率是评价相机质量之重要参数。

DQE表示在检测器信号转换过程中加入多少噪声,会影响图像的原始信号。即输出S/N与输入S/N的比值。DQE被定义为空间频率函数。DQE为1,表示检测器在转换信号的时候没有加入噪声。对于像素化检测器来说,图像中的像素决定了相机的最大空间频率,因此对于最短的波长必须至少做2次采集。这被称为H.Nyquist频率定理。

目前新检测器的操作,可以分为integrating(传统线性积分)和counting(电子计数)这两种模式。在integrating模式下,每个像素能量的总量会被直接作为模拟电压输出。电压被数字化以后,经过暗场和明场修正,以图片形式输出。由于每个高能量电子与传感器之间的作用具有随机性,每个随机电子的能量总量变化很大。这把相机的DQE限制在60%左右。在counting模式下,在每帧每100个像素中可能只有一个电子,光照的强度降低了几百倍。单个电子可以被脉冲函数或者其他复杂的函数所识别和取代,以至于每个电子具有相同的效应。在原则上,只要S/N足够高,就可以清晰地定位每个电子的位置。

目前市场上存在的3种相机系列,在300 kV电镜上面所获得的图像的质量,都高于胶卷(图6-27)。DQE在半Nyquist频率时integrating模式下为40%~60%;但是在Nyquist频率的时候,则下降到25%左右。而在counting模式下,可以获得理想的DQE。对于counting模式来说,高频率可以避免单个像素点获得多次的电子撞击。目前在较短的曝光时间内,K2相机在DQE(0)的时候可以达到80%。K2相机的帧频大约是另外2个品牌相机的10倍。在相对低的DQE(Nyquist)条件下,K2相机可以使用superresolution(超级分辨)的模式。

在DQE最大的时候,每个检测器都有自己最合适的电子剂量。在高电子剂量的时候,检测器达到饱和,movie(电影)的每一帧都没有包含任何信息。同样,在非常低的电子剂量的时候,多帧叠加在一起可以得到一幅图像,输出较多的噪声。DQE对应的电子剂量具有较大的范围,FalconⅡ的使用范围为0.2~4.5 e/像素/帧,DE系列相机的使用范围为0.15~3.0 e/像素/帧[8]。K2 Summit的使用范围为0.002~0.025 e/像素/帧[9,10]

integrating模式下饱和的电子剂量,比counting模式下高几百倍,所以Falcon和DE检测器在integrating模式下的电子剂量,可达到2~3 e/像素/帧(pixel/frame);然而K2在counting模式下的电子剂量,低于0.01~0.025 e/像素/帧。实际上,Falcon和DE的曝光时间范围在1~3 s,然而对于K2相机来说,曝光时间一般在6~16 s。

6.4.1.2 单电子计数

DDD相机的发明,极大地改善了信噪比。图像的信噪比主要在4个方面得到了改善。第一,DDD相机的单块集成电路活性像素传感器的探测量子效率(DQE),优于胶片和CCD相机。第二,达到高帧频。相机CMOS技术经过了发展,可以检测并计算单电子。标准化每一个电子,进一步促进相机的DQE。第三,由相机高帧率获得movie而不是单一的照片,可以部分修正电子束诱导样品的移动和扭曲。第四,具有收集movie数据的能力而不是单张图片的曝光。在低电子剂量时候,可以记录高分辨率信息。低分辨率信息可以耐受辐照损伤,可以经受更高的电子剂量曝光。

6.4.1.3 探测器的持续发展与待解决的问题

未来探测器的持续发展,需要解决两方面的问题。首先,探测量化效率应尽可能接近100%。这需要实现完整探测器的单电子计数,因为电子撞击任何一个像素的概率是随机的(图6-28)。在目前商业化的探测器中,Gatan K2/Summit探测器的读出速度最高(表6-3)。其次,增加探测器像素的物理尺寸。使用更大的像素时,电子在运动过程中横向作用的像素点将会减少(图6-28中的白点)。这种信号只含有样品的低频信息,最终被平均成为图像噪声的一部分。所以,减少这种轨迹的产生,可以有效地减少图像的噪声,提高信噪比。

图6-27 300 kV下探测器的探测量化效率(DQE)对比(彩图见图版第23页)

绿色、红色、蓝色分别代表DE 20相机、FEI FalconⅡ相机和Gatan K2/Summit相机。黑色为曝光底片。Film:底片。(图片引自[14])

图6-28 在300 kV电压下由FEI FalconⅢ探测器记录的单电子轨迹

这一帧图像含有大约10万个电子轨迹,约每150个像素点上有一个电子。(图片引自[13])

6.4.2 电镜的数据链

冷冻电镜在结构生物学领域发挥越来越重要的作用,其中300 kV冷冻透射电镜作为生物电镜领域的最尖端设备,是研究蛋白质或其复合物高分辨结构的主力军。目前发表在顶尖杂志上的绝大部分冷冻电镜研究结果,都是依托300 kV电镜完成的。这充分说明了300 kV电镜在该领域顶级研究工作中的决定性作用。而300 kV电镜数据链对于充分发挥300 kV电镜的性能,并挖掘其潜能,起到了非常关键的作用。(www.xing528.com)

300 kV冷冻透射电镜数据链,包含数据的收集、传输、存储和分析。各个环节分别由DDD相机、高速网络传输设备以及高性能存储和并行计算设备来完成。现对其数据流简要描述如下:300 kV电镜上的DDD相机产生海量数据,数据首先被临时存储在相机的支持电脑上,随即通过网络设备传输到存储设备。而后,计算设备对读取存储好的数据进行校正和三维重构。其中任何一个环节出现明显短板,都会影响整个数据链的性能。

目前,300 kV冷冻透射电镜配备的DDD相机,平均每秒能产生300 MB的数据,峰值可达到800 MB/s。由于相机支持电脑的存储容量有限,存满之后电镜将无法正常工作,因此需要及时把数据转存到存储设备上。这对相机支持的电脑和网络设备的传输速度,以及存储设备的写入速度,提出了很高的要求。单线程300 MB/s以上的速度才能够满足需求。

直接电子探测相机高效的数据产出,对存储设备的容量也提出了很大的挑战。相机平均每天产生约5 TB数据,半年即产生约1 PB(1 024 TB)数据。若原始数据需要保存半年时间,至少需要1 PB的存储容量。如果需要保存更久的时间,需要的存储容量也要相应地增加。

要加快数据的周转效率,对海量数据必须及时进行处理。目前,直接电子探测相机工作2 d收集的数据,可以勉强满足一个课题所需的基本数据。初步处理这些基本数据所需的时间,约为100 000个CPU小时。如果使用一台20核的工作站,需要半年时间才能计算完毕。

近两三年以来,随着冷冻透射电镜技术的突飞猛进,越来越多的研究机构已经或准备采购高端电镜。该领域的竞争会随着从业者的增多而更加激烈。在不久的将来,电镜使用效率的高低,将在很大程度上决定竞争的成败。然而,提升电镜数据链效率的重要性,却没有引起普遍的重视。随着相机技术的更新,必然会使数据链这块短板显得更加突出。在保证高端电镜和相机的前提下,电镜数据链的优化,代表着更强的竞争力。

6.4.2.1 电镜的数据收集

在传统使用DM(Digital Micrograph)软件进行数据收集的过程中,需要手动找孔、调焦、调像散、拍照。随操作人员的熟练程度以及数据存储格式的不同,拍照的速度也不相同,大约在每分钟30~40张。

使用DM软件收集数据,由于每张图片都包含了明场背景(gain reference)的信息,数据量非常大,每拍1张照片约6~8个GB。收集一套上千张的数据,需要近10 TB的空间,对存储容量的要求非常高。事实上,所有图片的明场背景信息都是相同的,每张图片都包含该信息。存储了大量的冗余数据,对存储空间也是一种浪费。

本电镜系统通过对比多种数据收集软件,采用SerialEM来进行数据收集的自动化。Serial EM是电镜领域的一款开源的数据收集软件,可进行多种类型数据的自动化收集,满足不同类型研究的需求。数据收集的效率和存储的利用率也可由此软件得到很大的提高。使用K2自己的软件进行拍摄,每分钟可以拍摄30~40张mrc或dm4格式照片;而使用SeiralEM软件来收集,可收集50张tif格式的照片,效率提升25%~30%。这对于需要大量数据才能做三维结构解析的冷冻透射电镜有巨大的意义,因为有更多的数据就有更多机会得到更高分辨率的结构。同时,利用Serial EM软件,可以减少冗余数据的存储(一套数据只须存储一份明场背景信息),存储相同信息量的数据只需之前容量的5%,从而节省了大量的存储空间,大幅提高了存储的使用效率。

6.4.2.2 数据传输

随着相机拍照速度大幅提高,电镜产生海量数据,需要巨大的带宽来加以支撑。传统的千兆局域网已远远不能满足电镜数据传输的需求。在电镜系统中组建万兆的光纤局域网,才可以满足电镜支撑的电脑、图形工作站与存储服务器之间的数据传输。

如图6-29所示,200 kV和300 kV冷冻电镜的支撑电脑,通过万兆光纤连接到中心的存储服务器。另外,选取一台图形工作站作为文件服务器,建立网络文件系统。该图形工作站通过万兆光纤与存储服务器连接,作为文件传输的中转站,保证文件高速传输,并与其他图形工作站通过千兆局域网共享数据。用户可在任意一台图形工作站上登录,高速访问并处理自己的数据。

图6-29 数据传输网络[9]

为了提高数据传输的效率,电镜系统自主开发了基于Windows平台的多线程批量自动化传输程序。该程序启动以后,就不再需要人工操作,即可在后台监视数据传输的源文件夹。K2相机的每张照片由很多帧组成,每一帧都是单独的文件。为了不影响K2相机收集数据,当数据传输程序发现有新的图片产生时,会等待该图片的所有帧都写入磁盘完毕以后,再自动把拍好的照片传输到存储服务器,传输成功以后删除K2电脑的数据。该程序可以多线程并行传输,传输的速度可达600 MB/s以上,是单线程传输的3倍,大大解放了数据收集者的工作量,并保证了K2电脑拥有足够的存储,不影响正常使用。

6.4.2.3 数据存储

存储设备是数据读写的枢纽,起着非常关键的作用;而存储的读写速度,往往又是整个数据链的短板。电镜系统采用横向扩展存储,逐步替代传统存储,以充分发挥存储的读写效率及高可扩展性,与传统存储的架构相比,具有显著的优势。

横向扩展存储的架构,读写性能更高。传统的存储采用一个机头挂载多个存储的模式,就像动力都由火车头提供的老式火车,性能的高低受火车头的性能决定。横向扩展存储的架构,则采用每个存储节点都能单独进行读写的模式,类似动车组列车,读写效率更高。经过实地现场测试,最低配置的一套横向扩展存储,其单线程读写速度已达到300 MB/s。

横向扩展存储的性能随着容量的增加而呈线性增加。由于横向扩展存储的每个节点都能单独进行读写,随着存储容量的扩增,存储的读写性能也随之增长。而传统存储受机头性能限制,其性能不能随着容量的扩展而线性增加。随着中心数据量的增加,性能逐渐达到瓶颈。即使扩充了容量,性能也不会再有太大的提升。

横向扩展存储自动分层的技术,有利于优化存储资源的利用。自动分层技术是指存储内部可以根据数据的使用频率,自动在后台进行数据迁移,把常用的数据放在读写性能更高的存储介质里,把不常用的数据放到高密度、读写性能相对较低的存储介质里。这样可以发挥不同类型存储介质的优势,使用起来更方便,性价比也更高。

横向扩展存储的利用率更高。一套横向扩展存储的利用率可以达到66%,2套存储的利用率可以达到80%以上。随着容量的扩展,利用率可超过90%。而传统存储的利用率只有50%,即使购买100 TB,也只有50 TB可用。

6.4.2.4 数据处理

电镜领域常用的数据漂移校正软件一次只能校正1张照片,无法批量处理,另外,该软件只能识别mrc格式的数据。而mrc格式的数据在数据收集的过程中效率较低,每分钟大约收集30张,低于dm4格式(40~50张/min)和tif格式(50张/min)的速度。使用mrc格式收集数据,会在很大程度上降低电镜的使用效率,因此用户通常会选择使用dm4或者tif的格式来保存数据,而在漂移校正时还需要转格式。

电镜系统自主开发的数据漂移校正自动化控制程序,可以把操作人员从烦琐的过程中解放出来,具有以下几个优点。

(1)进行实时自动漂移校正。该程序实时监控数据传输的目标文件夹。每张图片传输完毕以后,即可进行数据漂移校正。设置好参数以后,不需要任何人工干预。

(2)该程序可以读取mrc、dm4和tif格式文件,自动判断用户收集的数据格式。在数据漂移校正时根据不同的格式,自动提交作业到GPU并行计算服务器上,不需要人工介入来进行格式转换。

(3)可以自动实现GPU服务器的负载均衡。由于漂移校正所需要的内存比较多,如果在一个GPU服务器上提交了太多作业,会因内存资源不够而出错。传统的GPU作业调度系统只有先在一个GPU服务器上堆满作业以后,才会选择其他GPU服务器,无法使任务平均分配到每个GPU上,这样就不能保证作业的正常运行。该自动化控制程序可以自动判断GPU队列里每个GPU服务器执行任务的多寡,把最新的作业提交到负载最少的GPU上,保证每个GPU上都有相近数据量的作业在运行,避免资源竞争。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈