2003年,当一种冠状病毒引发的非典疫情席卷亚洲时,互联网尚处于萌芽期,互联网在医疗场景中还没有落地,人们仅能前往医院等待治疗。那时,影像科总是人潮涌动,很多患者因为在医院聚集而遭受感染。
今年,一种新的冠状病毒带着更强的传染性席卷全球,但中国仅花费不到两个月,便控制住了病毒在湖北以外地区的传播。在ai的帮助,疫区影像科的诊断效率迅速上升,患者聚集情况大幅改善;新药研发公司也通过创新的基因分析手段探索病毒的rna结构,短短数日便能筛选出1000多个rna聚合酶核苷类抑制剂化合物的可编辑结构化数据。
正如我们在疫情之中观察到的,人工智能辅助诊断、基因分析等技术正因为其广袤的前景而吸引着越多越多的研究人员进入其中,但由于行业自身的高门槛,许多拥有丰富经验的医生、学者难免在研究路上受挫。
如今,为了让更多的开发者能够体验到nvidia的算力支持,并以更加简单的方式对数据进行编辑,nvidia在egx、dgx、云计算服务之上开发了clara框架,为研究人员提供联邦学习、迁移学习等服务,通过降低数据门槛的方式,推动研究人员把重心回归研究本身。
什么是clara
nvidia正式发布clara平台是在2018年的rsna之上,那时nvidia的目的仅是为影像学ai研究者提供一个医学影像的软件开发工具,以标准化影像数据,并提升ai训练速度。
随后,nvidia的开发者发现,基因组是一个更为庞大的数据源,要处理亿级的碱基配对,必须找到更理想的算力来源,才能保证试验在成本上可行。在2019年苏州举办的gtc大会之上,基因组学已经成为clara要啃掉的另一块蛋糕。
到了今天,nvidia clara的定位于面向医疗开发者的智能计算软件平台。接下来,所有医疗行业的解决方案都会整合进clara,nvidia意欲打造一个全能的“医疗百宝袋”,为更想要探索医疗领域的开拓者提供高效便捷的数据分析工具。
nvidia clara
从整体上看,nvidia clara包含了gpu加速库、3个sdk以及一系列参考应用。在这一阶段下,clara能够为科研工作者提供的服务主要聚集于医学影像领域与基因分析领域,而这两个领域,正因为大数据的浪潮而飞速发展。
医学影像应用:用ai帮助开发者标注3d影像
在医学影像中,如果一个医院或者一个企业想利用 ai技术构建一个深度学习算法,并将其投入使用,那么需要完成4个步骤的工作。
数据是构建ai的第一步,在获得原始数据后,研究人员首先需要对数据进行特定的标注,如标注出肺部ct影像中的结节部分。要构建一个运行优异的ai算法,这一步操作至关重要。
有了标注数据后,研究人员便需要将数据导入到选定的ai模型中,开发适合于研究人员需求的深度学习算法。从国内的情况而言,很多研究人员通常是使用开源算法进行二次开发,或是借助于其他领域表现良好的算法进行迁移。
第三步是通过测试集对已有的算法进行检验。研究人员需要把ai模型放到实际之中,观察ai的实际运行情况,如果算法不能很好满足测试集的要求,研究人员可能就需要修改算法参数,重新开始训练。
当研究人员获得测试表现良好的算法后,便可以尝试将其部署于设备端,在真实的医疗诊断环境中进行推理工作。到此为止,ai的开发工作便已基本完成。
nvidia开发clara ai应用平台的目的就是为了让上述的四个步骤标准化、简单化,让研究人员可以更加专注于医学本身的研究。
以数据标注为例,这一工作本是一件体力活,是“人工”跨向“智能”不可避免的重复性工作,而医生不可能将太多的时间花在像素点连线之上。所以,一般ai企业选择从医院寻找刚毕业的研究生进行勾画,其成本在每组数据20-30元,实习生处理一组低层数据通常需要20-40分钟,若要使勾画更精细,则需花费1-2小时的时间。
这种数据获取方式存在两个重要的问题,一是人工智能训练需要的数据量大,企业很难找到足够多的实习生进行勾画,成本也非常高昂;其次,影像的勾画通常对工作人员的资历要求较为严格,实习生常常会出现结节遗漏、标注错误等现象。
从这一需求出发,nvidia在clara train sdk中植入了深度学习辅助标注的组件ai annotation server,开发者可直接使用这一组件对医学影像进行标注。
nvidia的实验数据显示,应用这一工具包后,单个肺结节的标注时间可降至8-15分钟,医生的标注效率可提升4-8倍。此外,通过粗略计算,胰腺的标注速度可提升4倍,脾的标注速度可以提升10倍。
此外,在dgx的加速下,nvidia可以将数周才能完成的计算任务提速至数小时,这将大幅降低医疗ai企业的试错成本,企业甚至可以同步开展多个算法测试。人工智能的产出,甚至是发展,都会因此大大提速。
医学影像应用:用联邦学习破除ai模型鲁棒性难题
即便是我们解决了ai开发中的难题,并不代表就能让ai走向实用。在上述的步骤之中,我们忽略了医学领域数据的一个重要特征——安全性。由于医学数据与生命信息息息相关,只有在保证数据安全的前提下,我们才能谈及数据的应用。
这意味着,企业或医生在训练ai时,不能把数据带出医院,而成熟的ai算法,通常需要克服地域差异,进行多中心的试验。如果ai模型不具备鲁棒性,就失去了应用与临床的价值。
虽然数据不能出院,但是模型可以,那么我们能否直接将模型融合起来呢?答案是可以的。联邦学习便是多个参与单位用各自数据训练完成的模型进行聚合,以实现数据不出院的情况下多个模型的统一,最终实现ai模型的高鲁棒性。
联邦学习与中心训练结果对比
通过一个包含13个用户组的融合实验,nvidia得到了上图结果。图中的红线是以数据中心模式进行训练得到的模型精度曲线变化情况,绿线是联邦学习下,13个模型融合后的模型精度曲线变化情况,可以发现随着训练迭代次数的增加,两条曲线高度重合,这个实验一定程度上证明了联邦学习的可用性。
nvidia工程师在gtc2019讲解联邦学习
不过,新的问题也在不断出现。如果各个模型差异很大,那么联邦学习如何自行“去粗取精”呢?“增量学习”将是nvidia下一步研究的重点。
除了clara train sdk,nvidia还开发了clara deploy sdk,用于优化pacs已有的工作流。同时,利用clara deploy sdk,医生可以在临床环境中灵活快速部署医疗影像ai模型。
基因组学:数据分析与ai构造
再谈nvidia新近瞄准的基因组学。2003年首次对人类基因组进行测序以来,整个基因组测序的成本就一直在下降,而且下降的速度远快于根据摩尔定律所预测的速度。从新生儿基因组测序到开展全国人口基因组计划,该领域正在蓬勃发展,并且日趋个体化。
测序技术的进步引发了基因组数据的爆炸式增长。序列数据总量每七个月增加一倍。这一惊人的速度可能会使得到2025年基因组学产生的数据量比其他大数据源(例如天文学、twitter和 youtube)数据量总和的10倍还多。
各种新的测序系统,比如全球最大的基因组学研究集团——华大集团的dnbseq-t7等正在推动这项技术的广泛应用。该系统每天可以生成高达60个基因组,产出高质量数据1-6 tb。
凭借华大集团的流动池技术的发展以及一对nvidia v100 tensor core gpu所提供的加速,dnbseq-t7的测序速度提高了50倍,令其成为迄今为止吞吐量最高的基因组测序仪。
但测序的加速工作远没有结束,科学家在观察更加微观的世界时提出了新的需求。为了满足这样的需求,nvidia也在不断探索。
为了通过加速和智能计算解决基因组测序和分析日益增长的规模和复杂性,nvidia创造了clara genomics。
通过clara框架下的clara genomics analysis sdk,研究人员可以加快基因数据的读取、序列对比,以降低分析成本,提升数据质量。
clara genomics
此外,nvidia还收购了parabricks,这是一个cuda加速的基因数据分析工具包,可用于发现变异,并能产生与行业标准gatk最佳实践流程一致的结果。运用这个工具包,相关计算可提升30-50倍,并可利用深度学习进行基因变异检测。
nvidia parabricks gpu加速的gatk
通过与华大集团合作,parabricks的软件可以在一小时内完成全基因组的分析。华大集团使用一台内置8个nvidia t4 tensor core gpu的服务器,证明了可以通过提高吞吐量将基因组测序成本降至2美元,这还不到现有系统成本的一半。
nvidia 为 covid-19 研究人员免费提供 parabricks,了解更多请点击此处。
ai的未来需要所有人共同开创
随着深度学习进入越来越多的领域之中,nvidia在为众多开发者提供算力支持的同时,也为其搭好了强有力的“基底”,在这之上,开发者能够将更多的精力放在知识的探索之上,而非受制于如何使用数据分析工具。
如今,clara已经拥有了众多的合作伙伴,在中国,联影医疗、安德医智均采用了这一平台进行合作开发,在海外,赛默飞世尔、佳能vital、约翰霍普金斯大学也与nvidia建立了深入的合作关系。