中科院深圳先进院医工所传感中心罗茜团队在质谱成像数据分析领域获得重要进展
广东科技报讯(记者 刘肖勇 通讯员 刘国增)4月11日,中国科学院深圳先进技术研究院医工所传感中心罗茜团队在质谱成像数据分析领域获得重要进展,成功开发了一种多模态融合验证的空间分割新方法,可以准确可靠地确定质谱成像数据的感兴趣区域(regions-of-interest,ROIs)。相关研究成果发表在生物数据科学领域国际知名期刊GigaScience上,深圳先进院郭昂助理研究员为论文第一作者,罗茜研究员为论文通讯作者。
质谱成像(Mass Spectrometry Imaging, MSI)是一种具有空间分辨能力的新型分子组学技术,为研究人员提供了理解生物现象背后生化机制的新手段。它通过扫描收集组织切片上各个位置的完整质谱图,可免标签、高通量地同时获得几十到几百个分子的空间分布信息,其能够探测的分子种类包括蛋白质、肽、脂类和代谢物,具有灵敏度高和化学特异性强的特点。
在MSI数据的统计分析过程中,一张完整的组织切片通常会被“虚拟地”划分成许多感兴趣区域(Regions-of-interest, ROIs),这些区域往往对应着不同的解剖学或病理学标签。准确划分ROI是挖掘空间分子组学数据的前提,对于发现疾病等因素引起的分子变化至关重要。
然而,在现有的ROI划分方法中,传统手动方法依赖主观判断且耗时费力,而基于质谱间相似性聚类算法的空间分割(spatial segmentation)方法,虽然很大程度上实现了自动化,但其结果易受仪器噪声和伪影影响,并且关键算法参数的选取(如直接决定空间分割颗粒度的聚类数/簇数K)仍存在一定的主观性,导致其结果可靠性较差。
对此,研究团队提出了一种基于多模态融合思想的“半监督”新方法,即依靠“AI病理师”验证空间分割得到的ROI结果。研究团队创新性地融合MSI中获取的分子组分信息和H&E病理图中获取的组织形态信息,实现了从两个相对独立互补的生物信息源,交叉验证ROI的划分结果,有力保证了其生物学意义上的可靠性。
其中,深度卷积神经网络被作为视觉特征提取器,从H&E染色图像中计算切片各位置的组织形态学谱图(Histomorphological Features,HF),然后根据不同位置间的组织形态谱相似性,通过聚类分析实现无监督切片分区。最后,通过Cohen's kappa系数评估基于MSI和基于组织学的两组ROI间的相似性,选取可以最大化相似性的Kmeans聚类算法的关键参数——簇数K,将两种模态判断类别标签一致的区域输出,进而实现不同成像模态生成的ROI进行交叉验证,令生成的ROI具有高可信度。
基于多模态融合方法的自动组织分区流程图 科研团队供图
团队开发多模态融合方法划分质谱成像数据ROI并应用于小鼠肾组织样本和原位种植肿瘤研究,发现ROI与ground truths完美呼应,且广泛适用于不同类别的组织样本。据介绍,该工作涉及的核心代码与数据将完全开源共享,该方法为以MSI为基础的空间代谢组学和蛋白质组学研究者,提供多模态数据融合技术方法,进一步发展临床病理切片的细胞化学异质性研究。
“这篇研究文章中使用的深度卷积神经网络(DCNN)方法是人工注释的一个有趣的替代方法,作者在探索劳动密集型人工注释的自动化替代方法方面值得称赞。”英国爱丁堡大学遗传和分子医学研究所博士的Chris Armit对工作评价道。德国曼海姆质谱和光学光谱学中心(CeMOS)的Stefania Iakab博士则认为:“我高度赞赏作者无私地提供他们的工具,并为所有的数据预处理提供了必要的信息,以及为读者提供测试的示例数据。”