洛阳吉恩特生物科技有限公司

新闻中心
联系我们
洛阳吉恩特生物科技有限公司

联 系 人:吉恩特客服
手  机:136-0866-9917(微信同号)
地  址:河南省洛阳市高新区火炬创业园

行业动态
当前位置:首页 | 新闻中心 > 行业动态

长读长测序“去伪存真”:SAVANA如何颠覆癌症基因组分析的传统认知?

作者: 发布时间:2025-09-25 浏览次数:99
打印 收藏 关闭
字体【
视力保护色

癌细胞并非静止不变,它们的基因组在不断上演着一场场惊心动魄的结构变形记?这些被称为体细胞结构变异(somatic structural variants, SVs)和体细胞拷贝数变异(somatic copy number aberrations, SCNAs)的基因组重排,正是肿瘤生长和演化的核心驱动力,它们决定着癌症的命运和我们对它们的理解。

然而,长期以来,我们对这场变形记的了解,就像隔着一层薄雾。传统的短读长全基因组测序(short-read whole-genome sequencing)技术,尽管普及,却在基因组中那些复杂、重复的盲区前止步,导致大量关键的SVs如同隐藏在迷宫深处的秘密,难以被精准捕捉。它们在这些难缠的区域中,往往无法准确比对断裂点,使得基因组的变异图谱始终未能完全绘制。

随着长读长测序(long-read sequencing)技术的崛起,一扇新的窗户被打开。这项技术能连续读取超长DNA片段,有望穿透短读长测序的迷雾,揭示基因组***隐秘的角落,包括那些复杂的SVSCNA。期待之余,新的挑战也浮现:早期长读长SV检测算法虽然能报告大量变异,但其中充斥着海量的假阳性(false positive——测序或比对错误带来的噪音,这些噪音严重干扰了我们对真实肿瘤变异的判断,甚至可能误导研究方向,让研究人员难以辨别哪些是真正的基因组变形,哪些仅仅是虚假信号。

正是在这样的背景下,发表在《Nature Methods》上的研究“SAVANA: reliable analysis of somatic structural variants and copy number aberrations using long-read sequencing”,为我们带来了重磅消息:一个名为SAVANA的全新算法,有望彻底改变这一局面!SAVANA不仅仅是一个工具,它更像是一双为癌症基因组量身定制的火眼金睛,它巧妙地结合了机器学习(machine learning)与独特的读段回溯定相(read-backed phasing)分析,能够以***的高灵敏度(sensitivity)和特异性(specificity),精准识别体细胞SVsSCNAs。这项突破性研究通过对99对人类肿瘤-正常样本的匹配Illumina和纳米孔全基因组测序数据进行分析,不仅证明了SAVANA能够有效过滤掉大量假阳性,而且在不同克隆水平、SV类型和大小上均表现出***的可靠性。此外,SAVANA甚至能在没有正常对照样本的情况下工作,极大扩展了其临床应用潜力。     image.png

揭秘SAVANA:癌症基因组透视眼的诞生

SAVANA,作为一款专为体细胞结构变异(SVs)和体细胞拷贝数变异(SCNAs)检测而设计的***计算算法,它的出现,无疑为癌症基因组学领域带来了新的曙光。想象一下,一个能够以单倍型分辨率(single-haplotype resolution)绘制基因组变异图谱,并精确估算肿瘤纯度(tumor purity)和倍性(ploidy)的智能系统,这就是SAVANA所能提供的。更令人兴奋的是,它甚至能支持在没有匹配的生殖系对照样本(germline control sample)的情况下进行分析,这对于临床样本的分析来说,无疑是一个巨大的便利。

那么,SAVANA是如何实现这一切的呢?它的工作流程可以被概括为几个关键步骤,每一步都融合了***计算生物学和机器学习(machine learning)的智慧。

首先,SAVANA仔细扫描来自肿瘤样本(以及可选的匹配正常样本)的长读长测序数据,寻找那些支持结构变异的读段簇clusters of SV-supporting alignments)。它能够识别并丢弃长读长测序数据中常见的折返样倒位伪影(fold-back-like inversion artifacts),这类伪影往往会干扰真实的变异检测。更进一步,SAVANA还具备检测单断点(single breakends)的能力,这意味着即使只有SV连接的两个基因组区域中的一个能被明确比对到参考基因组上,它也能将其捕获。这对于涉及低复杂性或重复区域的SV,比如着丝粒(centromeres)或逆转录转座子(retrotransposons)区域,以及插入到参考基因组中不存在的新序列(如病毒插入)的SV来说,至关重要。image.png

然而,SAVANA***核心的创新之一,在于其巧妙运用了机器学习技术,来区分真实的体细胞结构变异与由测序或比对错误引入的噪音信号。能够从海量的线索中,通过分析其位置、变异类型、支持读段的数量和方向以及测序深度等特征,精准判断哪些是真,哪些是假。SAVANA为每个候选体细胞断点编码了70个不同的协变量(covariates),这些特征共同构建了一个***度的变异画像。通过训练机器学习模型,SAVANA能够学习真实”SV伪影之间的微妙差异,从而实现高精度的筛选。这种方法不仅能够识别出重复出现的伪影,也能有效过滤掉偶发的测序或比对错误。

在检测体细胞拷贝数变异(SCNAs)方面,SAVANA则利用了体细胞断点信息,并结合循环二叉分割(circular binary segmentation, CBS)算法,将基因组划分为具有均等读段深度(read depth)的区域。随后,它会通过分析杂合单核苷酸多态性(heterozygous single nucleotide polymorphisms, SNPs)在特定区域的B等位基因频率(B-allele frequency, BAF)值,来推断肿瘤纯度。其核心思想是,在没有正常细胞浸润的肿瘤中,失去杂合性(loss of heterozygosity, LOH)区域的B等位基因频率应为01,而正常细胞的浸润会导致BAF值向0.5偏移,偏移程度与正常浸润程度成比例。这种巧妙的算法设计,使得SAVANA能够通过分析患者特异性的杂合SNPs或群体多态性SNPs来推断肿瘤纯度。

ctDNA的提取在肿瘤筛查中,是重要的前置步骤。目前常用的提取方法是利用生物磁珠,主要是硅羟基磁珠或羧基磁珠对血清血浆的ctDNA进行提取,由于磁珠的粒径小,比表面积大,在特定提取缓冲液中,对核酸的吸附会更加灵敏,相比于其他方法,使用生物磁珠对进行ctDNA提取得率会更高,检测灵敏度和检出限也会更合适,搭配核酸提取仪,更能实现全程自动化的提取。

洛阳吉恩特生物科技有限公司
联系人:吉恩特客服
手机:136-0866-9917(微信同号)
地址:河南省洛阳市高新区火炬创业园

版权所有:洛阳吉恩特生物科技有限公司 备案号:豫ICP备15029662号-1 流量统计:
logo