这篇文章提出的模型范式非常具有前景和深入研究意义,但对于一些细节感觉还是值得商榷的:首先,在生成数据的环节中,作者通过 KEGG 通路所包含的基因去检索相关疾病,但这一做法并不能充分证明该基因确实参与了该通路——它同样可能通过其他通路影响疾病。其次,虽然将 VEP 拆分样本的策略有助于简化模型训练、平衡数据分布,并方便针对特定疾病的分析,但这种做法也会导致模型输出信息的片面性,难以全面反映基因-疾病的复杂关联。
0. Abstract
目前AI发展的主要瓶颈在于从复杂的基因组数据中解析出深度的、可解释性的生物学推理。很多AI模型擅长在海量数据中寻找规律。它们可能会发现“携带A基因变异的人群中,B疾病的发病率更高”,从而做出预测。但这只是一个统计上的关联,并没有解释“为什么会这样”。而生物学推理就是用生物学知识解释这一结果的推理过程,例如:A基因的这个变异 → 导致其编码的蛋白质结构异常 → 该蛋白质无法正常参与细胞信号通路C → 信号通路C的功能紊乱 → 最终引发了B疾病的病理特征;换句话说,就是深度学习模型的可解释性问题。
BIOREASON,是第一个将DNA foundation model和large language model结合的架构,该架构利用DNA foundation model将DNA序列转化成一种蕴含丰富生物学意义的、可供大语言模型理解的“语言”(即嵌入向量),然后再交给大语言模型进行推理和解读。具体来说,是通过监督式微调(SFT)和强化学习(RL/GRPO)来训练模型,引导生成合乎生物学逻辑的、连贯性的推论。
在基于KEGG通路的疾病机制推理和变异效应预测等生物学推理benchmark上,BIOREASON较强大的单模态模型平均提升约15%,在KEGG病理通路预测任务中准确率由88%提升至97%。此外,BIOREASON能够对未见过的生物实体进行因果推理,并以可解释、分步的生物学路径阐明决策过程,为专家验证和假说生成提供了重要工具。
KEGG(Kyoto Encyclopedia of Genes and Genomes)是由京都大学金井昭教授于1995年创建的生物信息学知识库,整合了基因组、化学物质、分子反应和疾病药物等多层次信息,通过标准化的基因-功能模块(KO、MODULE)、途径图(PATHWAY)和分类体系(BRITE),为用户提供基因-途径映射、功能注释、代谢网络分析及疾病药物关联等在线工具和REST API,从而帮助研究者将大规模组学数据与“生命线路图”对接,系统地解析细胞功能、代谢能力及疾病机制。
预训练(Pretraining):指在大规模数据集上预先训练模型以学习通用模式和特征。在模型接触特定任务之前,先通过海量数据的训练让模型获取基础知识和表示能力。预训练通常采用无监督或自监督的学习方式,用**未标注的大数据来学习数据的底层结构。(标注数据就是附带了一个明确的“标签”或“目标输出”的数据集;这些标签告诉模型:在给定输入的情况下,理想的、正确的输出是什么。)经典做法包括掩码语言模型**(Masked Language Modeling, 如BERT所用)和自回归语言模型(如GPT系列的下一词预测),以及辅助任务如下一句预测等,以帮助模型理解语义和句间关系。
微调(Fine-tuning):微调是指在预训练模型的基础上针对特定任务进行再训练,以细调模型参数使其在目标任务上表现最佳。简单来说,微调利用预训练模型学到的通用特征,通过较小规模的有标签数据集进一步训练模型,从而让模型适应特定任务需求。*预训练模型学到通用特征,但未必直接适用于特殊任务。微调通过少量高质量数据,让模型*学到特定领域的知识和输出风格,提升在该任务上的准确性和专业性。
强化学习与策略优化(Reinforcement Learning & PPO):强化学习(RL)是一种机器学习范式,在这种框架中智能体(Agent)通过与环境(Environment)交互来学习策略,以取得最大化的累积奖励。RL的基本流程是:智能体观察当前状态(State),根据一定的**策略(Policy)选择一个动作(Action)作用于环境,环境反馈给智能体一个奖励(Reward)**以及下一个状态。智能体以试错方式不断循环这个过程。奖励是一个标量评价信号:有利于目标的行为会获得正奖励(鼓励该行为),不利行为则得到负奖励(起到惩罚作用)。通过反复尝试并累积各种状态-动作的奖励反馈,智能体逐渐调整策略,使长期总奖励期望值最大化。这个过程让智能体在没有明确监督信号的情况下学会在复杂环境中做出较优决策。
1. Introduction
近年来生物信息学的数据越来越多,数据的增多促进了foundation models的发展,用这些数据训练训练出了大量的模型,并催生了很多下游任务,像剪切位点识别,变异效应预测以及调控元件的表征。
尽管foundation model在这些任务上表现良好,但仍然存在一个关键的问题,就是如何地将这些模型学习到的特征转化为人们所能理解的具有生物学意义的解释。现在大多foundation model模型都是以“黑匣子”的方式运作,在需要机理理解的复杂生物学问题中,例如基因通路分析、表型预测和疾病机理阐明,局限性就会变得更加明显。
近年来大模型发展非常迅速,尤其是自2024年9月推出o1的深度思考的范式以来,大语言模型在推理能力、问题解决和知识深度方面取得了迅速进展,这些模型在从数学问题解决到逻辑推断等多个领域展示了日益复杂的多步推理能力 。然而,单独的LLMs缺乏有效处理原始基因组序列的专门架构,并且常常无法捕捉原始序列数据中细微的生物学模式。
因此,本研究就提出了BIOREASON,一种新颖的、从根本上将DNA基础模型与LLM相整合的架构,从而开启了多模态生物学理解和推理的新范式,旨在填补DNA基础模型强大的序列表征能力与大型语言模型复杂的推理能力之间的这种脱节。BIOREASON的独特之处在于它能够在基因组和自然语言之间创建一种独特的信息流。这种架构使系统能够处理原始DNA序列,同时利用现代LLM的推理能力来生成符合生物学逻辑的解释和预测。通过一种结合了监督微调和强化学习的训练方法,BIOREASON具备了对基因组数据进行复杂多步推理的能力——这是DNA基础模型或LLM都无法独立实现的能力。
2. Background & Related Work
2.1 DNA Foundation Models
Evo 2 是由 Arc Institute 与 NVIDIA 合作开发的、面向全生命域的基因组基础模型,采用自回归方式在单核苷酸分辨率下进行 DNA 序列建模,可处理高达 1M个碱基对的长上下文,参数规模最高达 40亿,是迄今规模最大的生物学 AI 模型之一。其无需额外微调即可对基因功能进行预测,能够直接生成完整的细菌和酵母菌基因组序列。
2.2 Large Language Model for Biological Reasoning
大型语言模型不仅在文本的理解与生成上有卓越的表现和性能,也在解析和推理复杂生物医学数据方面取得了显著进展。而专门在生物医学文献上预训练的领域化专用模型,则进一步强化了它们在该领域的专业表现。同时,通过调用api访问其他外部工具或者数据库配合RAG技术,可以为模型提供更多相关的上下文信息。例如专注于基因组学的LLM(如GeneGPT )和代理模型(如TxGemma )代表了将语言模型与基因组数据库集成的初步尝试 。然而,这些方法主要利用的是预先分析过的基因组数据(次级数据),而不是直接与DNA基础模型学习到的原始序列表示进行交互(原始数据) 。
GeneGPT 本质上并没有对底层模型进行任何参数训练或微调,而是一个集成的模型api框架(agent)。具体来说,其将 OpenAI 的 Codex 作为底层模型,通过在 prompt 中集成 E-utils(esearch、efetch、esummary)和 BLAST(blastn)两类 API 的功能说明与 URL 示例,相当于给模型了一个搜索插件。当收到用户提问时,GeneGPT 会依据示例自动生成对应的 API 调用以检索最新的基因组信息,再将这些检索结果反馈给模型,借助多轮生成实现多步推理,最终输出准确的答案。
TxGemma 是一个基于开源 Gemma-2(2B/9B/27B)系列模型的生物医药领域智能 agent 框架,通过将 Therapeutic Data Commons(TDC)中 66 项涵盖小分子、蛋白、核酸、疾病、细胞系等多模态任务的数据格式化为 “Instruction–Context–Question–Answer” 四段式提示,共约 7M 条训练样本、67B tokens、12 轮训练完成微调,一方面使模型在药物机制、适应症、ATC 分类等任务上表现出色,另一方面兼容 SMILES 解析、数值回归输出等多种回答格式;同时内置 Wikipedia/PubMed/Web Search、PubChem API、ChEMBL 查询等外部工具,并在 Predict(TxGemma-Predict)和 Chat(TxGemma-Chat) 两种产品线中通过 ReAct 架构实现多步推理和端到端工作流,最终在化学与生物医学知识测评中多项指标超越通用与领域专属模型,且全系列模型均以开源形式发布,便于社区复现与二次微调。
2.3 Genomics Benchmark
DNA foundation model的兴起也推动了相应预测任务及其基准评估的发展,这些任务包括调控元件识别、变异效应预测、转录因子结合位点预测和剪接位点分类。诸如 BEND 这样的基准测试框架,为这些任务提供了统一的评估协议,使得不同模型在相同监督任务上的表现能够进行公平的横向比较。虽然这些基准能有效衡量模型在各类下游应用中的预测性能,却难以评估模型的高阶推理或假设生成能力:一方面,具备此类能力的模型尚属少数;另一方面,这种推理过程难以通过简单的数值指标加以量化。为此,作者基于 KEGG 通路数据库精心筛选整理,构建了一套多步推理的变异效应预测数据集,专门用于测试模型在机械化生物学推理方面的能力。。
BEND(BENchmarking DNA Language Models) 是一套针对 DNA 语言模型性能的标准化评测基准,涵盖七大核心任务:基因发现(Gene finding)、增强子注释(Enhancer annotation)、染色质可及性预测(Chromatin accessibility)、组蛋白修饰预测(Histone modification)、CpG 甲基化预测(CpG methylation)、非编码变异的基因表达效应预测(Noncoding variant effects – expression)以及非编码变异的致病性效应预测(Noncoding variant effects – disease)。此外,BEND 还统一了下游评估流程:不对预训练模型输出的嵌入进行微调,而是接入一个轻量级双层 CNN,并在必要时将经 k-mer/BPE 缩减的嵌入上采样回全碱基分辨率,从而精确量化预训练模型生成embedding的质量。
3. BioReason Model
将DNA序列信息有效地输入模型一直是个难题:如果直接将序列喂给大型语言模型(LLMs),它们只能把DNA当作普通字符串,因而忽略深层的基因组特征;而现有的DNA fundamental model虽然能够提取这些深层特征,却仅能输出任务专用的判别结果(如分类标签或回归分数),再将这些分数输入下游模型,也难以获得可解释的生物学推理。

而BIOREASON 通过从DNA序列上用DNA fundamental model提取DNA 嵌入,并将其与分词后的文本嵌入融合,构建统一的多模态输入序列 XLLM 送入 LLM,从而弥合这两者之间的鸿沟。借助这种直接整合架构,模型能够生成基于基因细节的解释性文本,其中同时包含推理过程与最终答案。这种做法其实是借鉴了Vision-Language Model的做法,视觉大语言模型通常会先从视觉编码器获取图像的高层嵌入,然后经过投射后输入大模型,这种做法在视觉大语言模型领域取得了巨大成功,因此我认为在DNA维度也同样有广阔前景。
具体来说,得到fundational model提取后的嵌入后,要通过一个可学习的线性投射层进行转化,具体来说,一方面是为了让输出向量的嵌入维度转化为和LLM一致,另一方面是为了不断地学习调参让DNA的序列信息尽可能在大语言模型的语义空间里保留。其中加入了特别的嵌入,诸如<dna_start>、<dna_end> 和 <sep>(作为不同DNA序列的分割标记)。投影后嵌入与普通文本一样使用 RoPE(Rotary Positional Embedding),按最终位置旋转,使注意力只依赖 相对位移,让LLM同时感知
Δpos(DNA_i, DNA_j)、Δpos(word_p, word_q) 以及 Δpos(DNA_k, word_r),同时也能拓展模型上下文长度。
为了在微调之外进一步提升 BIOREASON 的推理能力,Bioreason采用了 GRPO 强化学习方法,模型面对同一道输入一次性采样 G 个候选输出,把每个输出切成“推理轨迹+最终答案”两段后,用自动化的五项规则(正确性最高 2 分、简洁 0.5 分、严格格式 0.5 分、宽松格式 0.5 分、标签计数 0.25 分)打出原始奖励 rᵢ;随后在这 G 条样本内部做 z-score 归一化,把题目难度差异折掉,得到组内优势 Aᵢ;接着计算新旧策略对每个输出的概率比 r = πθ/πold,用 PPO 式裁剪(clip)将 r*Aᵢ 限定在 [1–ε, 1+ε] 区间以稳住训练,再加一个 β·KL(πθ‖πref) 惩罚项防止策略偏离预训练分布;最后对 θ 做梯度上升。如此循环,使模型在保持接近参考语言风格的同时,通过“组比较”精确放大奖励信号,既提高答案正确率又渐进收敛到要求的 <think>…</think> 简洁格式。
GRPO(Group Relative Policy Optimization,群体相对策略优化)是 DeepSeek 团队在 2024 年提出的一种强化学习方法。其核心流程是:面对同一个输入(如数学题或编程任务),模型一次性生成多条候选答案,构成一个“群体”。系统随后用奖励函数为每条答案打分(正确高分、错误低分)。得分高于群体平均值的答案会促使模型调整参数,提升未来生成此类答案的概率;得分低于平均值的答案则被抑制倾向。GRPO 的关键创新是用组内相对比较取代绝对价值评估,避免了像 PPO 那样依赖价值网络、计算开销大的做法。实验表明,在推理类任务中,GRPO 往往能取得更理想的效果。
4. Datasets
该研究提出了三套数据集:其中有一套全新的数据集基于 KEGG Network Variants ,并跨链接ClinVar、OMIM、dbSNP与 COSMIC等公共变异库的meta数据,专门用来激励推理;还有两套改编自已有基准的数据集,来自 ClinVar与OMIM。
数据集地址:https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70

4.1 KEGG-Derived Biological Reasoning Dataset
数据案例:
question:
Chromosome Number: 4
Network Definition of the pathway: (PDE11A*,PDE8B*) // cAMP -> (PRKAR1A+PRKACA) -> (NR5A1,NR4A1,SP1,PBX1,CREB) => (STAR,CYP11B1) -> Cortisol
Genes in the pathway: PDE11A; phosphodiesterase 11A | PDE8B; phosphodiesterase 8B | PRKAR1A; protein kinase cAMP-dependent type I regulatory subunit alpha | PRKACA; protein kinase cAMP-activated catalytic subunit alpha | NR5A1; nuclear receptor subfamily 5 group A member 1 | NR4A1; nuclear receptor subfamily 4 group A member 1 | SP1; Sp1 transcription factor | PBX1; PBX homeobox 1 | CREB3; cAMP responsive element binding protein 3 | CREB1; cAMP responsive element binding protein 1 | ATF2; activating transcription factor 2 | ATF6B; activating transcription factor 6 beta | CREB3L4; cAMP responsive element binding protein 3 like 4 | ATF4; activating transcription factor 4 | CREB3L2; cAMP responsive element binding protein 3 like 2 | CREB3L3; cAMP responsive element binding protein 3 like 3 | CREB3L1; cAMP responsive element binding protein 3 like 1 | CREB5; cAMP responsive element binding protein 5 | STAR; steroidogenic acute regulatory protein | CYP11B1; cytochrome P450 family 11 subfamily B member 1
Given this context, what is the biological effect of this PDE11A allele, specifically what disease does this contribute to?
answer:
cushing syndrome
reference_sequence:...
variant_sequence:...
reasoning:
Step 1: The C>T variant in PDE11A likely results in a missense or nonsense mutation that alters the protein structure or creates a premature stop codon.
Step 2: PDE11A encodes phosphodiesterase 11A, an enzyme responsible for hydrolyzing cyclic adenosine monophosphate (cAMP) to its inactive form 5'-AMP.
Step 3: Loss of function in PDE11A due to this mutation would impair the degradation of cAMP, leading to increased intracellular cAMP levels.
Step 4: Elevated cAMP activates the cAMP-dependent protein kinase (PKA) pathway by binding to the regulatory subunits (PRKAR1A) and releasing the catalytic subunits (PRKACA).
Step 5: Activated PKA phosphorylates transcription factors including CREB family proteins, NR5A1 (SF-1), NR4A1, SP1, and PBX1.
Step 6: These phosphorylated transcription factors upregulate the expression of steroidogenic genes, particularly STAR (Steroidogenic Acute Regulatory protein) and CYP11B1 (11β-hydroxylase).
Step 7: STAR increases cholesterol transport into mitochondria, the rate-limiting step in steroid hormone synthesis, while CYP11B1 catalyzes the final steps of cortisol biosynthesis.
Step 8: The resulting increase in cortisol production occurs independently of normal ACTH regulation, creating a state of autonomous cortisol secretion.
Step 9: Chronic hypercortisolism leads to the clinical manifestations of Cushing syndrome, including central obesity, moon facies, muscle weakness, and metabolic abnormalities.
Step 10: This PDE11A mutation specifically contributes to ACTH-independent forms of Cushing syndrome, particularly PPNAD or BMAH, characterized by adrenal hyperplasia and nodule formation.
This PDE11A variant likely causes a loss of function in the phosphodiesterase enzyme, reducing its ability to degrade cAMP, which leads to constitutive activation of the cAMP/PKA pathway and increased cortisol production. This mechanism contributes to ACTH-independent Cushing syndrome, particularly forms like Primary Pigmented Nodular Adrenocortical Disease (PPNAD) or Bilateral Macronodular Adrenal Hyperplasia (BMAH).

首先从 KEGG提取了与疾病相关的分子互作通路数据,通过半自动映射协议,将 ClinVar、dbSNP、OMIM、COSMIC 的变异信息匹配到通路节点,保持基因组坐标与功能元素的关系完整。每条网络用统一符号(如 "GENE1+GENE2 -> GENE3 -| GENE4")表示激活、抑制、复合物形成、转录调控等互作类型。为每个变异提供参考序列与变异序列配对,平均长度约 4 kb,大多数变异仅有 1–3 bp 差异。
半自动映射协议:通常指一种半自动、半人工的数据整合流程,用来把不同来源的变异信息(ClinVar、dbSNP、OMIM、COSMIC 等)精准地对齐进 KEGG 通路网络。它的核心思想是:先用算法完成 80–90 %的批量映射,再由人工审校解决剩下的歧义或低置信度匹配,既保证效率,又确保生物学准确性。

数据集显式包含了将基因变异与疾病表型连接起来的因果推理路径,这些路径采用 Clause 3.7 Sonnet 模型构建,并结合 KEGG 疾病数据库的上下文信息加以验证。在训练和评估时,数据集被组织成标准化的问答对:问题包含了变异细节、网络定义和基因描述;答案则简要说明了机制性变异—疾病关联;推理路径(平均长度 303.8 词)则详细阐述了从分子层面到表型的逻辑链路,提供精确的分子事件信息。
举个例子,假设KEGG给出的生物学通路信息是 (PDE11A*, PDE8B*) // cAMP → (PRKAR1A+PRKACA) → (NR5A1, NR4A1, SP1, PBX1, CREB) ⇒ (STAR, CYP11B1) → Cortisol,提取通路涉及基因及其作用描述如下:
PDE11A; phosphodiesterase 11A | PDE8B; phosphodiesterase 8B | PRKAR1A; protein kinase cAMP-dependent type I regulatory subunit alpha | PRKACA; protein kinase cAMP-activated catalytic subunit alpha | NR5A1; nuclear receptor subfamily 5 group A member 1 | NR4A1; nuclear receptor subfamily 4 group A member 1 | SP1; Sp1 transcription factor | PBX1; PBX homeobox 1 | CREB3; cAMP responsive element binding protein 3 | CREB1; cAMP responsive element binding protein 1 | ATF2; activating transcription factor 2 | ATF6B; activating transcription factor 6 beta | CREB3L4; cAMP responsive element binding protein 3 like 4 | ATF4; activating transcription factor 4 | CREB3L2; cAMP responsive element binding protein 3 like 2 | CREB3L3; cAMP responsive element binding protein 3 like 3 | CREB3L1; cAMP responsive element binding protein 3 like 1 | CREB5; cAMP responsive element binding protein 5 | STAR; steroidogenic acute regulatory protein | CYP11B1; cytochrome P450 family 11 subfamily B member 1
下一步需要从ClinVar数据库中,找到特定基因(如PDE11A)的已知致病变异:假设存在一个特定的 C>T 变异位于基因 PDE11A 中,被ClinVar注释为与疾病“库欣综合征 (Cushing syndrome)”关联。ClinVar提供的信息包括变异位置、变异类型(如错义变异或无义变异)、具体疾病表型、变异的审查等级。这样就建立起了【基因-变异-疾病】的明确关联。
为了构建数据的精确性,需要确定变异在基因组中的具体位置,并与人类参考基因组(如GRCh38.p14版本)进行严格的序列比对:提供变异前后的序列,例如:reference_sequence:……ATGCTCGAT……;variant_sequence:……ATGCTTGAT……,且能明确定位到染色体的精确位置。
然后通过生成式语言模型(Claude 3.7 Sonnet),以结构化的方式描述基因、变异、网络定义:
问题:
reference_sequence:……ATGCTCGAT……
variant_sequence:……ATGCTTGAT……
Chromosome Number: 4
Network Definition: (PDE11A*, PDE8B*) // cAMP → (PRKAR1A+PRKACA) → (NR5A1, NR4A1, SP1, PBX1, CREB) ⇒ (STAR, CYP11B1) → Cortisol
Genes in the pathway: PDE11A; PDE8B; PRKAR1A; PRKACA; NR5A1; NR4A1; SP1; PBX1; CREB家族; STAR; CYP11B1
基于上述信息,PDE11A的特定变异会导致何种疾病?
推理路径(reasoning trace)生成:在此过程中,模型使用预训练过程中吸收的医学、生物学知识来填充细节,将简单的通路描述(如KEGG提供的图示或符号)转化为详细的逐步推理文字,如“变异导致cAMP积累”、“PKA激活”、“转录因子上调”等描述性语句。最终利用KEGG通路定义、ClinVar疾病信息、基因功能描述自动推导一条详细的因果推理路径,逐步说明:
变异的分子效应(如PDE11A失活);
信号通路如何因此受到影响(如cAMP积累);
下游效应基因如何被激活(如PRKACA释放,转录因子激活);
最终疾病表型如何产生(如cortisol升高导致库欣综合征)。
最后根据数据库记录生成明确的答案:
答案:Cushing syndrome(库欣综合征)
为了提高模型的泛化性能和推理稳健性,每一条变异记录,GPT-4o还额外生成:50个语义等价的“问题变体”,用不同的表述方式询问同一机制;若一个变异对应多个疾病,每个疾病单独作为一条数据记录,分别生成问题和答案,确保每种疾病都被完整覆盖。
这里可能存在一个逻辑问题:一个基因的特定变异虽被ClinVar注释为与特定疾病关联,但ClinVar本身并不明确指出这种关联一定通过当前给出的KEGG通路。当前构建的数据和推理路径,仅代表利用已有的通路信息做出的假设性机制解释,而非ClinVar数据库的直接结论。
4.2 Variant Effect Prediction of Coding Sequences
数据案例:
question:
The variant affects gene PERM1 (PPARGC1 and ESRR induced regulator, muscle 1), which is on Chromosome 1. Please evaluate whether this mutation is benign or pathogenic and specify the disease if necessary.
reference_sequence:...
variant_sequence:...
answer:
Pathogenic; Renal tubular epithelial cell apoptosis
这里的数据集沿用GPN-MSA 的技术框架:以GRCh38 参考基因组和100-way 多物种序列比对 (MSA) 作为统一坐标系,并规定“单一变异 → 人类参考窗口 ± 多物种同源序列张量”的标准输入输出。其中,多物种比对揭示的进化保守性是模型据以判断变异功能影响的核心特征。在此基础上,研究者继续加入了从 ClinVar 提取带疾病注释的临床致病变异作为阳性;从 gnomAD v3.1.2 挑选等位计数 ≥ 25 000 且次要等位基因频率 (MAF) > 5 % 的高频变异作为良性对照。然后按照染色体切分数据——Chr 1–7、9–22、X、Y 用于训练,Chr 8 专作测试——以评估模型在“未见染色体”上的泛化能力。最后,借助 GPT-4o 为每条样本自动生成 50 条语义等价问句(涵盖不同表述和上下文),要求模型先判定致病或良性,再在致病情况下给出具体疾病标签;若同一变异关联多种疾病,则拆分为多条独立样本,以全面覆盖表型空间。这里拆分样本虽然能简化模型训练任务、平衡数据分布,便于疾病特异的分析,但这样也会导致模型的输出信息不全面。
GRCh38 (hg38) :人类参考基因组第 38 版。发布于 2013 年底,由 Genome Reference Consortium(GRC)持续维护与微更新。它提供了“人类基因组的一份标准坐标系”——一条高质量、尽量无缺口的 DNA 序列,用来统一描述变异位置、基因注释和功能实验结果,目前几乎所有临床与群体数据库(ClinVar、gnomAD 等)都以 GRCh38 坐标发布;用它做参考可以把变异、注释和功能实验结果无缝对齐到同一坐标系。
100-way:指将100个不同物种的基因组序列进行对齐比较。
GPN-MSA(Genomic Pre-trained Network with Multiple Sequence Alignment):是一种先进的 DNA 语言模型,它利用 UCSC multiz 的 100 物种全基因组比对(剔除最接近人类的灵长类)信息,将多物种对齐信号映射到重叠 128 bp 窗口,并根据 phastCons 保守性评分选取高保守区域加以重点训练,同时在非保守区进行随机替换以增强模型鲁棒性;模型基于 12 层 12 头的 RoFormer 架构,在训练中对人类序列随机遮蔽 15% 位点以预测被遮蔽碱基的概率分布,并在推断时仅对变异位点计算替代等位基因(ALT)与参考等位基因(REF)的对数似然比,取双链平均作为致病性分值;在 ClinVar、COSMIC、OMIM、DMS、gnomAD、DepMap 等多项基准测试中均显著优于现有方法,且其模型权重、评测数据及对人类约 90 亿单核苷酸变异的预计算打分均已开源,为揭示基因组“暗物质”、加速罕见病诊断和推动精准医学研究提供了关键工具。
gnomAD(Genome Aggregation Database):gnomAD 是由美国 Broad Institute 与国际合作团队主导建立的人类基因组变异资源库。项目通过统一流程汇集并质控来自多项大规模测序计划的 外显子组与全基因组数据,再向科研与临床社区开放汇总性等位基因频率、基因型和功能注释。其核心价值在于提供一个**“正常人群参考系”**,使研究者可迅速判断某个变异在不同人群中的出现频率,从而区分罕见致病突变与常见良性多态;临床遗传学可借此改进变异解读与疾病关联研究。
4.3 Variant Effect Prediction of Coding Non-SNVs
数据案例:
question:
Mutation found at chromosome 1 position 1040717, gene AGRN (agrin): benign or pathogenic? If pathogenic, indicate the relevant disease(s).
reference_sequence:...
variant_sequence:...
answer:
pathogenic; ['Congenital_myasthenic_syndrome', 'Congenital_myasthenic_syndrome_8']
cleaned_pathogenicity:
pathogenic
__index_level_0__:
67
这里的数据均来自ClinVar数据库,并进行了严格的筛选,仅保留满足以下条件的编码区非SNV变异:
位于核基因组内(不包含线粒体基因组);
变异长度小于等于64个碱基对(因长度过大的变异可能同时影响多个功能元件,难以明确致病机制);
具有明确的致病性等级;
在ClinVar中的审查等级至少为两星,确保变异信息经过多个独立研究确认,具有较高的可信度;
所有变异与人类参考基因组GRCh38.p14版本的转录本准确匹配,即这些变异被准确定位到了GRCh38.p14中已定义的具体转录本序列范围内,而非其他未知或不确定区域。

在此基础上,研究提取了每个变异所涉及的基因名称以及相应的疾病表型信息,并利用定制算法将数据划分为训练集与测试集,以确保两者中疾病类别分布均衡(如上图)。和之前一样,利用GPT-4o模型,以基因和染色体编号为上下文,为每个变异样本生成了50个语义等价的问句。这些问题旨在指导模型进行致病性/良性分类,并在判定变异为致病时,给出明确的关联疾病表型。
ClinVar 数据库对变异的致病性分类有清晰的定义:致病 (Pathogenic)、很可能致病 (Likely Pathogenic)、临床意义不明确 (VUS, Variant of Uncertain Significance)、很可能良性 (Likely Benign)、良性 (Benign)
ClinVar数据库审查等级 :ClinVar数据库为变异提供了可信度(审查等级,Review Status)的分级,通常以星级标记:一星:由单个研究提交,证据初步;两星:由多个独立提交者确认,且审查提供了一定水平的可信度;三星:专家小组审查并获得共识,可信度非常高;四星:最高可信级别,极少数被临床与科研专家广泛共识确认的变异
BIOREASON模型是一个多回答任务范式的架构,它不仅能处理KEGG推理数据集所要求的、生成包含详细步骤的机制性解释 ,也能高效执行VEP分类任务,直接输出“良性”或“致病性”的简洁判断 。为了针对这些不同的任务分别进行有效的训练和性能评估,因此以上提到的所有数据集(KEGG、VEP-Coding和VEP-Non-SNV)都相应地被划分为了训练集和测试集 。
5. Experiments
5.1 Models and Baselines
为了对BIOREASON的性能进行基准测试,研究者将其与几类单模态模型作为baseline进行比较,这些单模态模型分别是DNA fundation model和Large Language model 。对于DNA fundation model,研究使用了Evo2和NT这两个DNA模型,但它们只处理DNA序列。为了让它们能做分类等任务,研究人员给它们加上了一个“注意力头”来输出最终结果 ;对于Large Language model,使用Qwen3大模型,它将DNA序列仅仅看作一串普通的字符串来处理 。
BIOREASON尝试了几种不同的DNA和LLM的模型组合,并对此进行了评估。具体来说,将Evo2-1B和NT-500M作为DNA编码器,并分别将它们与Qwen3-1.7B和Qwen3-4B这两个LLM模型配对进行测试 。所有BIOREASON配置的主要训练方法是监督微调 。随后,研究还使用了GRPO算法对NT-500M + Qwen3-1.7B模型进行了强化学习(Reinforcement Learning, RL)微调(即SFT+RL模型) 。
这里只对NT-500M + Qwen3-1.7B模型进行了强化学习应该是研究计算资源有限,因此只在小模型上进行测试验证。
5.2 Experimental Setup
在实验中,对于DNA模型,核心DNA模型权重被冻结,只训练任务特定的注意力头和分类器;LLM模型均通过监督微调(SFT)进行训练,其中LLM的参数通过低秩自适应(LoRA)进行更新 。这些模型的SFT目标有所不同:对于KEGG数据集任务,模型需要生成位于<think>标记之间的推理步骤和最终的疾病预测 。对于VEP数据集任务,它们的目标是进行致病性/良性分类,并在变异为致病性时进行条件性疾病预测 。在SFT期间,一个专门的注意力掩码(attention mask)会将损失计算范围严格限制在<think>标记和最终答案标记之间的响应部分,从而排除了来自输入查询或DNA嵌入的标记 ,即只训练“如何推理和回答问题”的部分,部分BIOREASON模型还通过GRPO进一步优化 。
性能评估指标是任务特定的 。KEGG数据集任务使用准确率(Accuracy)、宏F1分数(Macro F1-score)、宏精确率(Macro Precision)和宏召回率(Macro Recall)作为多类别疾病预测的评估,同时考虑了潜在的类别不平衡问题 。对于VEP数据集任务,准确率和F1分数用于衡量二元的致病性/良性分类性能 。为了确保比较的稳健性,所有LLM和DNA-LLM的生成过程都是确定性的,解码temperature设为0 。
5.3 Quantitative Results and Analysis

这个benchmark用这么小的模型准确率就这么高了吗?其实感觉区分度不大

BIOREASON的DNA-LLM混合模型,在机制性推理和变异效应预测这两类任务上,都比对应单模态baseline模型取得了持续且显著的性能提升 。同时结果也证明了GRPO强化学习的积极作用。
但这里的对比太少了,GRPO只用了一个BIOREASON模型训练且结果不明显
5.4 Case Study

这里给了一个案例:模型被问及在通路背景“肌动蛋白(单体)// PFN1* // 肌动蛋白(纤维丝)”下,位于17号染色体上的一个PFN1等位基因的生物学效应。BIOREASON准确地预测出其导致的疾病为肌萎缩侧索硬化症(ALS)。重要的是,该模型生成了一个包含10个步骤且看似合理的机制性基本原理,其第一步是识别出PFN1基因中一个特定的C>G替换。其推理过程接着将这个变异与profilin-1功能障碍、对细胞骨架完整性至关重要的肌动蛋白动态受损、随后运动神经元中轴突运输的破坏,以及最终ALS特有的运动神经元退行性病变联系起来。这个例子凸显了BIOREASON的能力——不仅能做出准确的预测,还能清晰地阐述一个从基因组变异到复杂疾病表型的、分步且生物学上连贯的通路。
6. Discussion
BIOREASON 成功将 DNA 基础模型与大型语言模型融合,构建了一个统一的多模态框架,既克服了以往模型无法原生处理 DNA 序列、又缺乏可解释性的痛点,又通过上下文化的 DNA 嵌入实现了分步推理与准确预测的能力——这一思路正是借鉴了视觉–语言模型提取视觉编码器高层嵌入并注入 Prompt 的VLM 范式;然而,该方案仍依赖于 KEGG 等策划数据集而易引入偏见,对超长序列分析需付出高昂的计算代价,且缺少稳健的不确定性量化,在临床等高风险场景中仍有待完善。





















暂无评论内容