今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

定量生物学

2026-02-12 02-12 15:26

今日q-bio领域研究呈现两大核心趋势:一是多模态、跨尺度数据整合与基础模型构建,以提升生物系统的预测与理解能力;二是对模型可靠性、可解释性及计算框架本身的深度反思与创新,旨在推动方法学的稳健与实用化。

  1. 模型验证与失效模式分析:针对预测模型(如siRNA设计)的可解释性工具(如显著性图),新研究提出了系统性验证协议,揭示了“忠实但错误”和“显著性反转”等此前未发现的失效模式,并指出实验数据来源的转变会导致模型失效,强调了模型评估需紧密结合具体实验背景。

  2. 序列驱动与零样本泛化能力突破:通过将遗传扰动直接编码为DNA序列(如STRAND模型),而非抽象基因标识符,实现了对训练未见基因组位点的零样本预测,将基因组覆盖范围从约1.5%大幅提升至95%,为大规模扰动筛选提供了新范式。

  3. 多模态基础模型与统一表征:首个跨物种、多模态免疫系统基础模型EVA的出现,标志着通过整合转录组、组织学等多源数据构建统一生物表征的趋势,其在零样本预测、跨物种分析等多项任务上的先进性能,展示了基础模型在生物医学领域的巨大潜力。

  4. 神经行为数据的共享与独立结构解析:新提出的多模态高斯过程变分自编码器(MM-GPVAE)框架,能够无监督地从神经与行为等多模态时序数据中,分离出共享与独立的潜在动态变量,为理解大脑与行为间的复杂关系提供了关键计算工具。

  5. 计算框架与基准测试的系统性革新:研究不仅关注算法本身,也开始系统审视支撑科学发现的计算基础设施。这包括评估智能体系统在药物发现中的能力缺口并指出架构瓶颈,以及推出Omnibenchmark等旨在实现基准测试透明化、可复现和可扩展的编排系统,以提升领域研究的整体质量与效率。

  6. 动力学机制与复杂系统建模:从微观(蛋白质长时程动力学模拟新方法STAR-MD)到宏观(生态系统非互惠相互作用、活性组织界面不稳定性),研究致力于开发更强大的数学与计算模型(如神经ODE、相场模型、动态显微镜框架),以揭示复杂生物系统的普适动力学规律和形态发生机制。

2026-02-12 速览 · 定量生物学

2026-02-12 共 17 条抓取,按综合热度排序

← 返回日历
q-bio 02-12 00:00

siRNA设计验证新方法:通过扰动测试揭示可解释性预测的潜在失效模式

本研究提出了一种用于验证siRNA效力预测模型中显著性图(saliency maps)可靠性的“预合成门控”协议。该协议通过测试突变高显著性位点是否比组成匹配的对照更能改变模型输出,来评估“反事实敏感性忠实度”。跨数据集分析揭示了两种未被发现的失效模式:“忠实但错误”(显著性有效但预测失败)和“显著性反转”(高显著性编辑的影响低于随机编辑)。研究还发现,在mRNA水平测定数据上训练的模型在荧光素酶报告数据集上会失效,表明实验方案的转变可能无声地使部署无效。此外,引入一种生物学先验正则化器(BioPrior)能在可接受的预测性能权衡下增强显著性忠实度。

sirna设计可解释性ai模型验证生物信息学显著性图扰动测试
q-bio 02-12 00:00

STRAND:基于DNA序列条件化的单细胞扰动预测模型

本文提出STRAND模型,通过将遗传扰动编码为特定基因组位点的DNA序列,而非固定的基因标识符,来预测单细胞的转录组响应。模型利用该序列表示参数化一个从对照到扰动细胞状态的条件化传输过程。该方法支持对训练中未见位点的零样本推断,将推断时的基因组覆盖范围从基因水平模型的约1.5%大幅提升至约95%。在多个细胞系的CRISPR扰动数据集上,STRAND在低样本量下判别分数提升高达33%,在未见基因扰动基准测试中平均排名最佳,并改善了向新细胞系的迁移性能。

单细胞扰动序列条件化生成模型基因调控零样本推断条件传输
q-bio 02-12 00:00

药物发现智能体系统评估:揭示五大能力缺口与设计需求

本研究系统评估了六种用于药物发现的智能体系统在15类任务(涵盖多肽疗法、体内药理学及资源受限场景)中的表现,发现存在五大能力缺口:缺乏对蛋白质语言模型或多肽特异性预测的支持、体内与计算机数据间缺乏桥梁、过度依赖LLM推理而缺乏通往机器学习训练或强化学习的路径、假设绑定大型药企资源、以及忽视安全性-有效性-稳定性权衡的单目标优化。配对知识探测实验表明瓶颈在于架构而非认知:前沿LLMs对多肽的推理能力与小分子相当,但现有框架未能利用此能力。研究提出了面向现实约束下作为计算伙伴的新一代框架的设计要求与能力矩阵。

药物发现智能体系统多肽疗法能力评估框架设计人工智能
q-bio 02-12 00:00

EVA:首个跨物种多模态免疫系统基础模型

本研究提出EVA,首个面向免疫与炎症领域的跨物种、多模态基础模型。它整合了跨物种、平台和分辨率的转录组学数据,并融合组织学数据,生成统一、丰富的患者表征。模型在39项涵盖药物研发全流程的任务中(包括零样本靶点功效预测、跨物种分子扰动分析、患者分层与治疗反应预测等)均取得最先进性能。通过可解释性分析,模型揭示了跨物种与技术间的生物学关联特征。

免疫基础模型多模态学习跨物种整合药物研发转录组学患者分层
q-bio 02-12 00:00

ENIGMA:仅用15分钟数据与1%参数实现EEG到图像重建

本研究提出的ENIGMA模型,通过整合主体统一的时空骨干网络、多主体潜在对齐层和MLP投影器,将原始脑电图(EEG)信号映射到丰富的视觉潜在空间。该模型在THINGS-EEG2和AllJoined-1.6M基准测试中达到最优性能,且仅需15分钟新主体数据即可高效微调,参数量不到以往方法的1%。研究首次在EEG到图像解码领域引入标准化图像重建指标并进行了广泛的人类行为评估,为开发实用的脑机接口应用迈出重要一步。

脑机接口eeg解码图像重建轻量化模型快速适应
q-bio 02-12 00:00

动态显微镜:从多变量振荡信号中提取共享流形上的动力学机制

本文提出了一种名为“动态显微镜”的框架,用于分析复杂系统产生的多变量振荡信号。该框架将多通道信号转换为相位-振幅特征,利用自编码器学习数据驱动的潜在轨迹表示,并通过轨迹几何和流场度量来量化动力学机制。研究以拓扑切换的耦合Stuart-Landau振子网络为验证模型,证明即使不同机制在状态空间上重叠,该方法也能有效恢复其动力学规律的差异。机制间的差异可表现为共享流形上潜在轨迹的速度、路径几何和流组织的改变,而无需离散的状态分离。速度与探索方差展现出强区分度($\eta^2 > 0.5$),而曲率等指标则捕获了与拓扑对比正交的轨迹几何信息。该框架为分析神经、生理或物理系统的多元时间序列中的机制结构提供了原理性方法。

多变量振荡信号动力学机制共享流形自编码器轨迹几何流场分析
q-bio 02-12 00:00

蠓虫集群之谜:弱耦合个体如何形成强相关群体?

蠓虫集群展现出令人困惑的集体行为:个体间耦合很弱,但与集群整体耦合却很强。实验室研究中相关长度很小,而野外观察却显示出强相关性、无标度行为和幂律特征。本文回顾并讨论了现有理论模型,并将我们自己的谐波约束Vicsek模型扩展到各向异性约束情形。数值模拟产生了拉长的集群形状,其静态临界指数介于二维和各向同性三维模型之间,新值与自然集群的测量结果更为吻合。

集群行为vicsek模型临界现象生物物理学相关函数幂律
q-bio 02-12 00:00

ICODEN:基于常微分方程神经网络的区间删失生存数据预测模型

本文提出了ICODEN模型,一种用于处理区间删失生存数据的深度学习方法。该模型通过深度神经网络建模风险函数,并通过求解常微分方程获得累积风险,无需比例风险假设或预设风险函数参数形式,实现了灵活的生存建模。在模拟研究和阿尔茨海默病、年龄相关性黄斑变性的真实数据应用中,ICODEN均表现出稳健的预测性能,并能有效利用数百至上千个高维预测因子进行数据驱动的亚组识别。

生存分析区间删失神经网络常微分方程生物医学预测
q-bio 02-12 00:00

侵袭性癌组织界面形态不稳定的相场模型研究

本研究针对乳腺癌上皮球体在细胞外基质中侵袭时出现的界面不稳定性,建立了一个连续相场模型,描述生长中的活性液体向被动粘弹性基质的扩张。通过线性稳定性分析发现,组织界面可能出现长波不稳定性,但当癌组织嵌入弹性基质时,这种不稳定性会受到抑制。研究构建了理论形态相图,并辅以二维有限元相场模拟,追踪界面的非线性演化,结果与理论预测和实验观察一致。该工作为理解活性-被动系统中界面不稳定性的产生机制及其潜在调控提供了理论基础。

相场模型界面不稳定性肿瘤侵袭粘弹性基质形态相图有限元模拟
q-bio 02-12 00:00

广义Lotka-Volterra模型中非互惠相互作用下的脆弱与鲁棒多平衡态相

本研究通过计算平衡态的拓扑复杂度,量化了广义Lotka-Volterra动力学中随机非互惠相互作用下平衡态数量随物种总数增长的速率。分析揭示了两种不同的多平衡态相:一种对入侵物种具有动态稳定性,另一种则不具备。研究进一步刻画了典型平衡态的平均丰度、相互相似性和内部稳定性,为理解复杂生态系统在非互惠作用下的动态行为提供了新视角。

生态动力学非互惠相互作用多平衡态lotka-volterra模型拓扑复杂度动态稳定性
q-bio 02-12 00:00

多模态高斯过程变分自编码器:解析神经与行为数据的共享与独立潜在结构

本研究提出了一种无监督多模态高斯过程变分自编码器(MM-GPVAE),用于从同时记录的神经与行为等多模态数据中,提取随时间演化的共享与独立潜在变量。模型结合了高斯过程因子分析(GPFA)的时序平滑性与GP-VAE的表达能力,通过在傅里叶域参数化潜在变量,提升了潜在结构的识别精度。在模拟的泊松尖峰计数与平滑变化的MNIST图像数据上,模型能准确分离共享与独立成分并良好重建数据。该框架已成功应用于果蝇全脑钙成像与肢体运动、以及天蛾翅膀肌肉尖峰序列与视觉刺激跟踪两个真实神经行为实验场景。

多模态学习变分自编码器高斯过程神经解码行为分析潜在变量模型
q-bio 02-12 00:00

元推理新框架:在不确定环境中优化决策过程

本文提出了一种元贝叶斯自适应马尔可夫决策过程(meta-BAMDP)框架,用于处理在奖励和状态转移分布未知环境中的元推理问题。该框架将寻找最优推理算法 $P$ 本身建模为一个优化问题,超越了传统模型对已知环境动态的假设。研究以伯努利多臂老虎机任务为例,通过引入两个新定理显著提升了问题的可处理性,为在认知约束下理解人类探索行为提供了资源理性的规范性框架和可实验验证的预测。

元推理贝叶斯自适应mdp决策优化认知约束多臂老虎机
q-bio 02-12 00:00

MOTGNN:用于多组学疾病分类的可解释图神经网络

本研究提出了一种名为MOTGNN的新型可解释框架,用于整合DNA甲基化、mRNA表达和miRNA表达等多组学数据进行疾病分类。该框架采用XGBoost构建组学特异性监督图,利用图神经网络进行分层表征学习,并通过前馈网络实现跨组学整合。在三个真实疾病数据集上的实验表明,MOTGNN在准确率、ROC-AUC和F1分数上比现有最优方法高出5-10%,对严重的类别不平衡具有鲁棒性。模型通过稀疏图保持计算效率,并具备内置可解释性,能识别关键生物标志物并量化各模态的贡献。

多组学整合图神经网络疾病分类可解释ai生物标志物监督图构建
q-bio 02-12 00:00

STAR-MD:基于时空扩散模型的长时程蛋白质动力学模拟新方法

本文提出了STAR-MD模型,一种可扩展的SE(3)等变扩散模型,用于生成微秒级时间尺度上物理可信的蛋白质轨迹。该模型的核心创新在于一个具有联合时空注意力的因果扩散Transformer,能高效捕捉复杂的时空依赖性,同时避免了现有方法的内存瓶颈。在标准ATLAS基准测试中,STAR-MD在所有指标上均达到最先进水平,在构象覆盖度、结构有效性和动态保真度方面相比先前方法有显著提升。该模型成功外推生成了基线方法完全失败的稳定微秒级轨迹,并在整个扩展推演过程中保持了高结构质量。

蛋白质动力学扩散模型时空建模分子模拟生成模型se(3)等变性
q-bio 02-12 00:00

神经ODE实现无限时间范围通用逼近,首次覆盖多稳态系统

本研究证明了神经ODE(Neural ODEs)能够在无限时间范围 $[0,\infty)$ 内,以 $\varepsilon$-$\delta$ 逼近精度(除测度小于 $\delta$ 的初始条件外,轨迹误差小于 $\varepsilon$)逼近三类目标动力系统:具有双曲不动点的Morse-Smale系统、具有双曲极限环的系统(通过精确周期匹配)、以及具有法向双曲连续吸引子的系统(通过离散化)。研究进一步建立了时间泛化界:$\varepsilon$-$\delta$ 逼近意味着对所有 $t \geq 0$,$L^p$ 误差满足 $\leq \varepsilon^p + \delta \cdot D^p$,从而将拓扑保证与训练指标联系起来。这是首个针对多稳态无限时间范围动力学的通用逼近框架。

神经ode通用逼近定理动力系统无限时间范围多稳态系统morse-smale系统
q-bio 02-12 00:00

SRast:通用空间转录组学超分辨率框架,解决异质性与物理一致性难题

本研究提出SRast框架,旨在解决空间转录组学超分辨率任务中的两大核心挑战:样本间生物异质性导致的泛化能力差,以及缺乏物理一致性。SRast采用解耦架构,将基因语义表征与空间几何反卷积分离,并通过自监督学习对齐潜在分布以应对异质性。同时,它将任务重构为单纯形上的比例预测问题,利用基于最优传输的流匹配模型学习几何变换,严格保证了局部质量守恒的物理先验。跨物种、组织和平台的实验表明,SRast在保持物理一致性的同时,实现了优异的零样本泛化性能。

空间转录组学超分辨率最优传输流匹配物理一致性零样本泛化
q-bio 02-12 00:00

Omnibenchmark:一个透明、可复现、可扩展的标准化基准测试编排系统

本文介绍了Omnibenchmark,一个旨在简化和标准化基准测试流程的新系统。它通过灵活的YAML配置语法定义基准测试计划,并基于Snakemake动态生成工作流。系统集成了S3兼容存储、可复现的软件环境(如Conda、Apptainer),支持现有基准测试设计的“分叉”与扩展。无论是独立运行还是社区协作,Omnibenchmark都能生成版本化、标准化的结果输出,为方法性能评估提供了前所未有的透明度、可复现性和可扩展性。

基准测试工作流编排可复现研究标准化生物信息学软件工具
AI速览助手