今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

定量生物学

2026-02-16 02-16 15:23

今日q-bio领域整体聚焦于计算模型与数据整合方法的创新,以解决生物医学中数据稀缺、异构性及复杂机制解析等核心挑战。研究趋势体现在利用合成数据、跨模态对齐及新型计算框架来增强模型的鲁棒性、可解释性与应用广度。

  1. DNA-语言模型融合从嵌入走向词汇整合:研究突破传统嵌入对齐,提出将DNA $k$-mer直接纳入语言模型词汇表,实现更细粒度、表达力更强的基因组-语言联合表示,为基因组语义理解提供新范式。
  2. 合成数据预训练医学影像基础模型取得突破:RaSD框架仅用随机合成数据训练,在多项下游任务中达到与真实数据预训练相当的性能,证明了通过解耦解剖与外观特征学习不变性表征的可行性,缓解了数据稀缺难题。
  3. 计算模型揭示海马体序列学习障碍是发育性遗忘症关键:新模型首次成功模拟该病症情景记忆特异受损的特征,支持语义记忆依赖随机激活而非序列编码的观点,为理解记忆分离机制提供了计算依据。
  4. 神经网络助力从稀疏数据推断种群动态:LinkedNN利用神经网络自动提取连锁不平衡特征,仅需少量个体与位点即可准确推断近期有效种群大小,提升了分子生态学分析的效率与可行性。
  5. 蛋白质折叠预测面临离散Hasimoto映射的结构性障碍:分析指出该几何映射因忽略手性信息(约31%)导致$2^N$重简并,且实部势绝大部分信息缺失,解释了其为何难以直接用于预测框架。
  6. 大语言模型脑活动预测呈现与形式语言能力同步的左右脑不对称:研究发现LLM训练中预测左脑活动的准确性提升更快,且该不对称性与模型语法判断能力发展同步,揭示了语言处理神经基础与AI模型的潜在关联。

2026-02-16 速览 · 定量生物学

2026-02-16 共 17 条抓取,按综合热度排序

← 返回日历
q-bio 02-16 00:00

DNA与语言模型融合新思路:从对齐到词汇整合

本研究探讨DNA基础模型与大型语言模型融合的核心问题:基因组序列与自然语言应在何种层面交互?现有方法多采用嵌入级对齐,将丰富基因组压缩为固定表示,限制了细粒度推理能力。论文提出两种新方法:SeqCLIP通过序列级对比预训练强化嵌入对齐;OneVocab直接将基因组$k$-mer整合至语言模型词汇表。实验表明,词汇级早期整合能产生更具表达力的DNA-语言表示。

dna语言模型多模态融合基因组表示词汇整合对比学习
q-bio 02-16 00:00

RaSD:通过随机合成与解耦实现医学影像基础模型的无成本预训练

本研究提出RaSD框架,通过完全使用合成数据预训练医学影像基础模型,解决了真实数据稀缺、异构且标注成本高昂的难题。RaSD利用随机高斯分布对解剖结构和外观变化进行建模,迫使模型学习不依赖于特定数据集纹理的、具有不变性的解剖学特征,从而实现鲁棒且可迁移的表征学习。在6种成像模态、48个数据集、56项下游任务的广泛评估中,RaSD模型性能全面超越从头训练的模型,并在多项任务中达到最佳,其表现与使用大规模真实数据预训练的模型相当。这证明了仅凭合成数据即可驱动强大的表征学习能力。

医学影像基础模型合成数据预训练表征学习鲁棒性
q-bio 02-16 00:00

计算模型揭示发育性遗忘症:海马体序列学习障碍导致情景记忆受损

本研究提出一个计算认知模型,首次成功模拟了发育性遗忘症的核心特征:情景记忆严重受损而语义记忆基本正常。模型表明,海马体的序列/空间学习能力受损是导致该病症的关键原因。模拟结果显示,序列学习障碍仅严重影响情景回忆,但不影响再认能力与语义学习。这支持了语义学习主要与情景记忆的巩固过程相关,而该过程可能更多依赖于随机激活而非序列激活的观点。模型还模拟了逆行性遗忘,其结果与机制与先前多数计算模型一致。

发育性遗忘症计算模型海马体序列学习情景记忆语义记忆
q-bio 02-16 00:00

Hyb-Adam-UM:一种用于线粒体DNA系统发育重建的混合超度量感知矩阵补全方法

本研究提出Hyb-Adam-UM方法,用于高效、准确地从不完整的线粒体DNA距离矩阵重建系统发育树。该方法从一个基于有限序列比对的初始距离矩阵出发,通过最小化一个鲁棒的三元组超度量违反函数来补全缺失的距离值,同时利用Adam风格的优化器确保矩阵的对称性、非负性和零对角线性质。实验表明,即使在高达85%的数据缺失率下,该方法也能有效减少超度量违反,并在拓扑结构和分支长度准确性上优于现有基线方法。

系统发育重建距离矩阵补全超度量线粒体dna计算生物学
q-bio 02-16 00:00

LinkedNN:基于神经网络的连锁不平衡衰减模型,用于推断近期有效种群大小

本研究提出了一种名为LinkedNN的生物信息学新工具,它利用神经网络自动计算与连锁不平衡相关的特征,这些特征是基因组多态性位点间距离的函数。该方法旨在从稀疏、未分型的分子生态学数据中,更准确地推断近期有效种群大小。与现有的深度学习和基于汇总统计的方法相比,LinkedNN在仅使用相对较少的测序个体和变异位点的情况下,表现出更优的性能。该工具已打包为易于安装的Python软件包并开源。

有效种群大小连锁不平衡神经网络群体遗传学生物信息学工具
q-bio 02-16 00:00

离散Hasimoto映射的结构性障碍:为何蛋白质折叠预测仍面临挑战

研究通过离散Hasimoto变换将蛋白质Cα主链几何映射为满足离散非线性薛定谔方程(DNLS)的复标量场 $\psi=\kappa\,e^{i\sum\tau}$,其孤子解可再现二级结构。然而,分析发现该映射存在三个结构性障碍阻碍其成为预测框架:1)虚部势 $V_{\text{im}}$ 通过 $\sin\tau$ 的奇对称性编码手性,占总信息约31%,忽略将导致 $2^N$ 重简并;2)实部势 $V_{\text{re}}$ 约95%由局部几何决定,与序列无关;3)自洽场迭代即使加入氢键项也无法恢复天然结构(平均RMSD=13.1 Å)。研究同时发现DNLS色散关系残差可作为α螺旋的几何序参量(ROC AUC=0.72),定义其为最大可积性区域。结果表明Hasimoto映射是运动学恒等式而非动力学控制方程。

蛋白质折叠离散几何非线性薛定谔方程结构预测手性编码可积系统
q-bio 02-16 00:00

国际纤维束成像学会首届会议:聚焦神经解剖与临床应用的突破

本文集收录了2025年国际纤维束成像学会(IST)首届会议(法国波尔多)的摘要,涵盖海报、快速演讲及口头报告。会议旨在促进神经解剖学、纤维束成像方法学及其科学/临床应用等跨领域交流与合作。摘要内容聚焦于纤维束成像、弥散磁共振成像(dMRI)的最新进展,涉及神经精神疾病、深部脑刺激靶点定位及脑发育等前沿研究。此次会议汇聚了全球顶尖专家,共同探讨了领域内的关键挑战并规划了未来发展方向。

纤维束成像弥散磁共振神经解剖临床应用脑科学
q-bio 02-16 00:00

大语言模型预测大脑活动时出现左右脑不对称性,与形式语言能力同步发展

研究发现,当大语言模型(LLM)处理文本时,其内部激活模式可用于预测人脑活动。随着模型训练进行,利用其激活预测左脑活动的准确性提升速度显著快于右脑,形成左右不对称性。本研究通过分析OLMo-2 7B等模型在不同训练阶段的性能发现,这种不对称性的出现与模型“形式语言能力”的进步同步,即模型判断句子语法可接受性或生成结构良好文本的能力。相反,不对称性与算术、世界知识或推理任务的表现无关。该结果在Pythia模型和法语数据中得到验证,表明大脑可预测性的左右差异反映了模型对语言形式结构的习得。

计算神经科学大语言模型脑活动预测语言处理左右脑不对称形式语言学
q-bio 02-16 00:00

单细胞组学时代下的细胞本体论:整合数据与定义细胞类型的新框架

单细胞组学技术通过高分辨率分析单个细胞,深刻改变了我们对细胞多样性的理解。面对海量异质性数据,细胞本体论(CL)已成为实现FAIR数据原则的关键资源,它提供了标准化的、物种无关的细胞类型术语,是众多平台和工具的核心组件。本文阐述了CL在这些平台中的广泛应用,并详述了其改进与扩展工作,包括新增转录组学细胞类型定义,以及与人类细胞图谱等大型图谱计划合作以满足其需求。同时,文章探讨了协调经典与转录组学细胞类型定义、整合标记物以及利用大语言模型提升CL工作流效率所面临的挑战与未来规划。

单细胞组学细胞本体论数据整合细胞类型注释fair原则生物信息学
q-bio 02-16 00:00

代数连通性揭示阿尔茨海默病高阶功能网络调制

本研究提出一种基于超图建模大脑高阶功能连接的新方法。通过引入代数连通性(a(G))来估计超边权重,构建了跨个体的通用拓扑结构。在涵盖阿尔茨海默病(AD)连续谱的队列中,该方法比现有方法识别出更多具有组间统计学差异的超边,并在所有二元分类任务中表现出更高的判别力。中介分析进一步揭示,属于显著性/腹侧注意和躯体运动网络的两个超边,在tau生物标志物与认知衰退之间起到了部分中介作用。

阿尔茨海默病功能磁共振成像超图模型代数连通性高阶功能连接生物标志物
q-bio 02-16 00:00

动物社交网络结构如何受个体特征偏好影响

本研究开发了一个通用的生成网络模型,用于模拟基于个体特征(如性别、体型、亲缘关系)的社会偏好如何影响动物社交网络的形成。研究发现,这些偏好会显著影响网络在疾病和信息传播方面的效率,以及当个体消失时网络抵抗分裂的稳健性。通常(但并非总是),偏好会导致传播速度变慢和稳健性降低。效应的程度和形式取决于偏好的类型及其所依据的特征类型。该研究为理解动物社交网络结构多样性的潜在机制、特征值分布对社会结构的重要性以及从网络数据中检测特征效应的可能性提供了新见解。

社交网络动物行为网络模型特征偏好疾病传播网络稳健性
q-bio 02-16 00:00

无需神经数据:基于像素相似性提升CNN对抗鲁棒性

本研究提出了一种无需依赖神经记录数据即可提升卷积神经网络对抗鲁棒性的新方法。该方法沿用Li等人(2019)提出的生物启发式正则化框架,但将其中基于神经表征相似性的对齐目标,替换为直接从图像像素计算得到的相似性结构。实验表明,这种数据驱动的变体能够提供与使用神经数据时相同的鲁棒性提升效果,且方法轻量、易于集成到标准训练流程中。这项工作表明,即使没有专门的神经测量数据,基于大脑启发的原理也能开发出简单有效的鲁棒性增强方法。

对抗鲁棒性卷积神经网络生物启发正则化表征相似性
q-bio 02-16 00:00

ChemRecon:整合异构生化数据的元数据库平台

本文介绍了ChemRecon,一个用于整合和探索异构生化数据的元数据库及Python接口。它将来自多个主要数据库的化合物、反应、酶、分子结构和原子映射整合到一个统一、一致的框架中。ChemRecon支持跨数据库的统一查询、分析和基于图的数据表示构建,通过遍历数据库间的连接,实现了在单一数据库内无法完成的信息提取,例如从冲突数据源中推导共识信息(如确定化合物最可能的分子结构)。该工具可通过pip安装,且为开源项目。

生化数据库数据整合元数据库python工具化学信息学
q-bio 02-16 00:00

EMERALD-UI:揭示蛋白质亚优比对空间中隐藏生物学功能的交互式网络应用

本研究介绍了EMERALD-UI,一个开源的交互式网络应用程序,旨在通过可视化亚优比对空间中隐藏的稳定结构构象或蛋白质区域,揭示传统最优蛋白质序列比对方法所忽略的生物学信息。蛋白质的进化与功能适应在序列和结构层面遵循不同的保守模式,而现有方法通常只关注最优比对,可能遗漏重要的功能变化。该工具允许研究者探索这些亚优比对配置,从而发现蛋白质中未被充分认识的生物学功能与进化关系。

蛋白质比对结构生物学生物信息学网络应用功能进化亚优空间
q-bio 02-16 00:00

重新评估Moderna新冠疫苗对年轻男性的风险收益:考虑既往感染保护作用

本研究重新分析了FDA对Moderna mRNA-1273疫苗的风险收益评估,特别关注18-25岁男性群体。研究在FDA原有模型基础上,引入了三个关键因素:既往COVID-19感染获得的保护作用、更精细的年龄分层住院率数据,以及偶发性住院病例。同时采用更现实的Omicron感染率预测和更准确的疫苗相关心肌炎/心包炎(VAM/P)发生率。分析发现,以住院为主要终点(疫苗预防的COVID住院 vs. VAM/P导致的住院),在FDA假设的五个月保护期内,18-25岁男性接种疫苗导致的VAM/P住院数,比疫苗预防的COVID住院数多出8%至52%。研究结论显示,除极不现实的高Omicron感染率情景外,对该群体而言疫苗风险可能超过收益。

疫苗风险评估mrna疫苗心肌炎风险收益风险分析covid-19流行病学模型
q-bio 02-16 00:00

环境异质性加速图结构种群的自然选择与突变固定

本研究探讨了环境异质性(如营养、氧气或药物梯度)对图结构种群中突变体固定的影响。研究发现,当亚种群间迁移频繁时,环境异质性可以显著放大自然选择,同时加速有益突变的固定和有害突变的灭绝。这种放大效应要求突变体在迁出流更强的亚种群中具有更强的适应度优势,该条件在星形图和线形图中尤为明显。作为基线,在迁移流入流出相等的循环图中,环境异质性仅产生二阶影响。当迁移稀少时,环境异质性可通过创造突变体“避难所”来促进选择放大。

空间演化图论环境异质性突变固定自然选择放大种群结构迁移动力学
q-bio 02-16 00:00

SimAQ:利用模拟采集缓解软X射线断层扫描中的实验伪影

软X射线断层扫描(SXT)能提供细胞整体结构信息,但常受缺失楔等实验伪影及标注数据稀缺的困扰。本研究提出SimAQ仿真流程,通过生成逼真的酵母细胞模型并施加合成成像伪影,产生成对的噪声体积、正弦图及重建图像。验证表明,主要基于合成数据训练的神经网络,能在真实X射线断层图像上实现有效的少样本与零样本迁移学习。该模型能对噪声断层图进行精确分割,为无需依赖大规模标注数据的定量分析提供了新工具。

软x射线断层扫描模拟数据生成迁移学习图像分割细胞结构分析计算生物学
AI速览助手