今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

定量生物学

2026-01-08 01-08 15:42

今日q-bio领域研究呈现多学科交叉融合趋势,重点聚焦于利用人工智能(尤其是大语言模型)解析复杂生物系统、从信息与网络视角理解生命过程的涌现机制,以及开发新型计算工具提升生物数据建模的可靠性与可解释性。

  1. AI赋能生物预测与设计:研究探索利用大语言模型(LLMs)直接处理生物序列或临床文本数据,以预测药物组合相互作用、生成宏基因组表示或预测蛋白质结合亲和力,旨在弥合序列信息与复杂功能/表型之间的鸿沟。
  2. 网络与信息视角下的系统机制:多个研究从网络动力学、信息论角度出发,探讨基因调控、代谢、神经运动协调等生物系统中涌现现象(如温度响应、功能最优、神经-运动解耦)的底层机制,强调局部简单规则可能产生全局适应性。
  3. 计算模型与工具的可靠性与评估:针对生物数据的高噪声、高维特性,研究致力于通过贝叶斯框架、知识蒸馏、新评分函数等方法提升模型预测的稳健性和不确定性量化能力,并对现有分析工具进行系统性评估与比较。
  4. 演化与行为建模的新见解:通过演化博弈和基于主体的模型,研究挑战了关于惩罚机制消耗性的传统观点,并揭示了在缺乏全局信息下,基于局部线索的适应性扩散策略和群体最优路径涌现的可能性。
  5. 跨尺度数据整合与模型校准:发布综合性的植物表型数据库,旨在弥合从叶片到整株的尺度鸿沟,为生物物理模型的精准校准与验证提供关键资源,提升模型预测能力。
  6. 方法论与软件工具创新:推出了新的数据分析框架(如基于相关矩阵r谱推断大脑状态)和Python工具包(如sentropy),专注于从复杂数据中提取更具信息量的特征,以揭示隐藏的差异和动力学模式。

2026-01-08 速览 · 定量生物学

2026-01-08 共 22 条抓取,按综合热度排序

← 返回日历
q-bio 01-08 00:00

MixRx:利用大语言模型预测药物组合相互作用

MixRx 研究提出利用大语言模型(LLMs)对多药物患者病史进行分析,以预测药物组合的相互作用类型(相加、协同或拮抗)。研究评估了包括 GPT-2、Mistral Instruct 2.0 及其微调版本在内的 4 个模型。结果显示,微调后的 Mistral Instruct 2.0 模型在标准数据集和扰动数据集上的平均准确率达到 81.5%,证明了 LLMs 在生物预测任务中的应用潜力。

药物相互作用大语言模型生物预测人工智能医疗药物组合
q-bio 01-08 00:00

MetagenBERT:基于基因组大语言模型的宏基因组表示新方法

本研究提出了MetagenBERT,一种基于Transformer的框架,能够直接从原始DNA序列生成端到端的宏基因组嵌入表示,无需依赖物种丰度表或功能注释。该方法利用DNABERT2等基因组基础大语言模型嵌入序列读数,并通过FAISS加速的K-Means聚类进行聚合,最终将每个宏基因组表示为聚类丰度向量。在五个肠道微生物组基准数据集上的评估显示,其预测性能与物种丰度基线方法相当或更优,且两种表示方法结合可进一步提升预测效果。该方法在仅使用10%读数时仍保持稳健,揭示了宏基因组数据的高度冗余性,并展示了构建宏基因组表示基础模型的可行性。

宏基因组学transformer模型dna语言模型无监督表示疾病预测聚类分析
q-bio 01-08 00:00

生物系统温度响应的网络机制:从微观反应到宏观涌现

本文聚焦于网络层面的机制,探讨耦合生化反应如何将单个反应的阿伦尼乌斯温度依赖性,转化为系统层面的非阿伦尼乌斯标度、热极限和温度补偿等涌现现象。通过回顾确定性模型和随机框架(如马尔可夫链),文章揭示了温度如何调控复杂多步过程的动力学,从而在经验温度响应曲线与生物系统的分子组织之间建立机制性桥梁,为预测系统的鲁棒性、扰动响应和进化约束提供了见解。

温度响应网络动力学涌现现象生化反应网络系统生物学
q-bio 01-08 00:00

舞蹈即兴中的神经-运动同步悖论:训练增强脑同步却降低动作同步

本研究通过结合三维动作捕捉与超扫描脑电图,探究了生成性舞蹈训练如何影响协作即兴表演中的神经与运动同步。研究发现,训练后参与者间的大脑同步(尤其在前额叶)显著增强,而人际间的运动同步性却下降。这表明,增强的参与式意义建构促进了神经层面的对齐,同时扩展了个体的运动探索空间,从而在动作层面减少了耦合。这一“耦合-解耦悖论”揭示了社会协调的非线性本质,即共同体的形成并非源于相同的动作输出,而是源于分布在多层互动网络中的共享神经意向性。

神经同步运动同步舞蹈即兴社会协调耦合悖论超扫描脑电
q-bio 01-08 00:00

信息处理三阶层次:检测智能体能动性的必要条件

本文提出了一种基于信息处理阶次的、自下而上的框架,用于量化评估不同系统(从机器学习模型到体外神经培养物)的能动性。该框架定义了三个阶次:I 阶系统是反应式、无记忆的;II 阶系统包含提供记忆的内部状态,但遵循固定的转换规则;III 阶系统是自适应的,其转换规则本身会随先前的活动而改变。这些动态特性代表了真正能动性的必要信息条件,为识别能动性的信息前兆提供了一种可测量、与实现载体无关的方法。

能动性信息处理系统分类适应性计算框架神经科学
q-bio 01-08 00:00

整合强互惠理论:惩罚机制如何从消耗性转变为生产性

本研究通过构建整合上游与下游互惠的演化博弈模型(ISR),挑战了惩罚机制必然消耗集体福利的传统观点。研究发现,当惩罚效率足够高时,惩罚者与无条件背叛者(ALLD)构成的混合均衡能提升整体收益,使惩罚变得“生产性”。无条件背叛者在此系统中扮演“进化盾牌”角色,阻止无条件合作者或其他条件策略入侵,从而维持了系统的稳定性。该模型在适度复杂性成本下依然稳健,为理解大规模群体合作提供了新视角。

演化博弈强互惠惩罚机制合作演化群体行为
q-bio 01-08 00:00

Bayes-PD:基于噬菌体展示数据的序列-结合贝叶斯神经网络模型

本研究提出了一种新颖的Bayes-PD模型,将贝叶斯神经网络整合到训练循环中,以模拟高噪声的噬菌体展示实验过程。该方法旨在通过理解实验噪声和模型不确定性,使深度学习模型能够更可靠地解释噬菌体展示数据,从而辅助蛋白质设计。研究使用真实的结合亲和力测量值进行验证,而非仅依赖于实验轮次的代理值,提升了模型预测的可靠性。

贝叶斯神经网络噬菌体展示蛋白质设计深度学习结合亲和力不确定性量化
q-bio 01-08 00:00

单基因敲入可恢复衰老基因调控网络信息传递能力

研究提出一个描述基因调控网络中信息传递的理论框架,用于量化单个基因被外源表达(敲入)时网络信息的增益或损失。将该框架应用于年轻与年老小鼠肌肉细胞的基因表达数据,发现单基因敲入可使网络信息恢复高达10%。这项工作推进了对网络中信息流的研究,并识别出潜在的抗衰老基因靶点。

基因调控网络信息理论细胞衰老基因敲入网络扰动生物信息学
q-bio 01-08 00:00

基于信息素的最优运输:群体导航中的涌现行为与局部控制

本研究提出了一种基于信息素(stigmergy)的群体运输理论框架,将其建模为随机最优控制问题。在该模型中,智能体通过集体铺设和个体跟随轨迹来最小化预期穿越时间。模拟与分析揭示了两种涌现行为:在均匀环境中路径被拉直,在材料界面处发生路径折射,这与昆虫轨迹的实验观察一致。研究表明,即使没有集中协调或全局知识,仅通过局部、有噪声的智能体-环境相互作用,也能在异质环境中产生测地线轨迹,这依赖于一种具身的慢-快动力学机制。

群体智能最优控制信息素通信涌现行为路径规划生物启发算法
q-bio 01-08 00:00

渐进贝叶斯置信架构:解决个人健康分析的冷启动困境

本研究提出了一种渐进贝叶斯置信架构,旨在解决个人健康分析中的“冷启动”难题。传统方法需要大量数据才能进行可靠推断,导致用户早期参与度下降。该框架通过贝叶斯更新和稀疏观测下的金融风险建模策略,将后验收缩映射为可解释的洞察层级,从探索性方向证据到稳健的关联推断。在合成N-of-1健康数据上的实验表明,该方法能在5-7天内生成校准后的早期洞察,平均信号检测时间从31.7天缩短至5.3天(p<0.001),同时将错误发现率控制在6%以下,并在第90天实现76%的置信区间覆盖率。

贝叶斯推断健康分析冷启动问题不确定性量化个性化医疗后验收缩
q-bio 01-08 00:00

费勒扩散作为合并点过程的极限:统一分支过程标度极限的新视角

本研究将费勒扩散解释为一类节点高度分布向零倾斜的合并点过程的极限。通过统一框架,重新诠释了近期关于分支过程标度极限的若干结果为该极限下费勒扩散的性质。文章将有限群体的伯努利抽样概念推广至扩散极限,以涵盖从无限连续群体中抽取的有限泊松分布样本。研究表明,泊松抽样的费勒扩散合并树对应一个节点高度分布具有特定代数形式的合并点过程,该形式与伯努利抽样的生灭过程相同。通过借鉴分析预定样本量k的抽样生灭过程的方法,本文发展了研究k抽样费勒扩散合并性质的新方法。

费勒扩散合并点过程分支过程标度极限泊松抽样生灭过程
q-bio 01-08 00:00

知识蒸馏助力蛋白质结合亲和力预测:用序列数据实现结构模型性能

本研究提出一种基于知识蒸馏的回归框架,以解决蛋白质-蛋白质结合亲和力预测中结构数据稀缺的难题。该方法在训练时利用结构信息丰富的教师网络指导仅使用序列信息的学生网络,通过结合亲和力标签与中间特征表示进行联合监督。在非冗余基准数据集上的留一复合交叉验证表明,仅用序列的基线模型皮尔逊相关系数为0.375,而结构模型为0.512。经过蒸馏的学生模型性能显著提升至0.481,有效缩小了序列与结构模型间的性能差距。误差分析进一步证实了该方法的一致性与低偏差。

知识蒸馏蛋白质结合亲和力序列预测结构信息迁移机器学习
q-bio 01-08 00:00

仅凭分支与融合,生物网络如何逼近多目标最优?

研究提出一个仅包含随机分支、融合和停止延伸的最小空间网络形态发生模型。该模型无需全局优化或反馈,即可生成从树状、环状到混合结构的广泛形态空间。通过量化运输、探索和鲁棒性等多重功能目标,研究发现这些合成结构与真实真菌网络占据相似的性能空间区域,且其帕累托最优前沿与真菌网络高度接近。这表明,逼近多目标最优的生物网络架构,可能源于简单的局部生长规则,分支与融合是塑造生命运输网络结构的基本要素。

网络形态发生多目标优化生物网络真菌菌丝帕累托前沿局部生长规则
q-bio 01-08 00:00

借鉴脑功能网络分析,揭示大语言模型中的关键神经元网络

本研究受神经科学中脑功能网络(FBN)研究的启发,将类似的分析方法应用于大语言模型(LLM),探索其内部存在的“功能网络”。实验发现,与人类大脑类似,LLM在运行过程中会频繁出现某些特定的功能网络。进一步研究表明,这些网络对模型性能至关重要:抑制关键网络会严重损害模型能力,而增强网络内神经元的活动则可以提升模型整体性能或在特定任务上的表现。这表明这些功能网络与LLM的特定任务或整体性能密切相关。

大语言模型功能网络神经元分析神经科学启发模型可解释性人工智能
q-bio 01-08 00:00

基于Grassmann距离的代谢网络功能分类框架

本研究提出了一种计算框架,通过比较化学反应的化学计量矩阵的零空间,利用Grassmann距离对代谢网络进行功能分类。应用于人类肠道微生物组数据表明,代谢距离与系统发育距离存在显著差异,揭示了遗传信息在代谢分类中的局限性。该框架能识别在特定代谢过程中富集或耗竭的生物功能群,并对代谢沉默的遗传扰动具有鲁棒性。其通用性在人体组织和行星大气化学反应网络中得到验证,为跨尺度化学反应系统的功能比较提供了新工具。

代谢网络功能分类grassmann距离化学计量矩阵微生物组系统比较
q-bio 01-08 00:00

基于织物的软体人工心脏力学模型:揭示应力热点与疲劳寿命

本研究针对新型流体驱动软体人工心脏(Less In More Out 装置)建立了计算力学框架,以解析其内部应力、应变及疲劳寿命。模型成功复现了不同血流动力学条件下的非线性变形与压力-容积关系。研究发现,采用较少囊袋的设计虽能提供更高每搏输出量,但其峰值冯·米塞斯应力可增加50%,显著降低疲劳寿命。模拟进一步指出热封接缝与屈曲区域是耐久性关键限制因素。通过优化瓣膜支撑纵横比和囊袋织物顺应性,可在维持相同生理输出的同时将峰值应力降低约10%,并提升机械效率。该框架为优化人工心脏及其他流体驱动织物基软体机器人提供了基础。

软体人工心脏计算力学疲劳寿命织物机器人流体驱动应力分析
q-bio 01-08 00:00

油棕幼苗叶片温度、水分与CO₂通量数据库发布,助力植物模型精准预测

本研究提供了一个在多种气候情景下生长的油棕幼苗的结构与生物物理综合数据集。数据集包含基于地面激光雷达点云的三维植物结构重建,以及叶片尺度的光合作用、气孔导度等生物物理过程参数,和植株尺度的CO₂与H₂O气体交换测量。该数据库弥合了从叶片到整株植物的尺度鸿沟,使模型开发者能够在精细空间分辨率上校准模型,并在植株尺度评估预测准确性,有助于基准测试、识别模型不确定性来源,最终提升从认知研究到决策支持等领域的模型预测能力。

植物模型生物物理数据库三维重建油棕气候变化模型校准
q-bio 01-08 00:00

稳定环境中可塑性扩散的演化:基于局部适应度信息的决策机制

本文提出了一种将生物个体可获取的局部种群动态过程,与其扩散行为的适应度后果相联系的模型。该模型解决了生物在缺乏全局景观信息时如何做出适应性扩散决策的难题,表明局部环境线索足以驱动可塑性扩散策略的演化。研究证明,利用此方法可以相对简便地模拟复杂景观上的扩散演化,并揭示一个斑块中的偶然扩散事件能够驱动另一个斑块中适应性扩散策略的演化。

扩散演化可塑性策略局部信息适应度景观生态种群动态
q-bio 01-08 00:00

基于相关矩阵r谱的数据驱动方法推断大脑动力学状态

本研究提出了一种数据驱动框架,直接从单被试水平的相关矩阵中表征大规模大脑动力学状态。该方法将相关阈值化视为对连通性的渗流式探测,追踪多个集群和网络层面的可观测量,并识别出这些特征汇聚的特征渗流阈值 $r_c$。研究者将 $r_c$ 用作大规模大脑动力学状态的一个可操作且具有物理解释性的描述符。应用于大量健康个体(N = 996)的静息态fMRI数据,该方法产生了稳定的、被试特异性的估计值,并与时间自相关等已建立的动力学指标系统地共变。对具有已知临界状态的全脑模型的数值模拟进一步表明,$r_c$ 能在兴奋性受控变化下追踪集体动力学的变化。通过用相关结构内在的标准取代任意的阈值选择,r谱为跨个体比较大脑动力学状态提供了一种基于物理原理的方法。

大脑动力学相关矩阵渗流阈值数据驱动静息态fmri临界状态
q-bio 01-08 00:00

基因表达分析工具对比:edgeR在稳健性与跨研究验证中表现更优

本研究系统比较了两种广泛使用的差异基因表达分析工具edgeR与DESeq2。基于真实与半模拟的RNA-Seq数据,评估了三个维度:对样本量与异常值的敏感性、在发现数据集内的分类性能、以及工具特异性基因集在独立研究中的泛化能力。结果显示,两者对异常值敏感性相似。在分类性能上,edgeR在13组对比中有9组获得更高的F1分数,且更常达到完美或接近完美的精确度。在跨研究验证中,edgeR独特识别的基因集在分类独立SARS-CoV-2数据集样本时,获得了更高的AUC、精确度与召回率,表现更稳健且可泛化。而DESeq2虽能识别更多差异基因,但其特异性基因集的跨研究性能较低且波动较大。

差异基因表达rna-seq分析生物信息学工具方法学比较跨研究验证
q-bio 01-08 00:00

sentropy:用于揭示复杂数据集隐藏差异的Python工具包

本文介绍了sentropy,一个专门为大规模数据集设计的Python软件包,用于计算S-熵(相似性敏感熵)。S-熵超越了传统的数据集大小和类别平衡度量,通过整合元素的频率和元素间的成对相似性($\sum_{i,j} p_i p_j s_{ij}$),提供了更丰富的数据集表征。该工具包支持计算Hill's D-number框架下的所有频率敏感度量及其相似性敏感版本,并能输出数据集间的比较指标。文章通过免疫组学、宏基因组学、计算病理学和医学影像等多个领域的应用示例,展示了sentropy在不同类型数据集和跨学科研究中的广泛适用性。

s-熵python工具包数据集分析相似性度量生物信息学机器学习
q-bio 01-08 00:00

蛋白质界面计算模型评分函数评估:新方法提升预测准确性

本研究评估了七种用于预测蛋白质-蛋白质界面(PPI)结合的计算模型评分函数。通过将评分函数得分与结构相似性指标(DockQ分数)进行Spearman相关性分析,发现对于单体高度缠绕、界面接触多的目标,评分函数表现良好;而对于许多目标,相关性较弱。研究还开发了一种仅基于三个物理特征的新评分方法,其性能达到或超越了现有评分函数。这些结果表明,通过关注评分与结构相似性的相关性,并整合更具区分性的物理特征,可以改进PPI预测。

蛋白质界面评分函数计算模型结构预测相关性分析
AI速览助手