q-bio
02-23 00:00
本文提出GeneZip,一种针对长基因组序列的压缩模型。它利用基因组信息分布不均的先验知识(编码区仅占约2%但信息密集),通过结合HNet风格的动态路由与区域感知压缩比目标,自适应地在不同区域分配表示预算。该模型实现了137.6倍的压缩率,仅带来0.31的困惑度增加。在下游任务中,其在接触图预测、表达数量性状位点预测等任务上达到或超越了现有性能。通过有效缩短序列长度,GeneZip使模型能在单张A100 GPU上训练,支持在1M-bp上下文中训练636M参数的模型,相比之前的SOTA模型JanusDNA,模型规模可扩大82.6倍。
基因组压缩长序列建模区域感知动态路由计算生物学深度学习
q-bio
02-23 00:00
本研究提出了AgriVariant,一个用于水稻基因变异效应预测的端到端计算框架。该工具整合了基于深度学习的变异检测(DeepChem-Variant)与基于Grantham距离和BLOSUM62替换矩阵的有害性评分方法,解决了作物特异性变异解读工具的缺失问题。通过对胁迫响应基因(如OsDREB2a)的靶向突变验证,该工具能准确分类终止、错义和同义变异,并分配高/中/低影响等级。例如,对OsMT-3a基因的1509个可能单核苷酸变异的全面分析仅需10天,识别出353个高影响变异,而传统湿实验方法需2-4年。该框架可扩展至任何具有参考基因组和基因注释的作物物种,帮助育种者优先筛选变异,降低筛选成本,加速培育气候适应性作物品种。
精准育种变异效应预测深度学习作物基因组学计算生物学
q-bio
02-23 00:00
本研究通过分析静息态下的人脑大规模磁脑电图数据,揭示了神经集体动力学在粗粒化尺度上具有稳健的缩放行为,其指数与单个神经元群体中测量的结果相近。研究发现,神经雪崩的动态在所提出的粗粒化方法下保持不变。基于数据推断的非平衡自适应伊辛模型模拟表明,这些缩放行为在接近临界点时出现,并依赖于网络的兴奋/抑制平衡。这为建立一种非侵入性方法来估计神经科学研究中的关键参数——兴奋/抑制平衡——开辟了新途径。
临界性缩放定律神经雪崩粗粒化兴奋抑制平衡磁脑电图
q-bio
02-23 00:00
本研究揭示了大型马尔可夫网络中首达时间分布的普适极限行为。通过连接首达时间理论与图论,研究发现分布收敛于两种极端形式:当生成矩阵的无穷多特征值共同作用时,分布趋近于确定性尖峰(最小熵);当单个主导特征值控制时,分布趋近于指数形式(最大熵)。理论分析表明,指数极限在存在反向偏置的可逆网络中稳健出现,而确定性极限则需要更严格的结构条件,揭示了两种机制间的不对称性。
首达时间马尔可夫网络特征值分布极限分布图论随机过程
q-bio
02-23 00:00
本研究重新审视了海马体回放(replay)的噪声循环神经网络模型,将其视为一种采样过程,并提出了三个关键改进方向。首先,理论分析表明,回放活动应遵循的梯度是时变的且难以估计,这直接支持了在RNN中使用隐藏状态泄漏机制。其次,研究发现隐藏状态适应(负反馈)能促进回放中的探索,但会导致非马尔可夫采样并减缓回放速度。最后,作者首次提出通过隐藏状态动量实现时间压缩回放的模型,将其与欠阻尼朗之万采样联系起来,并证明该机制与适应机制结合,可在保持探索性的同时克服速度减慢问题。研究在二维三角路径、T迷宫路径以及合成大鼠位置细胞活动的高维路径上验证了这些发现。
海马体回放循环神经网络朗之万采样路径积分计算神经科学动力学模型
q-bio
02-23 00:00
本研究提出了一种用于颈动脉血流场估计的机器学习替代模型。该模型结合了图神经网络与物理先验知识,通过将流行的PointNet++架构与群可操纵层相结合,构建了一个高效的等变神经网络。为了融入物理信息先验,研究者推导了相关微分算子的高效离散化方案。实验表明,该模型能够仅使用中等规模的在体4D流磁共振成像数据进行训练,而无需依赖计算流体动力学生成的大型模拟数据集,即可准确估计颈动脉中的低噪声血流场。此外,模型学习到的几何结构与血流动力学量之间的关系,能够迁移到使用不同成像模态获取的3D血管模型上。
血流动力学图神经网络物理信息机器学习4d流mri颈动脉替代模型
q-bio
02-23 00:00
本研究通过训练1670个模型,揭示了在基因表达、序列和图像三种数据模态下,细胞表征学习模型的性能随测量噪声降低而提升,并遵循对数缩放定律。研究者从噪声传播模型中推导出该定律,并定义了噪声敏感性和模型容量作为新的基准测试指标。研究发现,蛋白质序列表征具有噪声鲁棒性,而单细胞转录组学模型则不然;基于Transformer的模型比变分自编码器具有更强的噪声鲁棒性,但饱和性能较低。该噪声缩放定律为未来模型评估和实验设计提供了新框架。
表征学习噪声缩放单细胞组学模型评估计算生物学
q-bio
02-23 00:00
本研究提出了一种基于信息论的简约动力学框架ECTO,用于模拟纵向队列数据。该框架将每轮调查的Likert量表响应压缩为归一化的香农熵指数,用以初始化一个低维自治常微分方程系统的状态变量。系统通过现象学项(如自限性、权衡和反馈)追踪一个主要性状状态、一个次要耦合状态和一个潜在环境压力分量之间的相互作用。在瑞典老龄化双生子研究(SATSA)和美国牙科学生数据上的验证表明,ECTO能稳定复现队列层面的宏观轨迹,并具有良好的样本外预测性能。该框架为将信息论预处理与队列层面动力学建模相结合提供了一种透明、可解释的替代方案。
队列动力学熵初始化耦合ode纵向数据信息论建模可解释模型
q-bio
02-23 00:00
本研究提出了一种基于集成学习的fMRI功能连接图表示方法,用于解码认知脑状态。该方法通过一组边缘概率分类器,将每条边的权重定义为两个认知状态后验概率的差值,从而编码状态证据。在人类连接组计划的七个任务fMRI范式中进行二分类测试,使用简洁的节点摘要(平均入射边权重)和逻辑回归,平均准确率达到97.07%至99.74%。与传统相关性图相比,在相同图神经网络分类器下,集成图方法准确率更高(88.00-99.42% vs 61.86-97.94%)。该表示具有概率化、面向状态的解释性,支持连接和区域层面的可解释性,并可扩展至多类解码、回归、其他神经影像模态及临床分类。
功能磁共振成像图表示学习认知状态解码集成学习脑连接组可解释人工智能
q-bio
02-23 00:00
本研究针对模拟数千至数百万细胞的离格智能体模型(如癌症球体、神经嵴细胞迁移),提出了一种基于图的预处理策略。该方法将支持图预处理技术扩展至块结构矩阵,用于求解摩擦主导的运动方程所产生的大型稀疏对称正定矩阵。研究证明了预处理后摩擦矩阵条件数的渐近界,并通过基准测试表明,结合共轭梯度法,该策略在性能上优于其他常见预处理方法,为大规模组织模拟提供了更稳健高效的数值求解方案。
细胞模型数值求解图预处理共轭梯度法计算生物学稀疏矩阵
q-bio
02-23 00:00
本研究提出了一种名为MBGNN的图神经网络模型,用于预测蛋白质中的金属结合残基及其金属类型。该方法创新性地利用了完整的共进化残基网络,以捕捉蛋白质结构中维持金属结合功能的复杂依赖关系。实验表明,在MetalNet2和MIonSite数据集上,MBGNN在结合残基识别和金属类型分类任务上的F1分数均显著优于现有的共进化方法和序列方法,分别提升了2.5%和3.3%。该研究为解析蛋白质-金属相互作用、功能注释及理性设计金属蛋白提供了新工具。
蛋白质金属结合图神经网络共进化分析生物信息学结构生物学
q-bio
02-23 00:00
本文提出了生成分布嵌入(GDE)框架,将传统自编码器从处理单点数据提升至处理整个概率分布。其核心在于:编码器作用于样本集合,解码器被一个旨在匹配输入分布的生成器所取代。该框架通过将条件生成模型与满足“分布不变性”准则的编码器网络耦合,来学习分布的表示。理论证明,GDE学习的潜在表示是预测充分的统计量,其潜在空间距离近似于Wasserstein距离($W_2$),潜在插值近似于高斯及高斯混合分布的最优传输轨迹。在合成数据集上,GDE性能优于现有方法,并成功应用于单细胞RNA测序、谱系追踪、扰动效应预测、合成启动子设计等六个计算生物学关键问题,处理了数百万至数千万规模的数据。
生成模型分布表示多尺度学习计算生物学wasserstein距离自编码器
q-bio
02-23 00:00
本研究将动态环境反馈机制引入非线性公共物品博弈框架,建立了一个耦合环境状态与个体合作策略的协同演化模型。研究发现,环境反馈、非线性效应与环境随机性之间的相互作用,能够驱动系统涌现出多种稳态结构,包括完全背叛、完全合作、稳定共存及周期性极限环。进一步分析表明,不对称的非线性参数与环境反馈速率对合作水平及系统动力学具有显著的调控作用。该工作不仅丰富了演化博弈论的理论框架,也为从生态管理到自主系统合作机制设计等场景中的环境反馈回路建模提供了基础。
演化博弈论公共物品博弈协同演化非线性动力学环境反馈合作行为
q-bio
02-23 00:00
研究发现,人类识别社交互动主要依赖简单的3D姿态信息,而非复杂的视觉细节。通过从视频中提取3D身体关节点,并将其简化为描述人物3D位置和方向的紧凑特征集,该特征集不仅能准确预测人类的社会判断,其预测能力甚至优于大多数深度神经网络。更重要的是,这些3D特征(而非其2D版本)是解释完整关节点预测性能的关键,并能显著提升神经网络在社交理解任务上的表现与人类判断的一致性。
社交感知3d姿态估计计算机视觉神经科学人机对齐
q-bio
02-23 00:00
本文提出以分子复杂性度量学为核心,为生命起源实验研究建立跨实验环境和行星背景的统一测量标准。作者聚焦于量化实验选择性(selectivity)与分子复杂性(molecular complexity)的生成,并重点介绍了利用分子组装理论(molecular assembly theory)测量复杂性的新方法。这一度量学导向的框架有望严格检验标志生命涌现的分子秩序级联转变假说,并弥合“代谢优先”与“遗传优先”两种传统起源场景之间的分歧。基于可测量的复杂性来研究生命起源,对地外生命搜寻具有重要启示,为在不同行星环境中进行理论驱动的生物复杂性探测提供了路径。
生命起源分子复杂性度量学分子组装理论地外生命实验标准
q-bio
02-23 00:00
本文提出临界性可作为连接深度神经网络结构、动力学与功能的统一框架。研究发现,过去十年成功的AI模型已自发趋向临界状态,解释了不同架构的性能差异。通过将临界性显式融入训练,可提升模型鲁棒性与准确性,并缓解持续学习和AI生成数据训练中的性能退化与模型崩溃等关键问题。研究表明,维持网络接近临界点是确保模型长期性能与韧性的理论基础与实践策略。
临界动力学深度神经网络模型鲁棒性持续学习ai生成数据性能优化
q-bio
02-23 00:00
本文引入“流行病动量”这一统一概念,定义为患病率与感染潜力的乘积。研究发现,疫情暴发轨迹总是遵循一个守恒量的等高线,这揭示了一个此前未被认识的守恒定律。该定律不仅约束了疫情的发展方式,还解决了模型拟合中传染性与预先存在的群体免疫力参数无法分离的识别性问题,使得从同一时间序列中分别推断两者成为可能。研究以1918年流感大流行为例,重新评估了其传染性。
传染病模型守恒定律参数识别流行病动量动力学几何