今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-02-11 02-11 15:40

今日计算机科学领域研究聚焦于提升模型效率与泛化能力,通过算法优化与架构创新应对计算成本、数据稀缺及跨模态对齐等核心挑战。

  • BOSQ框架:针对图大模型重复查询问题,提出自适应稀疏查询策略,在保持性能的同时实现数量级加速,显著降低计算成本。
  • RuleFlow方法:结合LLM与编译器,将单程序优化方案转化为通用重写规则,在Pandas程序优化中实现最高1914.9倍提速。
  • 增强型图Transformer:通过序列化图令牌与位置编码,突破单一令牌的信息瓶颈,在图级任务中生成更具表达力的表示。
  • SDE框架:利用谱分解将特征划分为信号与噪声成分,通过双域对比损失优化多模态对齐,提升表示的鲁棒性与泛化能力。
  • DMamba模型:针对非平稳时间序列,采用季节性-趋势分解并为不同分量设计专用模块,更精准地捕捉跨变量动态与低维关系。
  • Palimpsa模型:基于贝叶斯元可塑性解决上下文学习中的稳定性-可塑性困境,将注意力状态与知识先验绑定,显著扩展模型记忆容量。

2026-02-11 速览 · 计算机科学

2026-02-11 共 19 条抓取,按综合热度排序

← 返回日历
cs 02-11 00:00

BOSQ:双层优化稀疏查询框架,大幅降低图大模型计算成本

本文针对文本属性图(TAG)节点任务中,大语言模型(LLM)因重复查询导致计算和成本高昂的问题,提出了双层优化稀疏查询(BOSQ)框架。该框架通过自适应稀疏查询策略,选择性调用LLM生成解释特征,避免冗余或低增益查询。在六个真实世界TAG数据集上的实验表明,BOSQ在保持性能相当或更优的同时,相比现有GraphLLM方法实现了数量级的加速。

图神经网络大语言模型稀疏查询双层优化计算加速文本属性图
cs 02-11 00:00

基于三角不等式的高效距离剪枝方法,加速处方性流程监控中的后缀比较

处方性流程监控旨在通过分析进行中案例的可能后续路径来推荐改善流程结果的行动。其核心挑战在于大规模后缀比较带来的巨大计算开销。本文提出一种高效的检索方法,利用三角不等式原理:通过计算到一组优化“枢轴”的距离来定义边界,从而剪枝大量冗余的比较。该方法在保持检索结果与穷举比较完全一致(即精确剪枝)的前提下,显著降低了运行时间,并且具备完全可并行化的优势。研究表明,基于度量的剪枝策略能够有效加速后缀比较,为构建可扩展的处方性流程监控系统提供了支持。

流程监控后缀比较距离剪枝三角不等式计算优化可扩展系统
cs 02-11 00:00

DSFlow:面向一步式语音合成的双监督与步感知架构

本文提出DSFlow,一种用于流匹配语音合成的模块化蒸馏框架,旨在解决现有方法因迭代采样导致的高计算成本问题。DSFlow将生成任务重新定义为离散预测,并通过双监督策略(结合端点匹配与确定性平均速度对齐)提升训练稳定性,确保不同推理步数下生成轨迹的一致性。此外,它用轻量级步感知令牌替代连续时间步长条件,提高了参数效率。实验表明,DSFlow在多种流式文本转语音架构上均优于标准蒸馏方法,在减少模型参数和推理成本的同时,实现了高质量的一步式合成。

语音合成流匹配模型蒸馏一步推理参数效率双监督
cs 02-11 00:00

上海交大X-LANCE实验室获2025音乐源修复挑战赛冠军

本报告介绍了为2025音乐源修复挑战赛设计的系统。该系统采用顺序BS-RoFormer模型架构,依次处理音乐源分离、去噪和去混响任务。为支持8种乐器分离,团队利用社区预训练模型,并通过混合清洗数据集、随机混合音乐片段进行数据增强、增加音频长度等方案进行微调。该系统在所有三项主观和三项客观评价指标中均排名第一,其中MMSNR得分为4.4623,FAD得分为0.1988。所有代码和模型均已开源。

音乐源分离音频修复深度学习模型微调数据增强
cs 02-11 00:00

RuleFlow:利用LLM生成可复用的Pandas程序优化规则

本文提出RuleFlow,一种结合LLM与编译器的混合方法,用于优化Pandas程序。其采用三阶段流程:首先利用LLM发现针对单个程序的优化方案(发现阶段),其次将其转化为通用的重写规则(桥接阶段),最后将规则集成至编译器,实现自动应用(部署阶段)。该方法在PandasBench基准测试中表现优异,相比此前基于编译器的SOTA方法Dias最高提速4.3倍,相比基于系统的SOTA方法Modin最高提速1914.9倍,实现了新的性能突破。

程序优化大语言模型编译器pandas规则生成性能提升
cs 02-11 00:00

基于深度时序神经分层架构与可解释AI的开源软件可持续性预测

本研究提出了一种分层预测框架,将开源软件(OSS)项目建模为基于既定社会技术分类的不同生命周期阶段。该框架将可持续性操作化为一个整合贡献活动、社区参与和维护动态的多维结构,而非仅关注项目寿命。它结合了工程化的表格指标与24个月的时序活动序列,采用多阶段分类流程来区分与不同协调和参与机制相关的生命周期阶段。为提升透明度,研究引入了可解释AI技术以分析各类特征对模型预测的相对贡献。在大规模OSS仓库数据集上的评估显示,该方法在生命周期阶段分类上实现了超过94%的整体准确率。归因分析一致表明,贡献活动和社区相关特征是主导信号,突显了集体参与动态的核心作用。

开源软件可持续性预测时序神经网络可解释ai生命周期阶段社区动态
cs 02-11 00:00

增强型图Transformer:序列化图令牌突破图表示瓶颈

本文针对现有Transformer在图级任务中存在的信息瓶颈问题,提出了一种新颖的序列化令牌范式。该方法通过图序列化技术将节点信号聚合为序列化的图令牌,并自动引入位置编码,然后利用堆叠的自注意力层对令牌序列进行编码以捕获其内部依赖关系。相比传统的单一令牌范式,新方法能更有效地封装全局信号,并通过建模多个图令牌间的复杂交互来生成更具表达力的图表示。实验表明,该方法在多个图级基准测试中取得了最先进的性能。

图神经网络transformer图表示学习序列化令牌自注意力机制图级任务
cs 02-11 00:00

SDE:基于谱分解与增强的双域对比学习框架,提升多模态表示学习性能

本文提出了一种名为谱解缠与增强(SDE)的新框架,旨在解决大规模多模态对比学习中特征维度处理单一及内在谱结构被忽视的问题。该框架利用奇异值分解将特征维度自适应划分为强信号、弱信号和噪声,并采用课程式谱增强策略选择性放大信息成分。在此基础上,引入双域对比损失,联合优化特征空间和谱空间的对齐,将谱正则化有效整合到训练过程中。实验表明,SDE能显著提升表示的鲁棒性和泛化能力。

表示学习对比学习谱分解多模态学习特征增强
cs 02-11 00:00

NarraScore:基于分层情感控制的长视频配乐生成框架

本文提出NarraScore,一个解决长视频配乐生成挑战的层次化框架。其核心思想是将情感视为叙事逻辑的高密度压缩。该方法创新性地利用冻结的视觉语言模型作为连续情感传感器,将高维视觉流提炼为密集的、叙事感知的“效价-唤醒度”轨迹。通过“双分支注入”策略,全局语义锚确保风格稳定性,而精细的“令牌级情感适配器”通过元素级残差注入调节局部张力。这种极简设计绕过了密集注意力和架构克隆的瓶颈,有效缓解了数据稀缺带来的过拟合风险。实验表明,NarraScore以可忽略的计算开销实现了最先进的配乐一致性与叙事对齐。

视频配乐生成情感计算视觉语言模型叙事对齐层次化控制
cs 02-11 00:00

DRAGON:面向海量软件仓库的鲁棒分类方法

本文提出DRAGON,一种专为大规模、多样化软件仓库集合设计的分类器。它主要利用版本控制系统中普遍存在的轻量级信号(如文件和目录名称,以及可选的README文件)进行分类,无需依赖易缺失的元数据。在超大规模仓库分类任务中,DRAGON将F1@5指标从54.8%提升至60.8%,达到新的最佳性能。即使在没有README文件的情况下,其性能仅下降6%,展现出极强的鲁棒性。此外,其分类错误多为语义相近的“近似失误”,这在实际应用中仍能有效引导搜索与发现。研究同时发布了迄今为止最大的开源仓库分类数据集(包含82.5万个带标注主题的仓库),为未来大规模、语言无关的软件仓库理解研究奠定了基础。

软件仓库分类轻量级信号鲁棒性大规模数据集版本控制分析
cs 02-11 00:00

Palimpsa:基于贝叶斯元可塑性的注意力模型,解决上下文学习中的稳定性-可塑性困境

本文提出Palimpsa模型,将Transformer中的上下文学习视为一个需要解决稳定性-可塑性困境的持续学习问题。模型采用贝叶斯元可塑性机制,将每个注意力状态的“可塑性”与一个基于先验分布的重要性状态绑定,该先验分布编码了累积知识。研究表明,多种门控线性注意力模型(如Mamba2)可视为Palimpsa在特定架构和后验近似下的特例。这一理论联系使得任何非元可塑性模型都能转化为元可塑性模型,从而显著扩展其记忆容量。实验表明,Palimpsa在MQAR基准测试和常识推理任务上均优于基线模型。

上下文学习贝叶斯元可塑性注意力模型持续学习记忆容量稳定性-可塑性困境
cs 02-11 00:00

面向关键基础设施的云端点零信任安全框架

针对关键基础设施(如电网、医疗、金融系统)面临的日益复杂的网络威胁,本文提出了一种将零信任架构(ZTA)集成到云环境端点安全管理中的综合框架。该框架遵循“永不信任,持续验证”原则,将每次访问请求视为新的、不受信任的请求,旨在缩小攻击面,实现持续保护。研究重点解决了ZTA在关键基础设施云端点管理应用中的空白,并阐述了该框架如何增强合规性与安全态势。

零信任架构端点安全关键基础设施云安全网络安全框架
cs 02-11 00:00

递归Transformer:通过参数复用提升多模态模型效率与性能

本文提出RecursiveVLM,一种面向大型多模态模型(LMMs)的递归Transformer架构。其核心创新在于:1)递归连接器,通过融合中间层隐藏状态并应用模态特定投影,对齐不同递归步骤的特征;2)单调递归损失,监督每一步并保证性能随递归深度单调提升。该设计将递归转化为按需精炼机制,在资源受限时以少量循环获得强结果,在资源充足时逐步提升输出。实验表明,其性能比标准Transformer提升3%,比普通递归基线提升7%。

递归transformer多模态模型参数复用模型效率按需精炼
cs 02-11 00:00

DMamba:基于分解增强的Mamba模型,提升非平稳时间序列预测精度

本文提出DMamba模型,针对现有Mamba架构在处理非平稳时间序列时的不足进行改进。核心洞见是:时间序列分解后的趋势项和季节项具有不同的统计特性。趋势项变量间关系维度较低,而季节项则涉及高维动态交互。为此,DMamba采用季节性-趋势分解,并分别为两个分量设计不同复杂度的处理模块:使用变量方向Mamba编码器捕捉季节分量中丰富的跨变量动态,而仅用简单的多层感知机(MLP)学习趋势分量中的低维关系。在多个数据集上的实验表明,DMamba超越了现有的Mamba架构和基于分解的领先模型,达到了新的最优性能。

时间序列预测状态空间模型mamba序列分解非平稳序列
cs 02-11 00:00

UI-Venus-1.5:统一端到端GUI智能体,在多项基准测试中刷新SOTA

UI-Venus-1.5是一个面向真实世界应用的统一端到端图形用户界面(GUI)智能体。它通过三项关键技术提升性能:1)利用超过100亿token的30多个数据集进行全面的中期训练,建立GUI语义基础;2)采用基于完整轨迹的在线强化学习,使训练目标与大规模环境中的长视野动态导航对齐;3)通过模型融合技术,将特定领域模型(如基础、网页、移动端)合成为一个统一的智能体。该模型在ScreenSpot-Pro(69.6%)、VenusBench-GD(75.0%)和AndroidWorld(77.6%)等基准测试中均取得了新的最优性能,并在多种中文移动应用中展现出强大的导航与指令执行能力。

gui智能体模型融合强化学习中期训练人机交互
cs 02-11 00:00

基于欧几里得范数的肌腱驱动连续体机器人可行静态工作空间优化

本文针对一种由八根肌腱驱动的两段式连续体机器人,提出了一种基于其可行静态工作空间的优化设计方法。研究将肌腱驱动力作为设计变量,以可行静态工作空间为优化目标。通过采用遗传算法,在机器人末端承受外部力和力矩载荷的条件下,最大化其末端位置在可行工作空间内的欧几里得范数。仿真结果表明,该方法能有效确定最优肌腱力,从而在外部载荷影响下最大化机器人的可行静态工作空间。

连续体机器人工作空间优化肌腱驱动遗传算法静态分析机器人设计
cs 02-11 00:00

机器人通过观察腿部动作预测行人轨迹,准确率提升13%

本研究探讨了利用人体骨骼特征提升多智能体轨迹预测精度的方法。通过在JRDB数据集及新的360度全景视频数据集上进行系统评估,发现聚焦于下半身3D关键点可使平均位移误差降低13%。若进一步结合生物力学线索,可再提升1-4%的准确率。研究证实,即使从单目全景图像中提取的2D关键点也能有效捕捉运动预测信息,为社交机器人导航的感知设计提供了实用见解。

轨迹预测机器人导航骨骼关键点生物力学全景视觉人机交互
cs 02-11 00:00

PatientTPP:基于时序点过程的患者基础模型,提升超重低风险人群分层精度

本研究提出PatientTPP,一种基于神经时序点过程(TPP)的患者基础模型。该模型利用超过50万条真实世界临床轨迹(诊断、检验、用药序列)学习患者表征,并扩展了现有TPP方法以纳入静态与数值特征及临床知识。模型表征支持下游预测任务,即使在训练中未明确建模的事件(如肥胖相关结局)上,也能对低风险个体进行有效分类。健康经济学评估显示,在按未来心血管相关医疗成本对患者分层方面,PatientTPP优于传统体质指数(BMI),能更高效地识别高风险患者。

患者基础模型时序点过程风险分层肥胖管理健康经济学临床表征学习
cs 02-11 00:00

Agent Banana:基于智能体思维与工具的高保真图像编辑框架

本文针对专业图像编辑工作流中的指令编辑难题,提出了Agent Banana——一个分层智能体规划-执行框架。该框架通过“上下文折叠”机制压缩长交互历史以实现稳定长程控制,并采用“图像图层分解”技术进行局部图层编辑,从而在保持非目标区域的同时输出原生分辨率图像。为支持严谨评估,研究构建了HDD-Bench高清晰度对话基准,包含可验证的逐步目标和原生4K图像。实验表明,Agent Banana在HDD-Bench上取得了最佳的多轮一致性与背景保真度,并在标准单轮编辑基准上表现强劲。

图像编辑智能体框架高保真编辑多轮交互专业工作流评估基准
AI速览助手