今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-02-10 02-10 15:26

今日计算机科学领域研究聚焦于多模态智能的深度理解与高效应用,在数据构建、模型推理、物理认知及系统优化等多个前沿方向取得突破。

  • 专用数据与基准构建成为关键驱动力:针对特定领域(如管道检测、遥感)的复杂任务,研究者开始构建大规模、高质量的专业数据集与基准(如PipeMFL-240K、VLRS-Bench),以更真实地反映实际挑战(如极端长尾分布、微小目标、复杂推理),为算法研发与评估提供了新标准。

  • 模型可解释性与物理认知研究走向深入:研究不再满足于模型性能,开始深入探究其内部工作机制。例如,通过可解释性分析发现视频模型存在“物理涌现区”;“空间理论”研究则系统评估了模型通过主动探索构建空间信念的能力,揭示了当前模型在主动推理与信念更新上的瓶颈。

  • 高效与轻量化模型架构持续创新:为提升模型效率与实用性,研究在架构设计(如混合双路径线性变换HDPL)、训练策略(如基于对比学习增强IMU手写识别)及模型编辑(如FADE实现选择性遗忘)等方面提出新方法,旨在降低计算开销、内存占用或实现更灵活的部署。

  • 多模态任务趋向统一与端到端解决:研究倾向于设计统一模型来替代复杂的多阶段流水线。例如,Neural Sentinel用单一视觉语言模型完成车牌识别多项任务;Bird-SR框架将超分辨率构建为端到端的轨迹级偏好优化问题,以更好地联合利用合成与真实数据。

  • AI与具体领域深度融合解决实际问题:研究紧密结合工业、医疗、城市规划等具体场景,开发实用系统。例如,开发用于废钢杂质评估的计算机视觉系统、无标记神经导航方法,以及参与式城市设计工具RECITYGEN,体现了AI技术向落地应用加速迈进。

  • 对AI研发生态本身的研究受到关注:除了应用AI,研究也开始关注AI技术发展中的方法论与伦理问题,如系统评估进化计算领域的可复现性实践,以及探讨AI在助力开源软件可持续发展中的机遇与风险。

2026-02-10 速览 · 计算机科学

2026-02-10 共 24 条抓取,按综合热度排序

← 返回日历
cs 02-10 00:00

PipeMFL-240K:首个大规模管道漏磁检测数据集与基准

本研究发布了PipeMFL-240K,一个用于管道漏磁伪彩色图像中复杂目标检测的大规模、精细标注数据集与基准。该数据集包含240,320张图像和191,530个高质量边界框标注,覆盖约1,480公里管道,真实反映了工业检测的复杂性。其独特挑战包括12个类别的极端长尾分布、大量仅占数个像素的微小目标以及显著的类内差异。实验表明,现有先进检测器在处理漏磁数据固有特性时仍面临困难,凸显了巨大的改进空间。该数据集为管道高效诊断、维护规划及算法创新提供了关键基础。

目标检测漏磁检测工业安全数据集非破坏性检测管道完整性
cs 02-10 00:00

VLRS-Bench:首个专为遥感复杂推理设计的视觉语言基准

针对现有遥感基准过度偏向感知任务(如目标识别)的局限,本研究提出了首个专注于复杂推理的视觉语言遥感基准VLRS-Bench。该基准围绕认知、决策与预测三个核心维度构建,包含2000个平均长度71词的问答对,覆盖14项任务与最多八个时间阶段。通过融合遥感先验知识与专家经验的专业流程构建,确保了地理空间真实性与推理复杂性。实验揭示了当前先进多模态大语言模型在该基准上的显著瓶颈,为遥感领域的多模态推理研究提供了关键洞见。

遥感推理多模态基准视觉语言模型地理空间分析复杂认知任务
cs 02-10 00:00

ShapBPT:基于数据感知二叉树的多尺度图像特征归因方法

本文提出ShapBPT,一种用于计算机视觉可解释AI(XCV)的新方法。它通过将分层Shapley值公式与为图像定制的多尺度层次结构——数据感知的二叉树(BPT)相结合,为像素级特征分配归因值。该方法解决了现有分层Shapley方法未利用图像多尺度结构、收敛慢且与形态特征对齐弱的问题。ShapBPT确保特征归因与图像内在形态对齐,在优先考虑相关区域的同时降低计算开销。实验证明其优于现有XCV方法,用户研究也表明其解释更受人类青睐。

可解释ai特征归因分层shapley值计算机视觉二叉树多尺度分析
cs 02-10 00:00

视频世界模型如何编码物理信息?首个大规模视频编码器物理表征可解释性研究

本研究首次对大规模视频编码器内部的物理表征进行了可解释性分析。通过分层探测、子空间几何分析、补丁级解码和针对性注意力消融等方法,研究者发现:模型内部存在一个明确的“物理涌现区”,物理变量在此区域变得可访问;标量物理量(如速度、加速度)在早期层即可获取,而运动方向信息仅在物理涌现区出现,并以具有圆形几何结构的高维群体编码方式表征。结果表明,现代视频模型并非使用类似经典物理引擎的因子化表征,而是采用一种分布式但足以进行物理预测的表征方式。

视频理解物理推理模型可解释性表征学习transformer
cs 02-10 00:00

Neural Sentinel:基于统一视觉语言模型的车牌识别系统,支持人机协同持续学习

本研究提出Neural Sentinel,一种基于统一视觉语言模型(VLM)的新型车牌识别方法。它通过单次前向传播即可完成车牌识别、状态分类和车辆属性提取,避免了传统多阶段流水线带来的误差累积和延迟。核心贡献在于:1)通过LoRA微调的PaliGemma 3B模型在车牌识别准确率上达到92.3%,较EasyOCR和PaddleOCR基线分别提升14.1%和9.9%;2)设计了人机协同(HITL)持续学习框架,以7:3的比例混合原始数据与用户修正样本进行经验回放,有效防止灾难性遗忘;3)模型具备零样本泛化能力,可在未专门训练的情况下完成车辆颜色检测(89%)、安全带检测(82%)等辅助任务。系统平均推理延迟为152ms,预期校准误差(ECE)为0.048,置信度估计良好。实验表明,统一的VLM方法为ALPR系统提供了更优的准确性、更简化的架构以及传统方法无法实现的多任务能力。

车牌识别视觉语言模型持续学习人机协同多任务学习零样本泛化
cs 02-10 00:00

无标记神经导航:低成本摄像头实现毫米级精度

本研究提出并评估了一种无标记神经导航方法,使用低成本可见光与红外摄像头结合立体视觉、深度感知及面部几何算法建模,替代了传统依赖昂贵硬件和物理标记的系统。在50名受试者验证中,最佳无标记算法的中位跟踪误差仅为2.32毫米和2.01度,精度足以支持经颅磁刺激等应用,且显著优于以往无标记方案。该方法有望降低设备成本与操作复杂度,提升患者舒适度,推动神经导航在临床与研究中的普及。

神经导航无标记追踪计算机视觉医疗影像经颅磁刺激
cs 02-10 00:00

AVERE:通过偏好优化提升视听情感推理能力

本研究针对多模态大语言模型在情感理解任务中存在的两个关键问题——情绪与无关视听线索的虚假关联,以及语言模型文本先验驱动的视听线索幻觉——提出了系统性的解决方案。作者首先构建了EmoReAlM基准,用于量化评估模型的线索-情感关联、幻觉和模态一致性。进而提出了AVEm-DPO偏好优化技术,通过构建对虚假关联/幻觉响应的偏好排序,并引入正则化项惩罚对文本先验的依赖,有效对齐模型响应与视听输入及情感中心查询。在DFEW、RAVDESS和EMER数据集上的零样本实验表明,该方法使基线模型的相对性能提升了6-19%。

多模态大模型情感理解偏好优化视听推理社会智能体基准评测
cs 02-10 00:00

空间理论:基础模型能否通过主动探索构建空间信念?

本研究提出“空间理论”,旨在评估多模态基础模型在部分可观测环境下,通过主动、自主探索来构建、修正和利用空间信念的能力。研究通过好奇心驱动的探索基准测试发现,当前顶尖模型存在几个关键瓶颈:1)主动-被动差距,即自主收集信息时性能显著下降;2)探索效率低下,模型探索方式缺乏系统性;3)信念惯性,模型难以用新证据更新过时的先验知识,这在视觉模型中尤为严重。研究通过创新的“空间信念探测”方法揭示了模型内部空间表征的不稳定性,表明当前模型在主动探索中难以维持连贯、可修正的空间信念。

空间智能主动探索基础模型认知地图信念更新多模态ai
cs 02-10 00:00

FADE:通过稀疏LoRA与自蒸馏实现选择性遗忘的扩散模型

本文提出FADE方法,用于从文本到图像扩散模型中高效、选择性地遗忘特定数据或概念。该方法采用两阶段策略:首先基于梯度显著性识别关键参数,并通过稀疏LoRA适配器进行轻量级、局部化修改;随后应用自蒸馏目标,用用户定义的替代概念覆盖待遗忘概念,同时保留其他数据的生成能力。在多个基准数据集上的评估表明,FADE在遗忘效果与模型保留性能之间实现了精细权衡,且适配器内存效率高、可逆,便于生产系统灵活部署。

机器学习遗忘扩散模型参数高效微调自蒸馏选择性遗忘lora
cs 02-10 00:00

进化计算可复现性评估:人工与LLM自动化评估对比研究

本研究系统评估了进化计算领域十年间发表论文的可复现性实践。通过引入结构化检查清单,对GECCO会议相关论文进行人工评估,发现论文平均完整性得分为0.62,仅36.90%提供额外材料。同时提出RECAP自动化评估系统,该系统基于大语言模型自动分析论文文本与代码库,与人工评估达成显著一致性(Cohen's k=0.67)。研究表明自动化工具能有效支持大规模可复现性监测。

可复现性进化计算自动化评估llm应用研究实践
cs 02-10 00:00

TACIT:基于扩散变换的视觉推理模型,在像素空间实现可解释的“顿悟式”推理

本文提出了TACIT模型,一种基于整流流(rectified flow)的扩散变换器,用于可解释的视觉推理。与基于语言的系统不同,TACIT完全在像素空间运行,能在每个推理步骤直接可视化推理过程。研究以迷宫求解为例,模型学习将未解迷宫图像转化为解图。关键成果包括:训练损失降低192倍,与真实解的L2距离改善22.7倍,且仅需10个欧拉步骤(典型扩散模型需100-1000步)。定量分析揭示了一个显著的相变现象:在68%的变换过程中解完全不可见(召回率为零),随后在t=0.70时(仅占过程2%)突然涌现。最值得注意的是,100%的样本在所有空间区域同时涌现,排除了顺序路径构建,为整体性而非算法性推理提供了证据。这种“长期酝酿后突然结晶”的“顿悟时刻”模式,与人类认知中的洞察现象相平行。

视觉推理扩散模型可解释ai像素空间推理顿悟现象整流流
cs 02-10 00:00

EMSYNC:基于视频情感与节奏同步的自动音乐生成系统

本文提出EMSYNC系统,为输入视频自动生成情感与节奏同步的背景音乐。核心创新包括:1)一种新颖的视频情感分类器,通过冻结预训练网络特征并仅训练融合层,在降低计算复杂度的同时,在Ekman-6和MovieNet数据集上取得SOTA结果;2)首个基于连续情感值(而非离散类别)进行条件生成的MIDI音乐生成器,能生成与复杂情感内容匹配的细腻音乐;3)提出“边界偏移编码”方法,将音乐和弦与视频场景变化对齐,增强时间同步性。用户研究表明,EMSYNC在音乐丰富度、情感对齐、时间同步性和整体偏好上均优于现有方法。

视频音乐生成情感计算多模态融合时序同步midi生成深度学习
cs 02-10 00:00

Bird-SR:双向奖励引导扩散模型实现真实世界图像超分辨率

针对扩散模型在真实世界低分辨率图像上因数据分布偏移而性能下降的问题,本文提出Bird-SR框架。它将超分辨率任务构建为轨迹级偏好优化问题,通过奖励反馈学习联合利用合成配对数据与真实世界图像。模型在早期扩散步骤直接优化结构保真度,在后期采样步骤应用质量奖励进行感知增强,并采用动态加权策略平衡两者。实验表明,该方法在多个真实世界超分辨率基准上,在保持结构一致性的同时,显著提升了感知质量。

图像超分辨率扩散模型奖励学习真实世界图像结构保真感知质量
cs 02-10 00:00

人工智能如何助力开源软件可持续发展:机遇与挑战

本文综述了人工智能在开源软件可持续发展中的应用与挑战。研究显示,AI可通过自动缺陷分类、代码维护、贡献者引导、社区健康分析等方式,帮助解决开源项目面临的贡献者参与度低、资金短缺、代码质量与安全等关键问题。同时,文章也指出AI应用存在数据可用性、算法偏见、透明度不足以及可能削弱以人为本的协作价值观等伦理风险。作者强调AI应作为增强而非替代人类基础设施的工具,并提出了未来在AI、可持续性与开源软件交叉领域的研究方向。

开源软件人工智能可持续发展社区健康伦理风险自动化
cs 02-10 00:00

AgentSpawn:通过动态生成实现自适应多智能体协作,提升长周期代码生成能力

针对长周期代码生成任务中静态多智能体系统无法适应运行时复杂性的问题,本文提出了AgentSpawn架构。其核心创新在于实现了动态的智能体协作机制,包括:1)生成新智能体时的自动记忆转移;2)由运行时复杂度指标触发的自适应生成策略;3)处理并发修改的一致性协议。该研究解决了现有方法在记忆连续性、技能继承、任务恢复、运行时生成和并发一致性五个方面的关键缺陷。实验表明,在SWE-bench等基准测试中,AgentSpawn的代码完成率比静态基线方法高出34%,同时通过选择性切片将内存开销降低了42%。

多智能体系统代码生成动态协作自适应计算软件工程
cs 02-10 00:00

Pro-ZD:基于图神经网络的主动式零日威胁缓解框架

本文提出了一种新颖的图神经网络模型Pro-ZD,用于主动缓解零日网络威胁。该模型通过识别网络中的加权最短路径,自动检测可能威胁关键资产的网络错误配置和高风险连接路径。Pro-ZD框架能够主动、自动地微调防火墙规则和访问策略,以阻断高风险连接并防止未授权访问。实验结果表明,该模型在检测高风险连接方面具有超过95%的平均准确率,并展现出良好的鲁棒性和可迁移性,适用于包含远程用户、自带设备和云集成的现代动态网络环境。

图神经网络零日威胁网络安全主动防御防火墙策略风险评估
cs 02-10 00:00

实时应急着陆规划:兼顾空域风险与地面安全的搜索算法

本文提出了一种基于搜索的实时飞机应急着陆规划器,旨在最小化交通中断并同时考虑地面风险。该方法构建了包含密集起降流、直升机走廊和禁区的空域模型,并利用历史ADS-B数据估算交通密度。通过低延迟计算几何算法生成高风险区域的热力图,将空域风险量化为轨迹在拥堵区域的累积暴露时间,地面风险则根据飞越区域的人口密度评估,二者共同指导轨迹选择。与最小风险Dubins解相比,该规划器在保持实时性能的同时,实现了更低的综合风险和更少的空域干扰。

应急着陆规划空域风险地面风险实时规划交通密度轨迹优化
cs 02-10 00:00

COMBOOD:半参数框架提升图像分类中的分布外数据检测

本文提出了一种新颖的无监督半参数框架COMBOOD,用于图像识别中的分布外(OOD)数据检测。该框架结合了最近邻(非参数)和马氏距离(参数)两种度量信号,为推理点生成置信度分数。实验表明,COMBOOD在OpenOOD基准数据集(包括近OOD和远OOD场景)以及文档数据集上,其检测准确率均优于现有最先进方法,且其计算复杂度与嵌入空间大小呈线性关系,适合实际应用。

分布外检测半参数方法图像分类机器学习安全异常检测
cs 02-10 00:00

基于对比学习的IMU手写识别增强方法:零推理开销提升精度

本文提出一种名为ECHWR的训练框架,旨在不增加推理成本的前提下,提升基于惯性测量单元(IMU)的在线手写识别精度。该方法在训练阶段引入一个临时辅助分支,通过双重对比学习目标(包括批内对比损失和新颖的基于错误的对比损失)将传感器信号与语义文本嵌入对齐。训练完成后,辅助分支被丢弃,模型保持原始高效架构。在OnHW-Words500数据集上的实验表明,该方法显著优于现有基线,在独立于书写者和依赖于书写者的数据划分上,字符错误率分别降低了高达7.4%和10.4%。

手写识别对比学习imu传感器边缘计算模型训练零开销优化
cs 02-10 00:00

RECITYGEN:基于潜在扩散与语义分割的交互式生成性城市设计工具

本研究提出RECITYGEN,一个结合了先进潜在扩散模型与交互式语义分割(Segment Anything)的参与式城市设计工具。用户可通过文本提示,交互式地生成城市街景的变体图像,直观表达设计构想。在北京的一个试点项目中,该工具被用于为城市更新项目提供改进建议。结果表明,RECITYGEN能有效捕捉并整合公众偏好,为迈向更具动态性和包容性的城市规划方法提供了新途径。项目源代码已开源。

参与式设计城市生成潜在扩散模型语义分割人机交互城市更新
cs 02-10 00:00

基于计算机视觉的废钢杂质含量实时评估系统

本研究提出了一种辅助计算机视觉流程,用于在铁路货车卸料过程中,通过图像自动估算废钢中的非金属杂质含量(百分比)并分类废钢类型。该方法将杂质评估构建为车厢级别的回归任务,并利用多实例学习(MIL)和多任务学习(MTL)处理序列数据。最佳模型(MIL)实现了平均绝对误差(MAE)0.27和决定系数($R^2$)0.83。系统集成磁铁/车厢检测、版本化推理服务及操作员审核覆盖流程,形成主动学习闭环,旨在减少主观判断差异、提升作业安全,并优化炼钢原料验收与熔炼计划。

计算机视觉废钢质量评估多实例学习工业自动化回归分析主动学习
cs 02-10 00:00

OmniFysics:通过物理数据引擎增强多模态模型的物理智能

本文提出OmniFysics模型,旨在解决多模态模型在物理理解上的脆弱性。核心贡献是构建了一个物理数据引擎,包含两个组件:FysicsAny通过检索原型数据库为图像生成基于物理定律的指令-图像监督数据;FysicsOmniCap利用音视频一致性过滤网络视频,生成强调跨模态物理线索的高质量视频-指令对。模型采用分阶段多模态对齐与指令微调进行训练,并在潜在空间使用流匹配进行文生图。实验表明,该模型在标准多模态基准和物理导向评估上均表现出色。

多模态模型物理智能数据引擎指令微调跨模态理解
cs 02-10 00:00

基于深度学习的无接触位移与材料压缩性估计框架

本研究提出了一种高效的深度学习端到端框架,用于直接从图像序列中估计连续体位移和材料压缩性。该框架包含用于图像配准和材料压缩性估计的两个深度神经网络,在效率和准确性上均优于传统的基于有限元法(FEM)或有限差分法(FDM)的迭代算法。实验表明,即使在图像配准预测的位移场与参考场存在显著局部偏差的情况下,模型仍能准确估计材料压缩性。其高精度源于模型能够评估涡度等向量场的高阶认知特征,而非传统的局部图像位移特征。

深度学习图像配准材料压缩性无接触测量力学性质估计端到端学习
cs 02-10 00:00

混合双路径线性变换:提升Transformer效率的新架构

本文针对标准Transformer架构中密集线性变换效率低、缺乏结构归纳偏置的问题,提出了混合双路径线性(HDPL)算子。HDPL将仿射变换分解为两个拓扑不同的路径:一个用于高秩局部处理的稀疏块对角分量,以及一个用于全局上下文正则化的低秩变分自编码器(VAE)瓶颈。通过在特定投影(Query、Key、Value、Gate、Up)中“精准”替换为HDPL算子,同时保留聚合层(Output、Down)的标准密集层,实现了效率与表征能力的更好平衡。在FineWeb-Edu数据集上的实验表明,HDPL架构优于标准的Llama风格基线,在减少6.8%参数的同时降低了验证损失。此外,在Transformer主干中显式实现概率潜在空间,为推理时控制、持续适应和可解释性等提供了新的可能性。

transformer架构模型效率变分自编码器稀疏变换参数优化深度学习
AI速览助手