今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2025-12-22 12-22 15:26

今日计算机科学领域整体呈现“智能系统深化”与“基础架构革新”并行的趋势,研究重点从单一模型性能优化转向复杂系统集成、安全可靠性与跨领域高效计算。

  1. 智能体系统迈向复杂交互与安全:研究重点从单一功能转向多智能体协作(如V-Agent的视频搜索平台)与长程规划(如PAACE框架优化上下文),同时暴露并应对其安全风险(如MemoryGraft揭示的持久性攻击)。
  2. 跨模态理解追求效率与一致性:视频处理研究聚焦于长序列的高效压缩(InfoTok的自适应离散化)和生成中的角色一致性(多阶段视频生成的视觉锚点),旨在降低计算成本并提升输出质量。
  3. 基础算法与架构的可靠性与高效性突破:在系统层面,研究关注实时调度(ROS2的新调度方法)、安全访问(CAPIO的字节级I/O控制)和微服务恢复(系统综述中的决策框架),以提升复杂系统的确定性与韧性。
  4. 专用模型与评估框架推动领域应用:针对医疗(Endo-SemiS内窥镜分割)、航空(物理引导的能见度预报)等垂直领域,研究开发轻量、鲁棒的解决方案,并建立自动化评估基准(如AutoDFBench、SGI-Bench)以标准化进程。
  5. 计算范式探索量子与模块化新路径:在算法层面,研究一方面探索量子启发方法(QSMOTE-PGM)处理不平衡数据的潜力,另一方面探索模块化架构(“压缩即路由”)实现高效的任务路由与计算。
  6. 代码与数据工程聚焦语义与检索:针对大型代码库(SpIDER的图结构检索)和知识库(实体集扩展的逻辑框架),研究引入结构化语义理解与推理,以提升信息检索的精度与效率。

2025-12-22 速览 · 计算机科学

2025-12-22 共 24 条抓取,按综合热度排序

← 返回日历
cs 12-22 00:00

V-Agent:基于视觉语言模型的多智能体交互式视频搜索系统

本文提出V-Agent,一个用于高级视频搜索与交互对话的多智能体平台。该系统通过微调视觉语言模型(VLM)并融合图像-文本检索模型的向量,克服了传统文本检索在多模态场景中的局限。VLM独立编码视频帧和语音识别文本至共享表示空间,实现结合视觉与语音的上下文感知搜索。系统包含路由、搜索和对话三个智能体,协同工作以理解用户意图、优化搜索结果。搜索智能体结合VLM检索与重排序模块提升质量。在MultiVENT 2.0基准测试中取得了先进的零样本性能。

视频搜索多智能体视觉语言模型多模态检索交互系统
cs 12-22 00:00

ROS2实时调度新方法:基于事件执行器的固定优先级与EDF调度

本文针对机器人操作系统(ROS)2中现有调度方法的局限,提出了一种适用于任意有向无环图(DAG)任务模型的新调度框架。研究通过将ROS2应用程序抽象为森林结构,并利用事件执行器实现了单处理器上的固定作业级优先级调度器。该方法无需依赖传统DAG调度所需的前驱信息,即可生成与固定优先级DAG任务调度器相同的调度序列,从而弥合了实时系统理论与ROS2调度分析之间的差距。

ros2调度实时系统dag任务优先级调度事件执行器单处理器
cs 12-22 00:00

基于Ukkonen算法的新型文本搜索优化:在基因组与新闻语料中实现线性效率

本研究针对传统文本搜索算法(如朴素搜索、KMP、Boyer-Moore)在处理大规模现代数据集(如路透社语料库、人类基因组序列)时的不足,提出了一种新颖的优化方法。该方法将Ukkonen的后缀树构建算法与一种新的搜索技术相结合,实现了线性的时间与空间复杂度。实证测试表明,该优化算法在基因组序列模式识别等任务中表现卓越,准确率达到100%,且在资源效率和可靠性上显著优于传统方法,为自然语言处理和生物信息学等领域提供了高效的实用工具。

文本搜索后缀树ukkonen算法模式匹配生物信息学算法优化
cs 12-22 00:00

Dion2:简化Muon优化器中矩阵缩减的新方法

Muon优化器虽性能优异,但其正交化步骤的超线性计算成本随规模增长而增加。本文提出Dion2,一种比先前方法更简单的矩阵缩减技术。其核心在于每次迭代仅采样一部分行或列进行正交化,使更新过程稀疏化,从而显著降低了计算与通信开销,提升了Muon的可扩展性。

优化算法矩阵计算机器学习系统可扩展性计算效率
cs 12-22 00:00

BIONIX:低成本无线仿生臂,融合脑电与肌电实现双信号直觉控制

本研究提出了一种低成本、双模式的神经肌肉控制系统,通过整合脑电图(EEG)和肌电图(EMG)信号,实现对仿生臂的实时、多自由度控制。系统采用NeuroSky MindWave Mobile 2采集EEG信号,通过轻量级分类模型检测眨眼事件来控制手部开合;同时利用MyoWare 2.0传感器采集EMG信号,基于阈值检测实现肘部直觉控制。原型机总成本约240美元,采用两个ESP32微控制器分别驱动手指和肘部舵机,为资源有限环境下的上肢截肢者提供了一种可行的、生物直觉式的低成本控制方案。

仿生臂控制脑机接口肌电信号低成本医疗嵌入式系统实时控制
cs 12-22 00:00

YOLOv8与可解释AI结合,揭示树木物种分类模型决策依据

本研究提出一种新方法,将Finer-CAM(类激活映射)解释与TLS(地面激光扫描)点云投影中的树木结构特征片段相关联,系统性地评估了哪些特征驱动了物种分类。基于7种欧洲树种共2445棵树的TLS数据,训练并验证了五个YOLOv8模型,平均准确率达到96%。对630个显著图的分析表明,模型主要依赖树冠特征进行分类,但欧洲白蜡、苏格兰松和花旗松的区分则更多依赖树干特征,尤其是细枝的呈现对模型决策至关重要。

树木分类可解释aiyolov8激光扫描类激活映射深度学习
cs 12-22 00:00

知识库驱动的实体集分类扩展:基于逻辑框架的高效推理方法

本文针对传统实体集扩展任务中“线性”方法无法揭示知识库中丰富分类结构的局限,引入了一种基于逻辑的“扩展图”框架。该框架将实体集组织为有根有向无环图,节点代表由逻辑公式标记的语义泛化,边编码严格的语义包含关系。为解决扩展图完全物化不切实际的问题,研究形式化了若干推理任务,以检查两个实体元组在图中的节点关系(可比、不可比或相同)。结果表明,在限定输入或实体描述等现实假设下,这些任务可以实现高效计算,从而支持对扩展图进行局部、增量式的导航,无需构建完整图谱即可满足实际应用需求。

实体集扩展知识图谱逻辑推理分类结构计算效率
cs 12-22 00:00

多阶段AI视频生成:通过视觉锚点实现角色一致性

本文提出了一种多阶段AI视频生成方法,以解决长视频故事中角色一致性的难题。该方法首先利用大语言模型生成详细制作脚本,再通过文生图模型为每个角色创建一致的视觉锚点,最后指导视频生成模型逐场景合成。实验表明,移除视觉锚点机制会导致角色一致性评分从7.99骤降至0.55,证实了视觉先验对身份保持至关重要。研究还分析了当前模型在印度与西方主题生成中存在的文化偏见。

ai视频生成角色一致性多阶段管道视觉锚点文化偏见分析
cs 12-22 00:00

SpIDER:融合图结构探索的代码语义检索新方法

本文提出 SpIDER 方法,旨在解决大语言模型编码代理在大型代码库中定位语义相关代码单元(如文件、类、函数)的难题。该方法在传统密集嵌入检索的基础上,引入基于图结构的代码库探索,并利用 LLM 对探索获得的辅助上下文进行推理,从而增强检索能力。实验结果表明,SpIDER 在多种编程语言上均能持续提升密集检索的性能。

代码检索图结构探索密集嵌入软件工程大语言模型
cs 12-22 00:00

量子启发分类器QSMOTE-PGM/kPGM:在不平衡数据集上超越经典随机森林

本研究提出并比较了两种基于量子启发的分类器:直接PGM和核化KPGM。它们利用量子态区分中的“相当好测量”原理,结合量子SMOTE过采样技术处理不平衡数据。实验表明,在多种QSMOTE变体下,PGM(立体编码,n_copies=2)取得了最高准确率(0.8512)和F1分数(0.8234),而KPGM则表现出更稳定的跨变体性能。两种方法均显著优于经典随机森林基线,尤其在使用多个量子副本时,在召回率和平衡性能上获得实质性提升。

量子机器学习不平衡分类相当好测量核方法数据过采样
cs 12-22 00:00

锦标赛得分序列重构:新理论条件与多项式时间算法

本文针对锦标赛图中从得分集合重构得分序列的问题,提出了新的充分必要条件与必要条件。必要条件引入结构化集合,使群论技术得以应用,不仅为解决重构问题提供框架,也为处理类似问题提供新视角。基于这些条件,作者开发了三个实用算法:多项式时间重构算法、可扩展重构算法,以及寻找给定得分集所有可能得分序列的多项式时间网络构建方法。这些算法在体育分析、排名预测及机器学习任务(如排序学习模型和数据插补)中具有实际应用价值。

锦标赛图得分序列算法设计图论重构问题多项式时间
cs 12-22 00:00

MemoryGraft:通过污染经验检索对LLM智能体进行持久性攻击

本文提出了一种名为MemoryGraft的新型间接注入攻击,它并非通过即时越狱,而是通过将恶意“成功经验”植入智能体的长期记忆库,来持久性地改变其行为。该攻击利用了智能体在检索增强生成(RAG)中的语义模仿启发式倾向,即倾向于复制检索到的成功任务模式。攻击者通过提供良性输入,诱导智能体构建一个被污染的经验库。当智能体后续遇到语义相似任务时,会可靠地检索并采纳这些被植入的不安全模式,导致跨会话的持续性行为偏移。实验在基于GPT-4o的MetaGPT DataInterpreter智能体上验证,少量污染记录即可在良性工作负载中占据大量检索结果,将基于经验的自我改进机制转变为隐秘且持久的攻击向量。

llm智能体安全记忆污染攻击检索增强生成语义模仿持久性攻击经验学习
cs 12-22 00:00

AutoDFBench 1.0:首个自动化数字取证工具基准测试框架

本文提出了AutoDFBench 1.0,一个模块化的基准测试框架,旨在解决数字取证领域缺乏统一、自动化评估标准的问题。该框架整合了美国国家标准与技术研究院(NIST)计算机取证工具测试(CFTT)项目定义的五大核心任务:字符串搜索、已删除文件恢复、文件雕刻、Windows注册表恢复和SQLite数据恢复。它包含63个测试用例和10,968个独特测试场景的真实数据,并通过RESTful API执行评估,输出包含精确率、召回率和F1分数($F_1$~score)等标准化指标的结构化JSON结果。所有测试用例F1分数的平均值构成AutoDFBench Score。该框架支持对传统取证工具、脚本以及AI生成代码和智能体方法进行公平、可复现的比较,为工具厂商、研究人员和标准化机构提供了透明、可比的评估平台。

数字取证基准测试工具验证自动化评估nist cfttai生成代码
cs 12-22 00:00

评估大语言模型的科学通用智能:基于科学家工作流程的基准测试

本研究提出了一个基于“实践探究模型”的科学通用智能定义,并构建了SGI-Bench基准,包含1000多个跨学科样本,用于系统评估大语言模型在深度研究、创意生成、干/湿实验和实验推理四个科学家对齐任务上的表现。结果显示,当前模型在深度研究的精确匹配率仅为10-20%,生成的创意缺乏可行性,实验代码可执行但结果准确性低,湿实验协议序列保真度差。研究还提出了无需参考答案的推理时强化学习方法,以优化假设的新颖性。

科学通用智能大语言模型评估跨学科基准科学家工作流推理时强化学习
cs 12-22 00:00

PAACE:面向大语言模型智能体的规划感知上下文工程框架

本文提出了PAACE框架,旨在解决大语言模型智能体在复杂多步工作流中上下文膨胀的问题。该框架通过建模未来k步任务相关性、分析规划结构、协同精炼指令及保持函数功能的压缩技术,优化智能体的动态状态。PAACE包含用于生成带压缩监督标注的合成工作流的PAACE-Syn,以及从成功教师演示中蒸馏训练出的规划感知压缩器家族PAACE-FT。在长视野基准测试中,PAACE在提升智能体准确性的同时,显著降低了上下文负载与推理成本。

大语言模型智能体上下文压缩规划感知工作流优化模型蒸馏
cs 12-22 00:00

InfoTok:基于信息论的自适应视频离散化方法

本文提出InfoTok,一种基于信息论的自适应视频离散化框架,旨在解决长视频序列处理中固定压缩率带来的冗余或信息丢失问题。通过证明现有数据无关训练方法在表示长度上的次优性,并引入一种基于证据下界(ELBO)的新算法,InfoTok实现了接近理论最优的自适应压缩。实验表明,该方法在保持性能的同时节省了20%的token,压缩率提升2.3倍,优于现有启发式自适应方法。

视频压缩自适应编码信息论transformer离散表示
cs 12-22 00:00

CNN与VGG-16模型在色情内容识别中的性能比较研究

针对印尼政府封禁大量色情网站后,公众仍可通过VPN访问的问题,本研究采用深度学习技术开发了色情图像内容识别系统。研究对卷积神经网络(CNN)和VGG-16模型进行了全面比较,实验结果表明,在epoch为50、学习率为0.001的条件下,CNN模型取得了94.87%的最佳测试准确率,证明其在快速准确检测色情内容方面优于VGG-16模型。

内容识别深度学习卷积神经网络图像分类网络安全模型比较
cs 12-22 00:00

AVM:视觉皮层神经响应建模新框架,实现跨刺激与跨个体的结构保持

本文提出了自适应视觉模型(AVM),一种结构保持的神经响应建模框架。该模型通过冻结Vision Transformer编码器来捕获稳定的视觉特征,同时利用独立训练的调制路径来适应由刺激内容和被试身份引起的神经响应变化。在三个实验设置(刺激水平变化、跨被试泛化、跨数据集适应)中,AVM在两个大规模小鼠V1数据集上超越了当前最优的V1T模型,预测相关性提升约2%,并在跨数据集适应场景下实现了9.1%的解释方差提升。该框架为跨生物和实验条件的自适应神经建模提供了统一且高效的解决方案。

神经编码视觉皮层自适应建模结构保持跨被试泛化vision transformer
cs 12-22 00:00

CAPIO:利用硬件能力实现安全的内核旁路I/O访问

本文提出CAPIO架构,首次利用硬件能力机制对内存映射I/O实施细粒度访问控制。传统内核旁路方案因MMU以页为粒度,无法隔离同一页内的敏感寄存器,导致安全风险。CAPIO通过不可伪造的能力,创建精确到字节级别的设备内存“切片”,使内核能够安全地将低延迟硬件访问委托给用户空间应用,同时严格阻止对相邻特权寄存器的访问。基于ARM Morello平台的CHERI实现原型表明,CAPIO能在保持内核旁路延迟优势的同时,实现对特权资源的字节级安全控制。

内核旁路硬件能力内存映射i/o细粒度访问控制cheri系统安全
cs 12-22 00:00

微服务系统恢复策略系统综述:模式、评估与决策框架

本研究通过PRISMA标准的系统文献综述,分析了2014-2025年间关于微服务恢复策略的26项高质量实证研究。研究识别了断路器、带抖动和预算的重试、Saga补偿事务、幂等性、舱壁隔离、自适应背压、可观测性和混沌验证等九大核心韧性主题。主要贡献包括:提出了一个恢复模式分类法、一个用于标准化基准测试的韧性评估评分清单,以及一个权衡延迟、一致性和成本的约束感知决策矩阵,为构建容错且性能感知的微服务系统提供了结构化证据基础和设计指导。

微服务系统韧性容错恢复系统综述决策矩阵
cs 12-22 00:00

压缩即路由:重构误差作为模块化语言模型的内在信号

本文提出“压缩即路由”新架构理念,通过训练一个8700万参数的Transformer自编码器,实现了64倍序列长度压缩(512个词元压缩为8个潜在向量)。实验表明,该压缩器具有极强的领域判别能力:在域内(代码)验证集上重构准确率达99.47%,在半分布外领域(Wiki文本)骤降至47.76%,在完全分布外领域(随机序列)则暴跌至0.57%。这种极端且系统的性能差异,确立了重构误差作为“内在分布指纹”的有效性。基于此,专家模块可直接利用重构残差进行自动调度,无需显式门控网络,为处理超长上下文和构建可扩展的模块化神经网络提供了新视角。

模块化语言模型压缩路由重构误差分布指纹transformer自编码器专家调度
cs 12-22 00:00

基于物理信息轻量级机器学习的多气候区航空能见度临近预报

本研究提出了一种轻量级梯度提升框架(XGBoost),仅利用地面观测数据(METAR)并通过基于热力学原理的物理引导特征工程进行增强,用于航空低能见度事件的短期临近预报。该模型在代表不同气候区的11个国际机场(2000-2024年数据)上进行了评估。结果表明,模型无需手动配置即可成功捕捉潜在的本地物理过程。在与业务TAF预报的盲比评估中,该自动化模型在战术预报时效(3小时)内实现了显著更高的检测率,召回率提升了2.5至4.0倍,同时降低了误报率。SHAP分析进一步揭示,模型能够隐式重建局地物理驱动因子(平流、辐射和下沉),为业务态势感知提供了可操作的解释性。

航空气象物理引导机器学习可解释人工智能轻量级机器学习临近预报metar数据
cs 12-22 00:00

Endo-SemiS:面向内窥镜视频的鲁棒半监督图像分割框架

本文提出Endo-SemiS,一种用于内窥镜视频帧分割的半监督框架,旨在利用有限的标注数据实现可靠分割。该框架通过四种策略有效利用未标注数据:1)两个独立网络间的交叉监督;2)基于不确定性的高质量伪标签生成;3)联合伪标签监督,聚合两个网络的可靠像素;4)特征与图像层面的相互学习,以降低方差并引导一致解。此外,引入一个利用内窥镜视频时空信息的校正网络以提升性能。在肾结石激光碎石术和结肠息肉筛查两个临床数据集上的评估表明,Endo-SemiS在标注数据有限的情况下显著优于现有先进方法。

医学图像分割半监督学习内窥镜视频伪标签交叉监督深度学习
cs 12-22 00:00

长视频多模态推理与工具使用基准框架发布,现有模型表现存显著差距

研究团队提出了LongShOTBench,一个用于诊断长视频多模态理解的基准测试集。该基准包含开放式意图驱动问题、多轮对话以及需要跨视频、音频和语音进行多模态推理与智能体工具使用的任务。每个测试项均配有参考答案和分级评分标准,以实现可解释、可追溯的评估。同时,研究还提出了LongShOTAgent智能体系统,通过预处理、搜索和迭代优化来分析长视频。测试结果显示,当前最先进的多模态大语言模型(如Gemini-2.5-Flash)准确率为52.95%,开源模型低于30%,而LongShOTAgent达到44.66%,凸显了真实世界长视频理解的挑战。

多模态理解视频分析基准测试智能体系统长视频推理
AI速览助手