今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-02-20 02-20 15:23

今日计算机科学领域研究聚焦于提升AI系统的可靠性、效率与跨领域应用能力,核心趋势是通过架构创新与对抗性评估,推动AI在复杂现实任务中的稳健部署

  1. AI安全评估面临“意图漂白”新挑战:研究发现主流安全数据集过度依赖敏感“触发线索”,导致模型安全评估可能失效。通过抽象掉线索但保留恶意意图的“意图漂白”方法,能轻易攻破多个顶级模型,凸显了构建更贴近真实攻击模式的安全基准的紧迫性。
  2. 大语言模型(LLM)应用范式从翻译转向智能体探索:在文本转SQL等复杂任务中,新框架将LLM从被动翻译器转变为能进行假设-验证循环的智能体,通过逻辑规划与数据探查生成更准确的输出,显著提升了在企业级复杂环境中的实用性。
  3. 注意力机制稳定性成为模型可解释性与可靠性的关键:对Transformer注意力头的系统性量化研究表明,中间层头最不稳定但功能独特,其跨训练实例的稳定性是实现可扩展、可监控AI电路的前提,权重衰减等优化能有效提升稳定性。
  4. 移动感知缓存与指标引导优化LLM仿真效率:针对LLM仿真计算成本高的问题,新方法通过潜在空间缓存复用推理步骤,或利用群体移动指标引导提示优化,在保持仿真质量的同时大幅提升了人类移动等群体行为仿真的效率与可扩展性。
  5. 多模态与跨模态数据融合提升专业领域预测能力:在交通预测和电力市场预测中,融合微观驾驶行为与宏观交通流、或将系统状态转为自然语言提示供LLM分析,都显示出结合专业领域知识与AI模型能获得优于传统机器学习方法的效果。
  6. 模型鲁棒性在安全攸关领域面临严峻考验:对Mamba等新模型在医学影像中的评估揭示,其对抗扰动和模拟硬件故障攻击存在脆弱性;同时,对抗性代码注释对LLM漏洞检测的影响虽不显著,但系统性测试仍是确保AI在代码审查等任务中可靠部署的必要步骤。

2026-02-20 速览 · 计算机科学

2026-02-20 共 23 条抓取,按综合热度排序

← 返回日历
cs 02-20 00:00

基于大语言模型与知识图谱增强的机电系统设计结构矩阵自动生成

本研究探索了利用大语言模型、检索增强生成及基于知识图谱的检索增强生成技术,自动生成机电系统的设计结构矩阵。研究以电动螺丝刀和立方星卫星为案例,评估了模型在识别预定义组件间关系,以及更复杂的组件识别与关系构建任务上的表现。通过评估DSM的每个元素及整体架构,研究揭示了自动化DSM生成的潜力与挑战,相关代码已开源以促进领域专家反馈与可复现性。

大语言模型检索增强生成知识图谱设计结构矩阵机电系统自动化设计
cs 02-20 00:00

上下文性:自适应智能中单状态复用的必然代价

研究表明,上下文性并非量子力学的独有特性,而是经典概率表示中单状态复用的必然结果。当自适应系统在多个上下文中复用固定内部状态时,任何能再现上下文相关结果统计的经典模型,都必须承担不可约简的信息论代价:对上下文的依赖无法仅通过内部状态来中介。该研究通过一个最小构造性示例阐明了这一代价的操作含义,并解释了非经典概率框架如何通过放宽单一全局联合概率空间的假设来避免此障碍,而无需引入量子动力学。这揭示了上下文性是独立于物理实现的自适应智能的普遍表征约束。

上下文性自适应智能信息论概率表示状态复用经典模型
cs 02-20 00:00

GPU加速图向量搜索算法:分类、实证研究与未来方向

本文对GPU加速的图近似最近邻搜索算法进行了系统性综述与实证研究。研究建立了GPU优化策略的详细分类法,并阐明了算法任务与GPU硬件执行单元之间的映射关系。通过对8个大规模基准数据集上6种主流算法的全面评估,揭示了距离计算是主要计算瓶颈,而CPU与GPU间的数据传输是影响大规模应用实际延迟的主导因素。研究结果为设计可扩展、鲁棒的GPU加速ANNS系统提供了明确指导。

近似最近邻搜索gpu加速图算法向量检索性能评估大规模数据
cs 02-20 00:00

APEX-SQL:通过智能体探索实现与数据对话的文本转SQL新框架

针对大型语言模型驱动的文本转SQL系统在企业复杂环境中表现不佳的问题,本研究提出了APEX-SQL框架,将范式从被动翻译转变为智能体探索。该框架采用假设-验证循环,将模型推理建立在真实数据之上。在模式链接阶段,通过逻辑规划、双路径剪枝和并行数据剖析来验证列角色;在SQL生成阶段,引入确定性机制检索探索指令,使智能体能有效探索数据分布并生成语义准确的SQL。在BIRD和Spider 2.0-Snow基准测试中,APEX-SQL分别取得了70.65%和51.01%的执行准确率,优于现有基线且降低了token消耗。消融研究证实了各组件对确保稳健准确数据分析的关键贡献。

文本转sql智能体探索数据剖析假设验证企业数据分析大语言模型
cs 02-20 00:00

STSSN:基于语音到语音合成的语音模仿模型

本文提出了一种语音到语音合成网络(STSSN),旨在将语音识别与语音合成技术融合,实现高效的语音风格转换以完成语音模仿任务。该模型在现有先进系统基础上构建,能够生成逼真的音频样本。通过与完成类似任务的生成对抗模型(GAN)进行基准测试对比,结果表明STSSN模型能产生更具说服力的语音模仿效果。

语音合成语音模仿风格迁移深度学习音频生成
cs 02-20 00:00

Mamba模型在医学影像中的可靠性评估:对抗攻击与硬件故障下的脆弱性分析

本研究评估了状态空间模型Mamba在医学影像分类任务中的鲁棒性。研究在多个MedM-NIST基准上,测试了模型对输入级攻击(如FGSM/PGD对抗扰动、PatchDrop遮挡、高斯噪声与散焦模糊)以及软件模拟的硬件故障攻击(针对权重和激活的定向/随机比特翻转注入)的抵抗能力。分析揭示了模型存在的脆弱性,量化了其对准确率的影响,结果表明在部署前需要针对性的防御措施。

医学影像模型鲁棒性对抗攻击状态空间模型硬件故障
cs 02-20 00:00

MobCache:基于可重构缓存的移动感知框架,提升LLM大规模人类移动仿真效率

针对基于大语言模型(LLM)的人类移动仿真计算成本高、可扩展性差的问题,本研究提出了名为MobCache的移动感知缓存框架。该框架包含两个核心组件:1)推理组件,将每个推理步骤编码为潜在空间嵌入,并通过潜在空间评估器实现推理步骤的复用与重组;2)解码组件,采用经过移动规律约束蒸馏训练的轻量级解码器,将潜在空间推理链转换为自然语言。实验表明,MobCache在保持与最先进LLM方法相当性能的同时,显著提升了多维度仿真效率。

人类移动仿真大语言模型缓存框架潜在空间编码推理复用轻量解码
cs 02-20 00:00

AI安全数据集存在“意图漂白”漏洞,主流模型安全评估或失效

本研究系统评估了主流AI安全数据集的质量,发现其过度依赖具有明显负面/敏感含义的“触发线索”来激发模型的安全拒绝机制,这与现实世界的攻击模式不符。研究者提出“意图漂白”方法,在严格保留恶意意图和所有相关细节的前提下,抽象掉攻击中的触发线索。实验表明,移除这些线索后,所有先前评估为“相对安全”的模型(包括Gemini 3 Pro和Claude Sonnet 3.7)均变得不安全。将“意图漂白”适配为越狱技术时,在黑盒访问下攻击成功率高达90%至98%以上,揭示了当前安全评估与现实对抗行为之间的显著脱节。

ai安全数据集评估对抗攻击意图漂白模型越狱安全漏洞
cs 02-20 00:00

基于大语言模型的少样本电力市场价格尖峰日预测框架

本文提出了一种基于大语言模型的少样本分类框架,用于预测次日实时电价是否会出现尖峰。该方法将电力需求、可再生能源发电、天气预报和近期电价等系统状态信息聚合为统计特征,并格式化为自然语言提示,与通用指令一同输入大语言模型。模型随后判断次日成为尖峰日的可能性并输出置信度得分。基于德克萨斯州电力市场的历史数据,研究表明,这种少样本方法的性能与支持向量机和XGBoost等监督机器学习模型相当,并且在历史数据有限时优于后者。这些发现凸显了LLM在数据稀缺环境下作为电价尖峰分类的高效数据利用工具的潜力。

大语言模型少样本学习电价预测电力市场尖峰分类数据高效
cs 02-20 00:00

计算ICE-AGE:可寻址图演化下的不变计算边界

本文基于Bounded Local Generator Classes的形式化工作,实现了一个确定性的语义状态基底系统。与依赖概率重组、计算成本随token量和上下文长度增长的现代推理AI架构不同,该系统将语义连续性表示为一个持久的、可寻址的记忆图,通过时间调制的局部算子 $g(t)$ 演化。其计算量仅由局部语义变化 $\Delta s$ 决定,与总记忆基数 $M$ 无关。在Apple M2芯片上的实验表明,系统在1M至25M节点规模下,遍历延迟保持恒定(约0.25-0.32 ms),CPU利用率稳定(基线约17.2%,$\Delta CPU$ 约0-0.2%),且无规模相关的热特征。在二进制内存核算下,1 TiB内存可支持约16亿节点。这些结果表明了一个由内存容量而非推理重组主导的、经验上不变的热力学计算边界。

图计算引擎语义状态基底不变计算边界确定性演化内存容量扩展局部算子
cs 02-20 00:00

SEMAS:面向工业物联网预测性维护的自进化多智能体网络

本研究提出SEMAS,一种用于工业物联网预测性维护的自进化分层多智能体系统。它将专用智能体分布在边缘、雾和云计算层:边缘层进行轻量级特征提取与预过滤;雾层执行基于动态共识投票的多样化集成检测;云端则通过近端策略优化(PPO)持续优化系统策略,同时保持异步、非阻塞推理。该框架融合了基于LLM的解释性响应生成和用于自适应策略分发的联邦知识聚合。在两个工业基准测试(锅炉模拟器和风力涡轮机)上的实证评估表明,SEMAS在保持模型可解释性的同时,实现了卓越的异常检测性能和自适应稳定性,并在严格延迟约束下实现了显著的延迟改进,支持真正的实时部署。消融研究证实了PPO驱动的策略进化、共识投票和联邦聚合各自对系统有效性的重要贡献。

工业物联网预测性维护多智能体系统边缘计算异常检测自进化
cs 02-20 00:00

量化大语言模型注意力头的稳定性:对电路普适性的启示

本研究系统性地评估了不同规模Transformer语言模型中注意力头在多次独立训练中的稳定性。通过逐层量化分析发现:中间层注意力头最不稳定但表征最独特;模型越深,中层分歧越强;深层不稳定头比同层其他头功能更重要;权重衰减优化能显著提升注意力头在不同初始化下的稳定性;残差流相对稳定。这些发现确立了跨实例电路的鲁棒性是实现可扩展监督的关键前提,为AI系统的白盒可监控性划定了边界。

可解释性注意力机制模型稳定性transformer电路分析权重衰减
cs 02-20 00:00

对抗性代码注释能否欺骗AI安全审查?大规模实证研究揭示LLM漏洞检测的鲁棒性

本研究通过大规模实证分析,探究了对抗性代码注释对大型语言模型(LLM)在漏洞检测任务中的影响。研究构建了包含Python、JavaScript和Java的100个样本基准,并为每个样本设计了8种注释变体(包括无注释、权威欺骗、技术误导等对抗策略)。在9,366次试验中评估了8个前沿模型(5个商业,3个开源)。结果显示,对抗性注释对检测准确率的影响微小且统计上不显著(McNemar精确检验 $p > 0.21$;所有95%置信区间包含零)。商业模型基线检测率为89%-96%,开源模型为53%-72%,但性能差距主要源于漏洞本身难度(如竞态条件、时序侧信道、复杂授权逻辑),而非对抗注释。与代码生成任务不同,注释操纵在检测场景中并未导致性能显著下降。在14,012次总试验中测试的四种自动防御方法里,静态分析交叉引用表现最佳(检测率96.9%,并恢复了47%的基线漏报)。

代码安全对抗攻击大语言模型漏洞检测实证研究
cs 02-20 00:00

DeepVision-103K:覆盖广泛、视觉多样的数学数据集,提升多模态模型推理能力

本文提出了DeepVision-103K数据集,旨在解决现有可验证奖励强化学习(RLVR)训练数据在多样性和覆盖范围上的不足。该数据集覆盖K12数学的广泛主题与知识点,包含丰富的视觉元素。实验表明,基于此数据集训练的模型在多模态数学基准测试中表现优异,并能有效泛化至通用多模态推理任务。分析进一步揭示了模型在视觉感知、反思和推理能力上的提升。

多模态推理强化学习数学数据集视觉感知模型泛化
cs 02-20 00:00

基于高斯溅射的数字孪生实现土木结构三维损伤可视化

本研究提出了一种基于高斯溅射(Gaussian Splatting)的数字孪生方法,用于土木结构的三维损伤可视化。该方法利用离散的各向异性3D高斯函数高效表示辐射场,相比传统摄影测量或NeRF方法,在场景表示和渲染质量上更具优势。其核心贡献在于:1)将2D损伤分割结果映射至3D模型,并减少分割误差;2)采用多尺度重建策略以平衡效率与细节;3)支持随损伤演变而更新的动态数字孪生。在震后检测的合成数据集上验证,该方法为基础设施的全面三维损伤评估提供了有效解决方案。

数字孪生三维重建高斯溅射损伤可视化土木结构检测计算机视觉
cs 02-20 00:00

AIdentifyAGE本体:法医牙科年龄评估决策支持新框架

针对法医牙科年龄评估中方法异质性、数据碎片化及系统互操作性差等问题,研究团队提出了AIdentifyAGE本体。该本体是一个领域特定的标准化语义框架,旨在整合手动与AI辅助的评估工作流,并建立观察、方法、参考数据与报告结果之间的可追溯链接。它完整建模了法医-法律工作流程,集成了司法背景、个体信息、法医检查数据、牙齿发育评估方法、影像学、统计参考研究及AI估计方法。该本体基于上层及成熟的生物医学、牙科和机器学习本体构建,遵循FAIR原则,为提升评估的一致性、透明度和可解释性,以及构建本体驱动的决策支持系统奠定了坚实基础。

法医牙科年龄评估本体决策支持人工智能语义框架
cs 02-20 00:00

高效发现用户导向的序列规则:基于剪枝策略与相似性度量的新方法

本文针对序列规则挖掘中计算密集、结果冗余的问题,提出了一种高效发现用户相关序列规则的新方法。该方法首先处理原始数据库以判断目标查询规则是否存在,并设计了紧致且可泛化的上界来剪枝无望项、避免不必要的扩展。研究引入了基于所提技术和剪枝策略的高效目标序列规则生成方法,并为频率和效用两种常见评估指标设计了相应的挖掘算法。此外,还提出了两种规则相似性度量,以帮助发现最相关的序列规则。大量实验表明,该算法在运行时间和内存使用上优于现有方法,并能在灵活的相似性设置下发现简洁的规则集。

序列规则挖掘用户导向挖掘剪枝策略相似性度量高效算法模式发现
cs 02-20 00:00

UPER:高效挖掘高价值部分有序事件规则

本文提出UPER算法,首次将效用概念引入部分有序事件规则挖掘领域。通过定义部分有序事件规则的效用,并设计NoList数据结构存储关键信息,结合WEUP、REUCSP和REEUP三种剪枝策略,有效减少了候选规则数量,从而高效地发现具有更高商业或应用价值的关联规则。实验验证了该算法在多个数据集上的有效性和效率。

事件规则挖掘部分有序高效用挖掘剪枝策略序列数据分析
cs 02-20 00:00

实时逆向工程车辆CAN总线的新方法

本文提出了一种无需车辆或CAN系统先验知识的实时逆向工程方法。该方法通过对比车辆显著事件(如加速、刹车、转向)期间的惯性测量单元(IMU)数据与CAN总线数据,准确识别出与加速踏板、刹车踏板和方向盘对应的CAN通道。系统采用IMU、CAN模块和事件驱动软件架构,并利用先前研究中预录的同步IMU-CAN数据集进行验证。相比早期方法,本方法处理速度更快,所需计算资源更少,为售后自动驾驶套件和汽车网络安全应用提供了可扩展的实时解决方案。

can总线逆向工程自动驾驶汽车安全实时系统数据同步
cs 02-20 00:00

M2LSimu:利用共享数据中的移动指标引导LLM进行群体移动仿真

本研究提出M2LSimu框架,解决了现有基于大语言模型(LLM)的人类移动仿真方法缺乏群体协调机制、难以捕捉集体行为涌现的问题。该框架利用从共享数据中提取的移动指标(如$\text{radius of gyration}$、$\text{entropy}$)作为引导,通过多提示调整策略,在有限预算下逐步优化个体级提示,使生成的移动轨迹既能满足个体认知过程,又能协同实现多个群体级移动目标。在两个公开数据集上的实验表明,M2LSimu在仿真真实性上显著优于现有方法。

移动仿真大语言模型群体行为提示工程城市计算
cs 02-20 00:00

MMCAformer:融合宏观交通与微观驾驶行为的Transformer模型,提升交通速度预测精度

本研究提出MMCAformer模型,首次将联网车辆(CV)提供的微观驾驶行为特征(如急刹车、急加速频率)与宏观交通流特征相结合,用于交通速度预测。模型通过自注意力学习宏观交通流内部依赖,并利用交叉注意力捕捉宏观交通状态与微观驾驶行为间的时空交互。采用Student-t负对数似然损失进行优化,同时提供点预测和不确定性估计。在四条佛罗里达州高速公路上的实验表明,引入微观行为特征使整体RMSE、MAE和MAPE分别降低9.0%、6.9%和10.2%,并显著缩小了预测不确定性区间,尤其在拥堵低速条件下改进更为明显。

交通预测transformer驾驶行为交叉注意力不确定性估计联网车辆
cs 02-20 00:00

单峰偏好下的集团投票制:获胜联盟的数学特征与选举公平性分析

本文研究了在选民偏好呈单峰分布时,集团投票制(Bloc Voting)产生的获胜联盟特性。通过分析少量候选人和获胜席位的情况,确定了获胜联盟候选人具有相邻性的条件。研究进一步评估了获胜联盟与落选候选人之间的成对竞争结果,并检验了这些联盟在何种程度上满足康多塞准则(Condorcet criterion)向多席位选举方法的几种扩展形式。最后,利用蒙特卡洛模拟(Monte Carlo simulations)探讨了在不同选民行为假设下,此类联盟出现的频率。

社会选择理论集团投票单峰偏好康多塞准则多席位选举蒙特卡洛模拟
cs 02-20 00:00

无需事故后特征:实时预测高速公路二次事故风险的混合框架

本研究提出了一种不依赖事故后特征(如事故类型、严重程度)的混合框架,用于实时预测高速公路二次事故发生的可能性。该框架设计了动态时空窗口,从初始事故地点及其上游路段提取实时交通流与环境特征,并集成三个模型:一个初始事故模型和两个二次事故模型。通过集成六种机器学习算法并结合投票机制,模型在佛罗里达州高速公路数据上的测试表明,能正确识别91%的二次事故,假警报率仅为0.20,ROC曲线下面积(AUC)从单个模型的0.654、0.744、0.902提升至0.952,显著优于现有方法。

交通管理事故预测机器学习实时系统时空分析集成学习
AI速览助手