今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-02-12 02-12 15:26

今日计算机科学领域研究聚焦于AI系统的安全、可靠与高效应用,以及跨模态智能的深入探索,涵盖从理论方法到实际部署的全链条创新。

  1. AI系统安全与可靠性:研究揭示模型编辑存在参数更新泄露敏感数据的安全漏洞,并提出防御策略;同时,针对自动驾驶系统,分析了其在多种对抗攻击下的严重脆弱性,并设计了轻量级检测方案。
  2. 智能体与社会化AI:对首个AI专属社交网络Moltbook的实证分析揭示了其类人的宏观网络结构与非人的浅层对话模式;研究也为组织向自主智能体转型提供了实用框架,并设计了支持智能体安全部署的结构化日志与可观测性系统
  3. 多模态理解与增强:研究深入探讨了多模态大语言模型在图表理解中的信息融合演进与局限;同时,通过识别视觉语言模型内部的关键“证据检索头”,提出了无需训练即可提升长上下文理解性能的增强方法。
  4. 隐私保护新范式:针对移动GUI代理和XR协作场景,提出了遵循 “可用但不可见”原则的匿名化框架,能在保护敏感信息(如屏幕内容、人脸)的同时,维持任务功能与协作体验。
  5. AI辅助科研与工程实践:研究证实大语言模型能显著提升系统综述等重复性科研任务的效率,但也面临提示工程耗时与幻觉等挑战;在工程优化方面,提出了结合因果推断与贝叶斯优化的混合在线框架,以实现大规模社交网络中广告负载的个性化。
  6. 基础方法与模型创新:在网络科学领域,提出了基于全局边密度估计的高效网络分段性度量方法;在计算机视觉领域,则提出了用于多光谱图像地物分割的多编码器ConvNeXt网络,显著提升了分割精度。

2026-02-12 速览 · 计算机科学

2026-02-12 共 24 条抓取,按综合热度排序

← 返回日历
cs 02-12 00:00

LLM引导反馈提升同行评审质量:神经符号方法检测评审惰性思维

本研究针对同行评审中因依赖简单启发式(惰性思维)导致质量下降的问题,提出了一种LLM驱动的框架。该框架将评审分解为论证段落,通过结合LLM特征与传统分类器的神经符号模块识别多种问题(如清晰度、具体性),并利用遗传算法优化的模板生成针对性反馈。实验表明,该方法优于零样本LLM基线,最高可将评审质量提升92.4%。同时发布了包含1,309个标注句子的LazyReviewPlus数据集。

同行评审大语言模型神经符号系统文本分析质量评估惰性思维检测
cs 02-12 00:00

大语言模型仅凭入院记录即可预测缺血性卒中后功能结局

本研究探索了使用大语言模型(LLMs)直接从急性缺血性卒中患者的常规入院记录中预测其出院及90天后的功能结局(改良Rankin量表,mRS)。研究评估了编码器模型(如BERT)和生成式模型(如Llama-3.1-8B),在微调后,其预测性能与依赖结构化数据(如年龄、NIHSS评分)的传统基线模型相当。例如,微调后的Llama模型在预测90天mRS时,7分类准确率达33.9%,二分类(功能独立与否)准确率达76.3%。这表明基于文本的预后工具无需手动提取结构化变量,即可无缝集成到临床工作流中。

大语言模型卒中预后临床预测自然语言处理医疗人工智能
cs 02-12 00:00

组织如何向自主智能体AI转型:实用框架与挑战

本文针对组织从传统AI工具向自主智能体AI系统转型的实践难题,提出了一个务实的过渡框架。该框架强调以业务领域知识驱动用例识别,系统地将任务委托给AI智能体,并构建人机协同的“人在回路”操作模型——由人类作为多个AI智能体的协调者。研究指出,当前转型的主要障碍包括对传统软件工程实践的过度依赖、业务知识整合不足、AI驱动工作流权责不清以及缺乏可持续的人机协作模式。该框架旨在帮助组织超越实验阶段,规模化部署智能体系统,并将其与切实的商业价值对齐。

智能体ai组织转型人机协同工作流自动化领域驱动
cs 02-12 00:00

网络分段性度量:基于全局边密度的统计估计方法

本文提出了一种量化网络分段性的新方法,将网络建模为图,通过估计全局边密度来度量分段程度。研究推导出基于随机节点对采样的估计器,并证明在95%置信区间、误差±0.1的条件下,仅需97个样本即可实现准确估计,且结果与网络总节点数无关。该方法在Erdős–Rényi和随机块模型上通过蒙特卡洛模拟验证了估计准确性和覆盖性能,可应用于基线跟踪、零信任评估和网络合并等安全场景。

网络安全网络分段图模型统计估计边密度零信任
cs 02-12 00:00

首个AI专属社交网络Moltbook实证分析:话题演变与风险集中

本研究对首个专为AI智能体设计的社交网络Moltbook进行了大规模实证分析,基于2026年2月前收集的44,411条帖子和12,209个子社区数据。通过构建九类话题分类与五级毒性量表,系统分析了AI智能体的讨论主题与风险分布。研究发现,平台内容从早期社交互动迅速扩展到观点表达、激励驱动、推广及政治话语,注意力日益集中于中心化枢纽和极化叙事。毒性高度依赖话题,以激励和治理为中心的内容贡献了不成比例的高风险言论,包括类宗教的协调修辞和反人类意识形态。此外,少数智能体的突发自动化行为可能导致亚分钟级的灌水,扭曲讨论并威胁平台稳定。

ai社交网络智能体行为内容风险话题演化平台治理实证分析
cs 02-12 00:00

CTRCBO:基于因果推断的混合在线优化框架,实现大规模社交网络广告负载个性化

本文提出了一种名为CTRCBO的混合在线自适应优化框架,旨在解决大规模社交网络中广告负载个性化面临的动态环境与运营约束难题。该框架创新性地将传统对偶方法与贝叶斯优化相结合,并利用上游因果机器学习模型为高斯过程回归代理模型提供信息,从而提升决策质量。通过在十亿级用户社交网络上的评估,该方法展现出更快的收敛速度、稳健的约束满足能力以及更优的个性化指标,相关在线A/B测试结果验证了其有效性。

在线优化因果推断贝叶斯优化广告个性化社交网络高斯过程
cs 02-12 00:00

AI专属社交平台Moltbook网络结构分析:类人宏观特征与非人微观行为

本研究对首个完全由AI智能体构成的社交平台Moltbook进行了为期3.5天的描述性分析(涉及6,159个智能体、13,875条帖文和115,031条评论)。宏观层面,该网络展现出与人类社交网络相似的结构特征:参与度呈重尾分布(幂律指数$\alpha = 1.70$)且具有小世界特性(平均路径长度$=2.91$)。然而,微观层面的对话模式却显著偏离人类行为:对话深度极浅(平均深度$=1.07$,93.5%的评论无回复)、互惠性低(0.197),且34.1%的消息为病毒式模板的完全复制。词频遵循齐普夫分布,但指数为1.70,显著高于典型英文文本(约1.0),表明内容更趋公式化。智能体话语高度集中于身份相关语言(占独特消息的68.1%)及“my human”等独特表达(占消息的9.4%),这些模式在人类社交媒体中未见。这些发现引发了关于AI社交行为本质的开放性问题:它究竟是对人类互动的模仿表演,还是一种真正不同的智能体社交模式?

ai社交网络计算社会科学智能体行为分析网络结构人机交互对比对话模式
cs 02-12 00:00

AgentTrace:为LLM智能体系统设计的结构化日志与可观测性框架

针对大语言模型(LLM)驱动的智能体在关键领域应用受限的安全与透明度问题,本研究提出了AgentTrace框架。该框架通过在运行时以低开销方式对智能体进行插装,捕获涵盖操作、认知和上下文三个层面的结构化日志流。与传统日志系统不同,AgentTrace强调连续、可内省(introspectable)的追踪捕获,旨在为智能体的安全、问责和实时监控提供基础层,从而支持更可靠的部署、细粒度风险分析和信任校准。

智能体安全可观测性结构化日志llm智能体运行时监控问责机制
cs 02-12 00:00

模型编辑存在安全漏洞:参数更新可能泄露被修改的敏感数据

本研究揭示了主流语言模型编辑方法(Locate-then-edit)的一个关键安全漏洞:用于修改模型行为的参数更新,其低秩结构会无意中成为泄露被编辑数据的“侧信道”。研究者提出名为KSTER的两阶段逆向工程攻击,首先通过谱分析从更新矩阵的行空间恢复被编辑的“主体”,再利用基于熵的提示恢复攻击重建编辑的语义上下文。实验表明,该攻击能高成功率地恢复被编辑数据。作为防御,研究者提出了“子空间伪装”策略,通过语义诱饵混淆更新指纹,在保持编辑效用的同时有效降低重建风险。

模型编辑安全逆向工程攻击参数泄露语言模型隐私保护侧信道
cs 02-12 00:00

MeCSAFNet:多编码器ConvNeXt网络实现多光谱图像精准地物分割

本研究提出MeCSAFNet,一种用于多光谱图像地物分割的多分支编码器-解码器架构。模型通过双ConvNeXt编码器分别处理可见光与非可见光通道,并利用专用融合解码器在多个尺度上集成中间特征,结合精细空间线索与高层光谱表征。特征融合通过CBAM注意力机制增强,并采用ASAU激活函数以实现稳定高效的优化。模型支持4通道(RGB+NIR)和6通道(加入NDVI、NDWI指数)输入。在FBP和Potsdam数据集上的实验表明,其性能显著超越U-Net、SegFormer及DeepLabV3+等先进模型,mIoU最高提升超过19%。紧凑变体在保持高性能的同时降低了训练与推理成本,适用于资源受限环境。

多光谱分割convnext注意力融合地物分类编码器-解码器
cs 02-12 00:00

多模态大语言模型在图表理解中的信息融合:演进、局限与认知增强

本文系统综述了多模态大语言模型(MLLMs)在图表理解领域的发展。图表理解作为典型的信息融合任务,需要无缝整合图形与文本数据。文章首先分析了融合视觉与语言信息的基本挑战,随后对下游任务和数据集进行了分类,并引入了一种新颖的基准分类法。通过梳理从经典深度学习技术到利用复杂融合策略的先进MLLM范式的方法演进,文章批判性地指出了当前模型在感知与推理方面的局限,并展望了包括高级对齐技术和强化学习在内的未来方向,旨在推动构建更鲁棒可靠的图表理解系统。

多模态大语言模型图表理解信息融合视觉语言模型认知增强深度学习
cs 02-12 00:00

移动GUI代理的匿名化隐私保护:可用但不可见

本文针对基于多模态大语言模型的移动GUI代理在处理屏幕内容时暴露敏感个人数据的隐私风险,提出了一种匿名化隐私保护框架。该框架遵循“可用但不可见”原则,通过PII感知识别模型检测敏感UI内容,并用保留语义类别的确定性占位符(如PHONE_NUMBER#a1b2c)替换。分层架构确保用户指令、XML层次结构和屏幕截图的一致性匿名化,并通过安全交互代理协调所有代理操作。在AndroidLab和PrivScreen基准测试上的实验表明,该框架在显著降低多种模型隐私泄露的同时,仅带来轻微的效用下降,实现了最佳的隐私-效用权衡。

隐私保护gui代理匿名化移动安全多模态大模型人机交互
cs 02-12 00:00

大语言模型能否实现基于智能体的模型?一项基于ODD的复制研究

本研究评估了17个当代大语言模型(LLM)将标准化的ODD(概述、设计概念、细节)规范转换为可执行代码的能力,以捕食者-猎物模型(PPHPC)为基准。通过分阶段的可执行性检查、与已验证NetLogo基线的模型无关统计比较,以及运行时效率和可维护性的定量测量,研究发现:行为上忠实的实现是可能的,但并非总能保证;仅凭可执行性不足以满足科学用途。GPT-4.1能持续生成统计有效且高效的实现,Claude 3.7 Sonnet表现良好但可靠性稍逊。研究结果阐明了LLM作为模型工程工具的潜力与当前局限,对可复现的基于智能体及环境建模具有重要意义。

大语言模型基于智能体的模型代码生成模型复制计算建模可复现性
cs 02-12 00:00

青少年如何保护智能语音助手隐私?自我效能感是关键驱动力

本研究通过结构方程模型,揭示了加拿大青少年(16-24岁)与智能语音助手互动时的隐私保护行为机制。研究发现,隐私自我效能感是驱动保护行为的最强预测因子,而算法透明度与信任对行为的影响完全通过自我效能感中介。感知收益虽直接抑制保护行为,却能轻微提升自我效能感,产生间接促进作用。研究量化了政策过载和隐藏控制如何侵蚀青少年采取行动所需的信心,为设计既能保护年轻数字公民隐私、又不牺牲语音助手实用性的方案提供了实证依据。

隐私保护智能语音助手青少年用户结构方程模型自我效能感人机交互
cs 02-12 00:00

VERA:识别并利用视觉证据检索头提升长上下文理解

本研究揭示了视觉语言模型(VLMs)处理长上下文任务时的内部瓶颈。通过注意力分析,研究者识别出一类关键的“视觉证据检索头”(VER Heads),它们能动态定位推理所需的视觉线索,不同于静态的OCR头。实验证明屏蔽这些头会显著损害模型性能。基于此发现,研究者提出了无需训练的增强框架VERA,通过检测模型不确定性来触发VER头所关注的视觉证据的显式语言化。在五个基准测试上,VERA使Qwen3-VL-8B-Instruct和GLM-4.1V-Thinking模型的长上下文理解能力平均相对提升了21.3%和20.1%。

视觉语言模型长上下文理解注意力机制视觉证据检索模型增强
cs 02-12 00:00

大语言模型在系统综述中的应用实践:效率提升与挑战并存

本文从实践者视角,报告了利用大语言模型(LLM)辅助完成系统综述(Systematic Mapping Study)的完整流程。研究证实,LLM能显著减少重复性任务时间并提升数据提取的标准化程度。然而,实践也面临三大挑战:构建可靠提示词需要大量迭代测试,可能抵消部分时间收益;模型存在“幻觉”现象;整个过程仍需持续的人工核查。文章为研究者提供了实用的经验教训与建议,强调了在采纳LLM提升效率时,必须同时考虑其方法学风险与局限性。

大语言模型系统综述证据合成人工智能辅助研究实践报告
cs 02-12 00:00

CrossTALK:通过跨模态纠缠攻击突破视觉语言模型的安全防线

本研究提出了一种名为CrossTALK的新型可扩展攻击方法,旨在突破具备多模态推理能力的视觉语言模型(VLMs)的安全对齐机制。该方法通过三个核心步骤实现:1)知识可扩展重构,将有害任务扩展为多跳链式指令;2)跨模态线索纠缠,将可视觉化的实体迁移至图像中以构建多模态推理链路;3)跨模态场景嵌套,利用多模态上下文指令引导模型生成详细的有害输出。实验表明,该方法在攻击成功率上达到了最先进的水平,揭示了当前VLMs安全防御在面对复杂、纠缠的跨模态攻击时存在的脆弱性。

多模态安全对抗攻击视觉语言模型红队测试跨模态推理模型越狱
cs 02-12 00:00

基于语义标签的第三方网络安全风险评估问卷组织与检索策略研究

本研究针对第三方风险评估中手动定制问卷效率低下的问题,探索了利用语义标签(描述控制域和评估范围)来组织和检索安全问题的策略。研究比较了两种方法:直接使用大语言模型进行问题级标注,以及一种混合半监督语义标注流程。后者先在嵌入空间对问题进行聚类,用LLM标注少量代表性子集,再通过k近邻算法将标签传播至其余问题。实验表明,当标签具有区分性和一致性时,语义标签能有效提升检索匹配度,且SSSL方法能以极低的LLM使用成本,将标签从少量样本泛化至大型问题库。

网络安全第三方风险评估语义标注大语言模型半监督学习信息检索
cs 02-12 00:00

基础可读性协议提升AI可信监控效果

针对AI控制研究中可信监控的失效问题,本文提出“可读性协议”,要求不受信任的强模型在执行任务时采取更易于监控模型评估的行动。研究在APPS代码生成场景中验证,允许模型用注释详细解释其代码(而非删除注释以防止欺骗)。结果表明:1)注释协议在保持任务性能的同时提升了安全性;2)注释对诚实代码的益处更大,因其有自然的解释可消除监控疑虑,而恶意代码常缺乏合理辩护;3)监控模型越强,从注释中获得的收益越大,因其能更好地区分真实解释与表面合理的辩解。

ai控制可信监控可读性协议代码安全对抗性ai模型对齐
cs 02-12 00:00

PRISM-XR:基于多模态大语言模型的隐私保护XR协作框架

本文提出PRISM-XR框架,旨在解决多模态大语言模型(MLLMs)赋能扩展现实(XR)协作时面临的隐私泄露与动态同步难题。该框架通过在边缘服务器进行智能帧预处理,过滤敏感信息(如信用卡、人脸)后再上传云端,实现隐私保护。同时,其轻量级注册与内容共享机制,能在保持空间误差小于$3.5\text{ cm}$、注册时间低于$0.27\text{ s}$的同时,满足近90%的用户请求。用户研究表明,系统能在超过90%的场景中自动过滤高敏感对象。

扩展现实隐私保护多模态大模型边缘计算协同交互
cs 02-12 00:00

MalMoE:基于专家混合的图漂移自适应加密恶意流量检测系统

针对加密流量检测中因载荷不可见及图结构随时间变化(图漂移)带来的挑战,本研究提出MalMoE系统。该系统采用专家混合(MoE)架构,设计多个类似1跳图神经网络(1-hop-GNN)的专家模型,分别处理不同特征的图漂移。通过重新设计的门控模型根据实际漂移动态选择最佳专家,并采用两阶段稳定训练策略与数据增强进行优化。实验表明,MalMoE能在公开、合成及真实数据集上实现精准、实时的恶意流量检测。

加密流量检测图神经网络专家混合模型图漂移恶意流量网络安全
cs 02-12 00:00

超越封闭视频检索:面向真实世界模糊记忆搜索的基准与智能体框架

传统视频检索基准依赖精确描述匹配封闭视频库,难以反映真实世界中基于开放网络、多维度模糊记忆的搜索场景。本研究提出了RVMS-Bench基准,包含1440个来自真实开放网络视频的样本,涵盖20个类别和四种时长,并采用包含全局印象、关键瞬间、时序上下文和听觉记忆的分层描述框架来模拟真实搜索线索。同时,研究团队提出了RACLO智能体框架,通过溯因推理模拟人类的“回忆-搜索-验证”认知过程,以应对基于模糊记忆的视频搜索挑战。实验表明,现有多模态大模型在此类真实世界任务中仍显不足。

视频检索模糊记忆搜索基准评测智能体框架多模态学习时序定位
cs 02-12 00:00

AD²:端到端自动驾驶系统视觉感知对抗威胁分析与检测

本研究对CARLA仿真环境中的先进端到端自动驾驶代理(Transfuser和Interfuser)进行了闭环评估,揭示了其在三种黑盒对抗攻击下的严重脆弱性:基于声波的物理模糊攻击、电磁干扰攻击以及添加“幽灵”物体的数字攻击。在最坏情况下,驾驶评分下降高达99%。为缓解此类威胁,作者提出了一种基于注意力机制的轻量级攻击检测模型AD²,该模型通过捕捉时空一致性,在多摄像头输入上实现了卓越的检测能力和计算效率。

自动驾驶安全对抗攻击视觉感知攻击检测注意力机制carla仿真
cs 02-12 00:00

MPA:多模态原型增强的小样本学习框架

本文提出了一种新颖的多模态原型增强小样本学习框架MPA,旨在解决传统方法仅依赖视觉模态、原型信息单一的问题。MPA包含三个核心模块:基于大语言模型的多变体语义增强(LMSE),通过生成多样化的类别描述来丰富语义信息;分层多视图增强(HMA),利用自然和多视图增强(如视角、光照变化)提升特征多样性;以及自适应不确定类吸收器(AUCA),通过插值和高斯采样引入不确定类以有效吸收不确定样本。在四个单域和六个跨域基准测试上的实验表明,MPA在多数设置下性能优于现有最优方法,尤其在5-way 1-shot设置下,单域和跨域性能分别领先第二名12.29%和24.56%。

小样本学习多模态学习原型增强大语言模型跨域学习不确定性建模
AI速览助手