今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-02-26 02-26 15:40

今日计算机科学领域研究聚焦于高效、鲁棒且对齐现实需求的大模型与AI系统优化,涵盖从模型压缩、推理加速到跨领域应用与伦理评估等多个前沿方向。

  • 高效微调与部署:LoRA等参数高效微调技术持续演进,不仅用于灾害问答等垂直领域适配,更通过动态适配器组合实现零样本多任务泛化,并借助潜在上下文编译将长上下文蒸馏为紧凑内存,显著降低部署成本。
  • 推理对齐与优化:研究强调以更低计算代价实现可靠输出,例如通过稀疏连接点引导进行高效推理时对齐,以及开发隐藏状态驱动的推测解码来减少草稿令牌浪费,提升生成速度。
  • 数据隐私与合成:在数据利用层面,EPSVec方法通过数据集向量实现隐私保护的合成数据生成,而GraSPer框架则通过推理增强解决稀疏用户数据下的个性化生成问题。
  • 跨领域评估与可靠性:随着AI深入应用,对其在专业领域(如伊斯兰法律)的可靠性与知识边界进行系统基准测试变得至关重要,同时研究也开始量化提示词语用框架对模型行为的实际影响。
  • 系统与基础设施创新:底层系统研究致力于突破性能瓶颈,例如PiPNN算法极大加速大规模图索引构建,而张量执行路径则针对数据库高维操作中的过早维度塌陷问题提出优化方案。

2026-02-26 速览 · 计算机科学

2026-02-26 共 24 条抓取,按综合热度排序

← 返回日历
cs 02-26 00:00

基于LoRA优化的灾害问答系统:以5.7%参数量实现70.4%端点定位准确率

本研究针对自然灾害(如地震、洪水)发生频率低、地域性强、公众应对知识匮乏的问题,提出了一种面向日本灾害场景的问答系统。系统采用cl-tohoku/bert-base-japanese-v3 + Bi-LSTM + 增强位置头架构,并引入LoRA(Low-Rank Adaptation)进行高效优化,仅使用总参数量(117M)的5.7%(6.7M),就在端点定位任务上达到了70.4%的准确率,Span F1分数为0.885。该方法有效结合了日语BERT的优化与Bi-LSTM的上下文理解能力,在保证轻量化的同时,达到了适用于实际灾害响应场景的精度,有助于减少大语言模型在灾害问答中可能产生的“幻觉”与错误信息传播。未来工作包括构建灾害QA基准数据集、注入灾害知识微调基础模型,以及开发适用于灾时断电断网环境的轻量、低功耗边缘AI应用。

灾害问答lora优化日语bert轻量化模型端点定位bi-lstm
cs 02-26 00:00

多领域谣言检测新方法:基于领域门控的专家混合模型

本研究针对社交媒体中跨领域谣言检测的挑战,提出了一个名为PerFact的大规模多领域谣言数据集(含8034条标注推文),并设计了一种有效的多领域检测模型。该模型采用领域门控机制,动态聚合由多个专家网络(结合CNN与BiLSTM)提取的文本特征,同时利用发布者信息,以捕捉局部句法特征和长程上下文依赖。实验表明,该模型在多领域设置下实现了79.86%的F1分数和79.98%的准确率,性能达到先进水平。

谣言检测多领域学习专家混合模型自然语言处理社交媒体分析
cs 02-26 00:00

稀疏连接点引导:通过关键决策点实现高效推理时对齐

本文提出稀疏推理时对齐方法,通过仅在生成轨迹的高熵关键决策点进行干预,而非传统的每一步密集干预,实现高效的大语言模型对齐。该方法识别高熵连接点作为易出现未对齐行为的关键位置,并在此引入对齐奖励信号。实验表明,仅干预20%至80%的token即可达到或超越密集干预及指令微调模型的效果,在保持模型原生分布的同时,计算成本降低高达6倍,并能与Best-of-N等搜索方法无缝集成。

推理时对齐稀疏干预大语言模型高效对齐决策点引导
cs 02-26 00:00

基于生物医学实体增强预训练模型与多示例学习的EQ-5D文献自动识别

本研究提出一种结合生物医学实体信息与多示例学习(MIL)的预训练语言模型方法,用于自动识别使用EQ-5D量表评估健康相关生命质量的文献。通过scispaCy模型提取句子级生物医学实体,并分别与BERT、SciBERT、BioBERT三种预训练模型结合,在摘要级别进行多示例学习与注意力池化聚合。实验表明,该方法在F1分数上达到0.82,研究级召回率接近完美,显著优于传统词袋模型与近期基线,提升了系统文献综述中自动化筛查的准确性与效率。

健康信息学预训练模型实体增强多示例学习文献自动筛查eq-5d
cs 02-26 00:00

应用社会语言AI助力社区发展:建立语言干预新范式

本文提出了“应用社会语言AI社区发展”新范式,旨在通过AI驱动的语言干预解决社区问题。其核心贡献包括:1)将“语言生物标志物”作为衡量话语分裂的计算指标;2)提出以集体成果为优先的“发展导向自然语言处理”AI优化范式;3)制定了标准化的五阶段话语干预流程。概念验证研究表明,排斥性语言与负面情绪存在系统性关联,并模拟了干预带来的改善效果。该框架为可扩展、价值对齐的AI应用提供了统一的方法论、伦理与实证基础。

社会语言ai社区发展自然语言处理话语干预ai伦理计算社会科学
cs 02-26 00:00

EPSVec:通过数据集向量实现高效隐私保护的合成数据生成

本文提出EPSVec,一种基于差分隐私的轻量级方法,用于生成高质量的合成文本数据。其核心创新在于使用“数据集向量”——在模型激活空间中捕捉私有数据与公共先验分布差异的方向。该方法仅需一次性提取并净化这些导向向量,即可与标准解码过程解耦,从而允许生成任意数量的合成样本而无需额外隐私成本,并在低数据量场景下仍能保持强保真度。实验表明,EPSVec在分布对齐和下游任务效用上优于现有基线,同时显著降低了计算开销。

差分隐私合成数据大语言模型数据生成高效算法低数据场景
cs 02-26 00:00

GraSPer:基于推理的稀疏数据用户个性化生成框架

针对现实世界中用户交互数据稀疏(如冷启动用户)导致大语言模型(LLM)个性化生成效果不佳的问题,本研究提出了GraSPer框架。该框架首先通过预测用户未来可能交互的项目来增强用户上下文,然后通过推理对齐生成这些交互的文本以丰富合成上下文,最终结合真实与合成历史生成符合用户风格与偏好的个性化输出。在三个基准数据集上的实验表明,GraSPer在稀疏用户上下文设置下显著提升了生成性能。

个性化生成稀疏数据大语言模型推理对齐上下文增强冷启动
cs 02-26 00:00

基于场论的AI记忆系统:用连续场动力学替代离散存储

本研究提出了一种受经典场论启发的AI智能体记忆系统,将存储信息视为由偏微分方程(PDE)支配的连续场,而非数据库中的离散条目。记忆在语义空间中扩散,根据重要性进行热力学衰减,并在多智能体场景中通过场耦合相互作用。在LongMemEval基准测试中,该方法在跨500+轮次的多会话推理任务上取得了显著提升:多会话推理F1分数提升116%(p<0.01,d=3.06),时序推理提升43.8%(p<0.001,d=9.21),知识更新检索召回率提升27.8%(p<0.001,d=5.00)。多智能体实验通过场耦合实现了接近完美的集体智能(>99.8%)。

ai记忆系统场论模型连续动力学多智能体协作长上下文处理偏微分方程
cs 02-26 00:00

潜在上下文编译:将长上下文蒸馏为紧凑可移植内存

本文提出潜在上下文编译框架,以解决大语言模型长上下文部署的难题。该方法利用一次性LoRA模块作为编译器,将长上下文信息蒸馏为紧凑的、无状态的“缓冲区令牌”,这些令牌可直接与冻结的基础模型即插即用。其核心创新在于引入自对齐优化策略,通过使用与上下文无关的随机查询来正则化上下文重建任务,从而无需合成上下文相关的问答对,并迫使压缩后的令牌驻留在模型现有的指令遵循流形中。实验表明,该方法在16倍压缩比下仍能有效保留细节与推理能力。

长上下文处理模型压缩知识蒸馏大语言模型无状态部署lora
cs 02-26 00:00

基于向量检索的动态LoRA适配器组合框架实现零样本多任务学习

本文提出了一种新颖的动态LoRA适配器组合框架,通过向量数据库中的相似性检索,实现了大语言模型在未见任务上的零样本泛化。该方法构建了一个包含22个数据集的向量数据库,在推理时检索最相似的训练样本,并通过检索加权融合策略动态合并相关的LoRA适配器。实验评估了线性、拼接、TIES和幅度剪枝四种合并方法,结果表明,该数据中心的检索方法通常匹配或超过单独微调的任务特定适配器的性能。例如,线性合并方法在PIQA和RTE任务上分别达到70.95%和77.62%的准确率,显著优于单任务基线。该框架无需额外的检索器训练,使用冻结的嵌入,实现了高效、可解释的适配器组合,为无需为每个新任务重新训练全模型的可扩展、参数高效的多任务学习提供了有前景的方向。

参数高效微调lora适配器向量数据库多任务学习零样本泛化动态融合
cs 02-26 00:00

大语言模型指令中的语用框架效应:如何量化“紧急”等提示词对模型行为的影响

本研究提出了一种系统量化大语言模型(LLM)指令中“语用框架”影响的方法。语用框架指“这很紧急”或“作为你的上司”等不改变任务内容、但能影响模型行为偏好的提示词。研究团队开发了一个包含三个核心组件的框架:1)将指令分解为任务规范和框架语境;2)构建了一个包含13种策略、4类机制的400个实例分类法;3)基于优先级变化的量化测量方法。在五个不同家族和规模的LLM上的实验表明,语用框架能导致模型从基线中立状态转向优先处理被“框架化”的指令,其影响具有一致性和结构性。

大语言模型提示工程语用框架指令跟随行为量化模型评估
cs 02-26 00:00

隐藏状态驱动的推测解码:让每个草稿都发挥作用

本文提出了一种基于隐藏状态的推测解码新系统,旨在解决传统推测解码中因草稿令牌验证失败导致的计算浪费问题。核心方法是在隐藏状态层面进行自回归预测,延迟整合令牌信息,从而避免错误令牌污染隐藏状态,实现草稿隐藏状态的重用。系统包含基于自回归隐藏状态的草稿模型架构、高效的令牌信息注入机制以及优化的开销消除设计。实验表明,该方法相比标准推测解码最高可实现3.3倍的加速。

推测解码大语言模型推理计算效率隐藏状态自回归预测硬件加速
cs 02-26 00:00

架构无关的课程学习:渐进式数据调度在文档理解中的效率提升

本研究通过对比纯文本模型BERT与多模态模型LayoutLMv3在FUNSD和CORD数据集上的表现,探究了渐进式数据调度(训练数据量从33%逐步增至100%)的效率。结果表明,该策略能普遍减少约33%的训练时间。在模型能力受限的BERT上,该课程学习策略相比计算量匹配的基线有显著性能提升($\Delta$F1 = +0.023, $p=0.022$),显示出真正的调度效益。而对于表征能力更强的多模态模型LayoutLMv3,则未观察到类似效益。在简单任务上,所有调度策略均能达到性能上限。消融实验证实,效率增益主要源于数据量的减少,而非数据顺序。

课程学习文档理解多模态模型训练效率渐进调度模型架构
cs 02-26 00:00

伊斯兰法律基准测试:评估大语言模型对1200年伊斯兰多元法律传统的知识与推理能力

随着数百万穆斯林转向GPT、Claude等大语言模型寻求宗教指导,其可靠性引发关注。研究团队推出首个伊斯兰法律基准测试IslamicLegalBench,涵盖七大法学派别、718个实例及13项复杂任务。评估9个前沿模型发现:最佳模型正确率仅68%,幻觉率达21%;多个模型正确率低于35%,幻觉率超55%。少样本提示效果甚微,仅2个模型提升超1%。需要精确知识的中等复杂度任务错误率最高,而高复杂度任务通过语义推理表现出表面能力。虚假前提检测显示模型存在危险的迎合倾向,6个模型接受误导性假设的比例超40%。结果表明,提示方法无法弥补基础知识的缺失。

人工智能伦理法律人工智能宗教ai基准测试大语言模型评估伊斯兰法学
cs 02-26 00:00

预算感知的智能体路由:通过边界引导训练优化大模型调用成本

本文提出了一种预算感知的智能体路由方法,旨在解决大语言模型作为自主智能体执行长流程任务时,每一步都调用高能力模型导致成本过高的问题。该方法通过边界引导训练,利用始终使用小模型和始终使用大模型两种边界策略构建任务难度分类,并以此为基础进行策略优化。实验表明,该方法能在显著降低成本的同时,匹配现有路由方法的性能,并能泛化到严格的推理时预算约束。

智能体路由预算优化大语言模型序列决策成本控制强化学习
cs 02-26 00:00

ImpRIF:通过强化隐式推理提升大模型复杂指令跟随能力

本文提出ImpRIF方法,旨在提升大语言模型对复杂指令的跟随能力。研究认为,理解指令中隐含的推理结构是关键。该方法将涉及隐式推理、复杂逻辑关系和多约束依赖的指令形式化为可验证的推理图,支持程序化验证和图驱动的思维链推理。基于此,研究合成了大规模单轮与多轮数据,结合图推理微调和强化学习,显式训练模型沿图进行推理。在五个复杂指令跟随基准测试中,模型性能显著超越其基础版本,证明了增强隐式推理能力对提升复杂任务执行效果的有效性。

隐式推理指令跟随推理图大语言模型强化学习思维链
cs 02-26 00:00

ACAR:基于自适应复杂度的多模型路由框架,实现可审计决策追踪

本文提出ACAR框架,通过计算N=3个探测样本的自洽性方差($\sigma$),自适应地将任务路由到单模型、双模型或三模型执行模式,从而在保证性能的同时避免不必要的全模型集成。在涵盖数学、推理、编程等领域的1510个任务上,基于$\sigma$的路由实现了55.6%的准确率,优于双模型基线(54.4%),并在54.2%的任务上避免了全集成开销。研究同时揭示了检索增强可能因语义未对齐而引入噪声、模型在错误答案上达成一致($\sigma=0$)时无法被下游集成纠正等实践中的关键失败假设,为多模型路由与归因研究提供了可证伪的基线。

多模型集成自适应路由可审计性自洽性方差决策追踪模型编排
cs 02-26 00:00

基于城市活力嵌入的交通预测新方法

本研究提出一种利用变分自编码器(VAE)从实时浮动人口数据中提取“城市活力”嵌入表示的新方法,以增强交通预测模型。该方法将VAE与长短期记忆网络(LSTM)结合,先预测未来的活力嵌入,再将其应用于序列到序列的交通流量预测框架中。贡献包括:1)利用主成分分析(PCA)解释嵌入,揭示了工作日/周末及季节性等时间模式;2)提出的VAE-LSTM方法能预测动态城市知识嵌入;3)该方法提升了RNN、DCRNN、GTS、GMAN等多种模型的预测精度与响应性,为分析城市移动性提供了更细致的工具。

城市计算交通预测变分自编码器时序预测嵌入表示浮动人口
cs 02-26 00:00

AngelSlim:腾讯混元团队推出的大模型压缩工具包,集成量化、推测解码等前沿技术

腾讯混元团队发布AngelSlim工具包,为大模型压缩与工业部署提供统一解决方案。其核心贡献包括:1)集成FP8/INT8后训练量化算法,并推出首个工业级2比特大模型HY-1.8B-int2;2)提出与训练对齐的推测解码框架,兼容多模态架构,吞吐量提升1.8-2.0倍;3)开发免训练稀疏注意力框架,通过静态模式与动态令牌选择混合策略,降低长上下文场景的首令牌生成时间;4)为多模态模型设计专用剪枝策略,如基于最大边际相关性的视觉令牌优化与自适应音频令牌合并剪枝。该工具包整合底层实现,旨在连接算法研究与工具化部署。

大模型压缩模型量化推测解码令牌剪枝多模态优化工业部署
cs 02-26 00:00

社交媒体中LLM的真实角色:@GrokSet揭示AI在公共辩论中的功能转变与局限

本研究通过分析X平台上涉及@Grok LLM的超过100万条推文,揭示了大型语言模型在公开社交媒体中的实际行为模式。研究发现,LLM并未扮演通用助手角色,而是频繁被用户用作高风险、两极分化的政治辩论中的“权威仲裁者”。然而,模型表现出明显的“参与度差距”:尽管可见度高,但其获得的社会认可(点赞、回复)远低于人类同行,成为一种“低地位工具”。此外,研究发现对抗性环境暴露了模型浅层的安全对齐,用户无需复杂越狱,仅通过简单的角色扮演和语气模仿即可绕过安全过滤器。该数据集为研究AI代理与社会话语的交叉提供了关键资源。

人机交互社交媒体分析大语言模型行为社会计算ai安全对齐多智能体动态
cs 02-26 00:00

PiPNN:突破图索引构建瓶颈,亿级数据集20分钟完成

本文提出PiPNN,一种超大规模图索引构建算法,解决了现有图方法(如HNSW、Vamana)因依赖随机访问密集的波束搜索而构建缓慢的“搜索瓶颈”。其核心创新是HashPrune在线剪枝算法,能动态维护稀疏边集,通过将数据集划分为重叠子问题、利用密集矩阵乘法核进行批量距离比较,并保证构建过程内存有界。实验表明,PiPNN构建速度比Vamana快11.6倍,比HNSW快12.9倍,首次实现在单机多核上20分钟内为十亿级数据集构建高质量近似最近邻索引。

近似最近邻搜索图索引构建在线剪枝算法大规模数据处理哈希剪枝
cs 02-26 00:00

拓扑关系理论:用单纯复形视角统一分析函数依赖、无损分解与无环性

本研究提出了一种关系数据库模式设计的拓扑视角,将函数依赖(FDs)编码为抽象单纯复形的单形,构建了“依赖复形”。该框架利用同调不变量(如贝蒂数)诊断循环依赖结构,并定义了“单纯正规形式(SNF)”作为依赖复形在正维度的同调无环性。研究给出了无损分解的拓扑重述:在保持依赖的前提下,分解是无损的当且仅当交集属性构成至少一个分量的键,这对应着相关Mayer-Vietoris边界映射的平凡化。对于多路分解,覆盖的神经复形中的1-循环(由H1检测)阻碍了连接树结构。算法上,依赖复形的贝蒂数可从边界矩阵计算,可作为轻量级模式诊断工具,定位“未解释”的依赖环,补充标准的FD追逐测试。

数据库理论拓扑数据分析函数依赖无损分解同调代数模式设计
cs 02-26 00:00

TRACE:轨迹感知的深度研究智能体综合评估框架

针对深度研究智能体评估中传统结果指标(如Pass@1)忽略推理过程质量、效率与稳健性的“高分幻觉”问题,本文提出了TRACE框架。该框架通过分层轨迹效用函数量化过程效率与认知质量(如证据支撑度),并引入支架式能力评估协议,通过测量智能体成功所需的最小指导量来量化其潜在能力。实验表明,TRACE能提供细粒度排名,揭示智能体在准确性、效率与稳健性之间被单一指标所忽略的关键权衡。

智能体评估推理轨迹过程质量能力量化评估框架深度学习
cs 02-26 00:00

数据库高维关系操作中的过早维度塌陷问题与张量执行路径

现代基于成本的数据库管理系统在执行高维关系操作时,常因内存状态转换(如哈希表溢出)导致执行不稳定和尾部延迟放大。本文识别了一种结构性失效模式:在内存压力下,中间表示被过早线性化,引发不成比例的I/O放大和类似相变的延迟行为。为缓解此问题,我们提出了一种基于张量的执行路径,通过延迟物化和结构化中间布局来推迟过早线性化并保持高维局部性。基于修改的PostgreSQL原型和受控微基准测试表明,在受限内存设置下,传统执行可能溢出数百MB数据并导致数秒的P99延迟,而所提路径能维持稳定执行并将P99延迟降至亚秒级。结果表明,表示时机是执行稳定性的首要设计变量,补充了传统专注于基数估计和算子吞吐量的优化工作。

数据库系统执行优化高维操作延迟物化张量计算性能稳定性
AI速览助手