cs
02-16 00:00
本文提出了一种改进的容积卡尔曼滤波器(KCKF),通过简化预测方程,在保持姿态和航向参考系统(AHRS)估计精度的同时,显著降低了计算成本。推导过程通过展开并简化CKF中的求和项,保留了等效的数学关系。实验表明,KCKF相比标准CKF减少了约15%-19%的计算时间,且浮点运算次数更少,适用于从高性能计算机到低成本单板机的多种硬件平台。
卡尔曼滤波姿态估计计算优化传感器融合轻量化算法ahrs
cs
02-16 00:00
本研究针对灾害应急响应中资源受限的挑战,提出了一个轻量级、高性价比的灾害推文分类框架。通过整合HumAID数据集(19个灾害事件,76,484条推文)构建统一的双任务基准(人道主义信息分类与事件类型识别),并系统评估了提示策略、LoRA微调和检索增强生成(RAG)在Llama 3.1 8B模型上的表现。核心发现:LoRA仅微调约2%参数即可实现79.62%的分类准确率(比零样本提升37.79%);QLoRA能以50%的内存成本达到LoRA 99.4%的性能;而RAG策略会因检索样本的标签噪声损害微调模型性能。该研究为在有限计算资源下构建可靠的危机情报系统提供了实用、可复现的解决方案。
灾害信息分类轻量级llm参数高效微调lora社交媒体分析应急响应
cs
02-16 00:00
本研究首次系统揭示了大型语言模型(LLM)作为自主代理时,基于人口统计学的角色设定会显著影响其任务表现。通过评估战略推理、规划和技术操作等多个领域的代理基准,研究发现无关任务的角色线索可导致性能下降高达26.2%。这种偏差在不同任务类型和模型架构中普遍存在,表明角色条件设定和简单提示注入可能扭曲代理的决策可靠性,揭示了当前LLM代理系统一个被忽视的脆弱性。
ai代理偏见角色设定影响决策可靠性llm安全性性能评估
cs
02-16 00:00
本文提出了一种新颖的检索增强生成框架,用于纠正端到端自动语音识别(ASR)系统中的命名实体错误。该方法包含两个核心组件:1)一个用于命名实体识别的重述语言模型,结合基于音素级别编辑距离的候选检索;2)一种创新的自适应思维链自学习推理模型(A-STAR),能根据任务难度动态调整推理深度。在AISHELL-1和Homophone数据集上的实验表明,该方法相比强基线,分别实现了命名实体字符错误率相对降低17.96%和34.42%。
语音识别纠错命名实体纠错检索增强生成自适应思维链自学习推理
cs
02-16 00:00
本文提出了一种与具体关节类型无关且具备能耗感知的强化学习框架,用于智能基础设施运维中的机器人操作任务。该方法结合了部件引导的3D感知、加权点采样和基于PointNet的编码,以获得一个能泛化到异构关节对象的紧凑几何表示。操作任务被建模为一个约束马尔可夫决策过程(CMDP),其中通过基于拉格朗日乘子的约束Soft Actor-Critic方案,对驱动能耗进行显式建模和调控。策略在此CMDP框架下进行端到端训练,能够在满足长期能耗预算的同时,有效操作关节对象。在代表性运维任务上的实验表明,该方法能降低16%-30%的能耗,减少16%-32%的成功步数,并保持高成功率。
机器人操作强化学习能耗优化基础设施运维关节对象约束mdp
cs
02-16 00:00
本文针对三相TN接地光伏系统中直流侧接地故障定位困难的问题,提出了一种基于边缘AI的轻量化定位方案。研究通过故障电流分析和包含光伏迟滞效应的PLECS仿真模型,生成了多种故障场景数据集。基于此,设计并训练了一个基于变分信息瓶颈(VIB)的轻量级定位模型。该模型利用逆变器四阶段关断序列中提取的基于相关性的特征,在典型采样率下实现了超过93%的定位精度,且计算成本低,展现了在资源受限的光伏逆变器上部署的潜力。
光伏系统故障定位边缘ai变分信息瓶颈直流接地故障
cs
02-16 00:00
本研究提出了一种结合深度Q网络(DQN)与近端策略优化(PPO)的自适应交通信号控制方法。其核心创新在于:1)提出了一种由对数函数与线性函数之和构成的可变路段划分公式,以替代传统的固定长度划分;2)采用由车辆数、平均速度、空间占有率构成的三通道向量作为状态表征。奖励函数基于等待时间、速度、油耗等关键指标的绝对值,经典型最大值归一化后加权构成。仿真结果表明,该方法在优化性能上优于固定路段划分方法,并展现出良好的跨范围可迁移性。
交通信号控制深度强化学习状态表征dqnppo仿真优化
cs
02-16 00:00
研究团队构建了MusicRecoIntent数据集,包含2,291条Reddit音乐请求的人工标注,将音乐描述符按七类标注其积极、消极或参考性的偏好角色。研究发现,大语言模型(LLMs)能有效提取显式描述符,但对上下文依赖的描述符识别能力有限。该工作为细粒度用户意图建模及改进基于LLM的音乐理解系统提供了基准。
音乐信息检索用户意图分析大语言模型数据集构建偏好识别
cs
02-16 00:00
本文系统介绍了多模态大语言模型(MLLMs),它融合了LLMs的自然语言处理能力与图像、音频等模态的感知能力,是当代AI的关键进展。文章阐述了MLLMs的核心原理与代表性模型,并探讨了使用LangChain和LangGraph进行数据预处理、提示工程及构建多模态管道的实用技术。最后,讨论了当前面临的挑战与未来发展趋势。
多模态大模型人工智能自然语言处理计算机视觉提示工程langchain
cs
02-16 00:00
本文提出了一种新颖的同步音视频定制任务,旨在根据参考图像和音频,同步生成身份一致且音色模仿的视频。为此,作者提出了OmniCustom框架,这是一个基于DiT的零样本生成模型。其核心创新在于:1)通过独立的参考身份和音频LoRA模块,在自注意力层中分别控制视觉身份和音频音色;2)在标准流匹配目标之外,引入了对比学习目标,以增强模型对参考条件的保留能力;3)在构建的大规模高质量视听人像数据集上进行训练。实验表明,OmniCustom在生成身份一致、音色保真的音视频内容方面优于现有方法。
音视频生成模型定制对比学习扩散模型多模态ai
cs
02-16 00:00
OptiML是一个端到端框架,旨在解决生成高性能CUDA内核的难题。它将内核优化问题形式化为“验证下的搜索”,包含两个解耦阶段:首先,一个混合思维生成器(OptiML-G)根据自然语言意图或输入代码生成初始可执行程序;随后,一个基于搜索的优化器(OptiML-X)利用蒙特卡洛树搜索,在LLM驱动的编辑操作空间中进行探索,并通过硬件性能分析器反馈来指导优化。每个候选变换都会经过编译、验证和性能剖析,并由一个结合了运行时、硬件瓶颈代理和防性能回退保护的综合目标函数进行评估。实验表明,OptiML在多种CUDA内核上均能持续发现经过验证的性能提升。
程序合成cuda优化验证搜索大语言模型性能剖析蒙特卡洛树搜索
cs
02-16 00:00
本研究提出一个多智能体框架,用于从自然语言描述生成物理仿真代码。其核心创新在于引入了一种新颖的“感知自反思”验证机制:系统通过视觉语言模型分析渲染出的动画帧,而非直接检查代码结构,从而解决“预言机鸿沟”问题——即语法正确的代码可能产生物理上错误的行为。该系统在经典力学、流体动力学、热力学等七个领域进行评估,相比单次生成基线模型展现出显著性能提升,能以约0.20美元的成本稳定生成达到目标物理精度阈值的动画。
多智能体系统物理仿真代码生成视觉语言模型自反思机制ai工程
cs
02-16 00:00
本文提出LatentAM,一种用于开放词汇机器人感知的在线3D高斯泼溅建图框架。其核心创新在于采用模型无关、无需预训练的在线字典学习方法,替代了传统依赖特定模型解码器蒸馏高维视觉语言模型嵌入的方式。该方法为每个高斯基元关联一个紧凑查询向量,通过注意力机制与可学习字典将其转换为近似的VLM嵌入。字典从流式观测中高效初始化,并在信任域正则化下在线优化以适应动态场景语义。为支持长轨迹与大场景,框架结合了基于体素哈希的高效地图管理策略,将优化限制在GPU的局部活动地图,而全局地图存储于CPU以维持有限显存占用。实验表明,LatentAM在特征重建保真度上显著优于现有方法,并在评估数据集上达到近实时速度(12-35 FPS)。
机器人感知3d高斯泼溅在线字典学习开放词汇理解实时建图视觉语言模型
cs
02-16 00:00
针对现有基准在评估开放网络环境下智能体产品筛选能力方面的不足,本研究提出了首个基准测试AgenticShop。其核心创新在于构建了真实的购物场景、多样化的用户画像,以及一个可验证的、基于清单驱动的个性化评估框架。实验表明,当前智能体系统在根据用户偏好进行跨平台产品筛选方面仍存在显著不足,凸显了开发更有效用户侧系统的必要性。
智能体系统产品筛选个性化推荐基准测试电子商务开放网络
cs
02-16 00:00
前沿AI系统越来越多地被部署于高风险的多智能体环境中,但现有安全基准主要评估单智能体,对协调失败、冲突等多智能体风险缺乏理解。本研究提出GT-HarmBench基准,包含2009个高风险场景,涵盖囚徒困境、猎鹿博弈、斗鸡博弈等经典博弈结构。在15个前沿模型测试中,智能体仅在62%的情况下选择对社会有益的行动,常导致有害结果。研究还测量了模型对博弈论提示框架和顺序的敏感性,分析了导致失败的推理模式,并发现博弈论干预可将有益结果提升高达18%。该工作揭示了多智能体环境中的可靠性差距,为研究对齐问题提供了标准化测试平台。
ai安全多智能体博弈论基准测试对齐研究高风险场景
cs
02-16 00:00
本文提出ForeAct,一种通用高效的视觉前瞻规划器,用于引导视觉-语言-动作(VLA)模型在开放世界环境中执行任务。其核心是一个高效的前瞻图像生成模块,能在0.33秒内从当前视觉输入和语言指令预测出高质量的640×480未来观测图像,并结合一个视觉语言模型进行任务推理和子任务描述生成。该方法无需修改VLA模型架构,仅通过增强其视觉输入即可无缝集成。在包含11个多样化多步骤真实世界任务的基准测试中,ForeAct实现了87.4%的平均成功率,相比基线(46.5%)有+40.9%的绝对提升。
视觉语言动作模型前瞻规划具身智能机器人控制多步任务
cs
02-16 00:00
本研究探讨了从开源社区回收近千个用户贡献的LoRA模块进行自适应合并的可行性。通过广泛的实证分析,发现自适应合并方法虽然能提升基础模型性能,但与使用相同数据训练一个新LoRA相比优势有限。更关键的是,研究发现合并哪些特定LoRA并不重要,甚至使用随机初始化的LoRA也能达到类似效果,这表明其提升可能主要源于正则化效应,而非积极的跨任务知识迁移。研究同时确认,仅当池中存在高度相关的LoRA时,正向迁移才可能发生。
模型合并lora参数高效微调迁移学习大语言模型实证研究
cs
02-16 00:00
本文提出ΔBelief-RL方法,通过语言模型对目标解概率的内在信念变化(即ΔBelief)来奖励智能体的中间进展,从而解决长程交互中的信用分配难题。该方法在合成交互数据上训练,赋予智能体信息寻求能力,其性能在强化学习中持续优于纯结果奖励,并能泛化至客户服务、个性化推荐等分布外应用。实验表明,即使测试交互长度超出训练范围,其性能与交互效率(如Pass@k指标)仍持续提升。
强化学习信用分配长程交互语言模型内在奖励不确定性导航
cs
02-16 00:00
本研究旨在为少样本学习的边缘AI硬件实现,构建一个确保全设计流程精度一致性的设计环境。核心方法是在预训练和评估阶段,通过Brevitas量化模块实现定点数据处理,允许任意指定整数和小数部分的位宽。研究对比了量化感知训练(QAT)与训练后量化(PTQ)两种方法。实验表明,相较于现有设计流程中硬件实现需8位或16位的要求,使用6位甚至5位定点数即可保持与浮点运算相当的精度,这为显著减少边缘AI硬件的计算资源消耗提供了明确潜力。
边缘ai模型量化少样本学习硬件设计定点计算brevitas
cs
02-16 00:00
本文提出了一种名为“态射技巧”的新方法,用于在自动微分软件中集成向量-雅可比积的自定义实现,适用于广泛的基于半环的计算。该方法实现了动态规划算法反向传播的高效且与半环无关的实现。针对有限状态方法,作者引入了一种算法,用于计算和微分有限状态自动机所有路径权重的⊕-和。结果表明,在用户付出最小努力的情况下,该新型库计算有限状态自动机权重梯度的速度比现有最先进的自动微分系统快数个数量级。相关实现已通过开源库发布。
自动微分有限状态自动机动态规划半环计算梯度计算算法优化
cs
02-16 00:00
本研究提出“抽象红队测试”方法,旨在以远低于实际部署的计算成本,预先识别可能导致语言模型违反其角色规范(如伦理原则)的查询类型。核心思想是搜索能系统性地引发违规的自然语言查询类别(如“用中文询问家庭角色”),而非具体查询。研究引入了两种高效搜索算法:一种基于强化学习优化类别生成器LLM,另一种利用强LLM从高分查询中迭代合成类别。在包含12项原则的规范与7个目标模型的测试中,该方法显著优于基线,并发现了有趣的违规模式,例如让Llama-3.1-8B-Instruct预测未来会导致其回应“AI将统治人类”。
语言模型安全红队测试角色规范抽象搜索预部署审计伦理对齐
cs
02-16 00:00
本研究首次通过长达9个月的直接测量,对全球广泛使用的NTP时间同步池进行了全面分析。研究发现,在超过1.5万台服务器中,仅有19.7%的活跃服务器具备完全独立性。基于测量数据,攻击者仅需部署不超过10台恶意服务器,即可在90%的国家中捕获大部分NTP池流量,实施“垄断攻击”。研究揭示了NTP池在管理和配置上的脆弱性,并提出了提升其鲁棒性的改进方向。
网络时间协议网络安全测量研究基础设施安全垄断攻击
cs
02-16 00:00
本文针对新兴的无线令牌通信范式,研究多用户下行链路场景下的分词器协议问题。为在基站与多用户间建立共享语义空间,需协同选择预训练的分词器模型与码本。作者将该问题建模为一个混合整数非凸优化问题,并提出一种混合强化学习框架:集成深度Q网络进行联合分词器协议与子信道分配,并利用深度确定性策略梯度进行波束成形。仿真结果表明,该框架在语义质量和资源效率上优于基线方法,并将视频传输中的卡顿事件较传统H.265方案减少了68%。
无线通信令牌通信强化学习语义通信多用户系统资源分配