cs
02-17 00:00
针对可验证奖励强化学习(RLVR)中训练信号难以扩展的瓶颈,本研究提出SSLogic框架。该框架通过一个封闭的“生成-验证-修复”循环,迭代合成并修复可执行的生成器-验证器程序对,实现了在任务族层面的规模化扩展,并能控制任务难度。为确保可靠性,引入了结合多策略一致性检查和对抗性盲审的多门验证协议。从400个种子任务族出发,经过两轮演化扩展至953个族和21,389个可验证实例。在演化数据上训练的模型,在SynLogic、BBEH、AIME25和Brumo25等基准上均取得显著提升。
逻辑推理元合成智能体可验证奖励任务演化程序合成
cs
02-17 00:00
本文提出了Quest Graph形式化框架,用于分析有限上下文智能体系统的计算能力。研究发现:基础Quest Graph等价于图灵机;广泛使用的前向有限Quest决策过程仅等价于下推自动机(上下文无关);而仅当允许有状态查询时,引用增强型QDP才能重获图灵完备性。通过模拟计算图中的任务依赖关系,研究进一步证明该计算层次结构会转化为具体的性能权衡:在模拟复杂图时,引用增强型(图灵完备)系统可比非增强型(上下文无关)系统实现指数级效率提升。
智能体系统计算理论形式化框架图灵完备性计算效率任务依赖
cs
02-17 00:00
本研究提出了一种基于嵌入空间几何特征的幻觉分类法,将大语言模型的幻觉分为三类:不忠实(未利用上下文)、虚构(生成语义无关内容)和事实错误(在正确概念框架内做出错误断言)。研究发现,针对模型生成的幻觉,检测具有领域局部性(域内AUROC 0.76-0.99,跨域降至0.50),而针对人工构造的虚构内容,存在一个全局判别方向(AUROC 0.96)。研究揭示了嵌入检测的局限性:前两类幻觉可被检测,而第三类因嵌入编码的是共现模式而非外部事实对应关系,其检测AUROC仅为0.478,与随机猜测无异,需依赖外部验证机制。
大语言模型幻觉分类嵌入空间几何特征事实核查模型评估
cs
02-17 00:00
本文提出了一种名为VaryBalance的LLM生成文本检测方法。其核心思想在于:人类文本与通过LLM重写后的版本之间的差异,远大于LLM生成文本与其重写版本之间的差异。该方法通过计算文本变异的平均标准差来量化这种差异,从而有效区分人类文本与AI生成文本。实验表明,VaryBalance在AUROC指标上比当前最优检测器Binoculars高出34.3%,并在多种生成模型和语言上保持了鲁棒性。
文本检测大语言模型人工智能安全文本变异鲁棒性
cs
02-17 00:00
本文提出了一种用于6G网络切片编排、监控与交易的智能体AI控制平面架构。该架构将编排视为一个涵盖切片规划、部署、持续监控及经济化决策的整体控制功能,通过多层协作的AI智能体实现。其核心创新在于集成了市场感知的编排能力,允许在编排决策中联合考虑切片需求、定价与可用性;并采用基于模型上下文协议的自然语言接口,支持用户通过意图查询进行交互。为确保负责任且可解释的自主性,控制平面整合了由专用推理模型管理的微调大语言模型多模型联盟。在集成Open5GS与爱立信RAN的真实测试床上的评估结果表明,该结合了智能体自主性、闭环SLA保障、市场感知编排及自然语言控制的方法,能够实现可扩展、自适应的6G原生切片管理。
6g网络网络切片ai智能体编排控制意图驱动市场感知
cs
02-17 00:00
本文提出,人工智能系统在长期适应性上的停滞,根源并非学习、数据或模型能力的不足,而在于优化过程本身的结构性限制。作者将智能重新定义为一种受多目标权衡支配的轨迹层面现象,并引入了“轨迹主导的帕累托优化”框架。该框架将经典帕累托最优性推广到完整的发展路径上,揭示了“帕累托陷阱”——即轨迹空间中局部非支配、却阻碍系统到达全局更优发展路径的区域。为量化这种约束的刚性,作者定义了“陷阱逃离难度指数(TEDI)”,该指数综合了逃离距离、结构约束和行为惯性。研究表明,动态智能上限是轨迹层面支配关系的必然几何结果,与学习进展或架构规模无关。文章还通过一个最小智能体-环境模型,展示了由此产生的轨迹层面分叉。这些成果将智能研究的焦点从终端性能转向了优化几何,为诊断和克服自适应系统中的长期发展约束提供了原则性框架。
人工智能理论优化几何帕累托最优长期适应性发展轨迹多目标优化
cs
02-17 00:00
本研究通过仿真探讨了人工智能辅助的无人机蜂窝网络信道自适应技术。系统模型包含地面基站、空中中继无人机和用户集群。研究核心在于利用基于线性回归的轻量级监督机器学习方法,实现认知信道自适应。AI模型根据数据包级别的性能指标(如误码率和有效数据速率),实时调整事务大小,以应对动态变化的干扰环境。研究开发了定制仿真环境,用于生成数据集并评估静态与自适应配置下的系统性能。
无人机通信信道自适应机器学习线性回归网络仿真蜂窝网络
cs
02-17 00:00
本研究提出了一种用于无人机自组织网络的流量仿真模型,并展示了利用人工智能自适应调整通信信道的方法。研究基于包含20架无人机的原始网络模型,分析了数据包丢失率与数据包大小(在不同发射功率和频率下)、无人机飞行区域以及无人机数量之间的依赖关系。论文还提供了自适应数据传输的程序实现,并展示了在AI自适应过程中,数据包丢失率、功率和事务大小随时间的变化关系。
无人机网络自组织网络流量仿真ai自适应通信优化包丢失分析
cs
02-17 00:00
本文提出“对抗性网络想象”闭环框架,旨在将电信网络运维从被动响应转向主动防御。该框架整合了因果大语言模型、知识图谱与数字孪生技术:因果大模型基于知识图谱中的网络依赖关系,生成结构化的潜在故障场景(如光纤切断、流量过载);数字孪生则对这些场景进行模拟执行,量化性能退化并评估缓解策略;通过仿真反馈迭代优化场景,实现对网络故障的预见性韧性分析。
数字孪生因果大模型网络韧性主动防御故障模拟知识图谱
cs
02-17 00:00
本研究针对移动自组网(MANETs)面临的黑洞、洪泛等安全威胁,提出了一种混合安全路由协议(HSRP)。该协议融合了信任机制与密码学方法,并综合了主动与被动路由策略的优势,能够动态适应网络变化并抵御恶意攻击。通过NS-2仿真验证,HSRP在多种攻击场景下相比传统协议,能有效提升网络吞吐量、降低时延,增强了数据传输的安全性与路由效率,为军事、应急通信等关键领域提供了可行的安全路由方案。
移动自组网安全路由混合协议信任机制网络仿真抗攻击
cs
02-17 00:00
本研究提出了一种主动式安全约束强化学习框架,将证明携带控制与赋能预算执行相结合,以解决关键任务无线应用中AI行为的安全风险。该框架通过轻量级数学证书验证每个智能体动作,确保其符合干扰约束,同时利用赋能预算调节安全覆盖的频率,以平衡安全性与自主性。在无线上行链路调度任务上的仿真结果表明,该方法在消除不安全传输的同时,保持了系统吞吐量和可预测的自主性,为未来6G网络中的可信无线自主提供了潜在解决方案。
安全强化学习无线自主6g网络证明携带控制赋能预算上行链路调度
cs
02-17 00:00
本文探讨了利用大语言模型(LLM)增强强化学习(RL)以优化6G无线网络。针对RL在高维状态空间和复杂环境中面临的计算量大、结果不一致等挑战,研究提出利用LLM的预训练知识和推理能力来辅助RL。具体方法包括LLM辅助的状态表示与语义提取,以增强多智能体强化学习框架,并将其应用于服务迁移、请求路由以及无人机-卫星网络的拓扑图生成。案例研究表明,该框架能有效优化无线网络性能。
大语言模型强化学习6g网络优化多智能体系统无线网络语义提取
cs
02-17 00:00
本文提出MA-DHRL-OM方法,以解决传统覆盖组播(OM)因无法感知物理资源状态而难以适应动态流量,以及现有强化学习方法因无法解耦OM的紧耦合多目标特性而导致的高复杂度、收敛慢和不稳定的问题。该方法利用SDN的全局视图构建流量感知模型,并通过分层智能体将OM树构建分解为两个阶段,有效减少了动作空间并提升了收敛稳定性。多智能体协作在平衡多目标优化的同时,增强了系统的可扩展性和适应性。实验表明,该方法在延迟、带宽利用率和丢包率方面均优于现有方法,且收敛更稳定、路由更灵活。
覆盖组播多智能体强化学习网络态势感知软件定义网络分层决策路由优化
cs
02-17 00:00
本研究提出了一种名为UAVGENT的三层架构,用于实现具有形式化鲁棒性保证的语言引导多无人机控制。该框架允许操作员下达自然语言指令,由基于大语言模型(LLM)的监督器在最新状态和目标估计的背景下周期性地解释、验证和修正任务,最终由仅使用局部相对信息的分布式内环控制器跟踪生成的参考轨迹。理论分析表明,在有限扰动和由LLM更新引入的离散跳跃分段光滑参考轨迹下,系统能保证跟踪性能。该工作展示了如何将集中式的基于语言的任务推理与分布式反馈控制相结合,以实现具有可证明鲁棒性和稳定性的复杂行为。
无人机控制语言引导分布式控制大语言模型鲁棒性保证
cs
02-17 00:00
本研究提出了一种用于商业保险核保的“决策否定式”人机协同智能体系统。该系统核心创新在于引入了一个对抗性自我批判机制:在向人类审核员提交建议前,一个“批判智能体”会挑战主智能体的结论,形成内部制衡。这种有界安全架构旨在解决高风险、受监管工作流中的AI可靠性问题。研究还构建了决策否定式智能体的失效模式形式化分类法,为风险识别与管理提供了结构化框架。在500个专家验证案例的实验中,该机制将AI幻觉率从11.3%降至3.8%,并将决策准确率从92%提升至96%,同时严格保留了人类对所有关键决策的最终权威。
ai安全人机协同对抗性批判保险科技风险管控智能体系统
cs
02-17 00:00
本文提出BotzoneBench,一种用于评估大语言模型(LLMs)在交互环境中战略决策能力的新框架。该框架的核心创新在于使用经过技能校准的固定层级游戏人工智能(AI)作为“锚点”,替代了传统上依赖LLM间相互对抗(成本为O(n²))的评估方式。通过在Botzone平台的8款多样化游戏(从确定性完美信息棋盘游戏到随机性不完美信息卡牌游戏)上,对5个主流模型的177,047个状态-动作对进行系统评估,研究实现了线性时间(O(n))的绝对技能度量,并揭示了模型间显著的战略能力差异。表现最佳的模型在多个领域达到了中高级别专用游戏AI的水平。这一基于锚点的评估范式可推广至任何具有明确定义技能层级的领域,为评估交互式AI能力提供了一个可扩展、可复用的框架。
大语言模型评估战略决策游戏ai可扩展基准技能锚点交互式ai
cs
02-17 00:00
本文受认知双过程理论启发,提出AMOR混合架构,通过预测熵动态衡量状态空间模型(SSM)的“不确定性”,仅在必要时激活稀疏注意力。该方法利用SSM隐藏状态投影生成键值对(Ghost KV),复用SSM的O(n)计算,避免每层都需O(n^2)注意力开销。在小规模合成检索任务中,AMOR在仅对22%位置使用注意力的情况下,实现了完美检索精度,且检索位置与局部位置的熵差达1.09纳特,验证了熵作为路由信号的有效性。
混合架构动态计算状态空间模型注意力机制信息熵自适应路由
cs
02-17 00:00
本研究探讨了将云端机器学习作为下一代视觉神经假体预处理策略的可行性。针对远程推理引入的网络延迟、抖动和丢包问题,作者提出了一种网络自适应的云辅助处理流程。该方案利用实时往返时间(RTT)反馈,动态调整图像分辨率、压缩率和传输速率,在恶劣网络条件下优先保障神经刺激的时间连续性。实验以树莓派4模拟视觉处理单元,评估了多种现实无线网络环境下的系统性能。结果表明,自适应视觉编码能显著降低网络拥塞时的端到端延迟,虽然边界精度下降更明显,但全局场景结构仅受到适度影响。这为未来视觉神经假体在何种网络条件下可有效利用云预处理划定了可行范围。
视觉神经假体云预处理网络自适应延迟优化人工智能辅助医疗设备
cs
02-17 00:00
针对当前AI评估中存在的静态基准易被记忆、格式利用和最终饱和的问题,本文提出了VeRA(可验证推理数据增强)框架。该框架将基准问题转化为可执行规范,包含自然语言模板、一致性生成器和确定性验证器三个核心组件。VeRA能以近乎零边际成本,从单个种子问题自动生成无限个经过验证的变体,并提供可靠标签。其包含两种模式:VeRA-E(等价)用于检测模型是记忆还是真实推理;VeRA-H(强化)则能系统性地增加问题复杂度,生成可靠标注的困难任务。对16个前沿模型的评估表明,VeRA能提升评估质量、揭示数据污染模式,并建立了一种可验证基准的新范式。
ai评估数据增强基准测试可验证推理静态问题模型污染
cs
02-17 00:00
针对灾难或偏远地区网络中断导致服务器AI失效的问题,本研究提出Pocket RAG,一个可在Android设备上直接运行的轻量级检索增强生成系统。该系统集成了混合RAG、选择性压缩、批量提示解码和量化缓存等移动端优化技术,使小型语言模型在离线状态下实现高效推理。实验表明,系统在生理急救和心理急救任务上分别达到94.5%和97.0%的准确率,并将响应时间从14.2秒大幅缩短至3.7秒,提速近4倍,证明了其在无网络环境下提供可靠急救指导的实用性。
移动端ai检索增强生成离线应用急救指导模型优化边缘计算
cs
02-17 00:00
本文针对动态多路无人机网络,提出了一种基于跨层融合的深度学习模型CLF-ULP,用于预测未来的无人机间链路。模型结合图注意力网络提取各层内部拓扑特征并进行跨层注意力融合,以捕获层间依赖关系,同时采用共享参数的长短期记忆网络建模各层的时间演化。通过考虑层内与层间邻接关系的联合损失函数优化嵌入质量,在多种移动模式下的仿真数据集上验证了其优越的链路预测性能。
无人机网络链路预测图注意力网络跨层融合动态网络
cs
02-17 00:00
本研究针对5G网络中非正交多址接入(NOMA)切换时易受干扰的问题,提出了一种混合方法。该方法将Gold-Walsh调制序列与深度Q网络(DQN)相结合,动态优化序列选择和功率分配。实验结果表明,该方法将切换成功率提升至95.2%(最高提升23.1个百分点),吞吐量最高提升28%,干扰最高降低41%,所有改进均具有统计显著性(p < 0.001)。DQN训练复杂度为$O(N \log N + d \cdot h + \log B)$,约需$4{,}200 \pm 400$回合,可实现实时部署。
非正交多址接入深度强化学习网络切换干扰管理5g网络功率分配
cs
02-17 00:00
本文针对超密集物联网网络中非正交多址接入的固定码分配导致强干扰问题,提出了一种基于强化学习的动态Gold码分配模型。该模型通过一个物联网感知的马尔可夫决策过程,联合优化吞吐量、能效和公平性。研究设计了两种强化学习算法:自然策略梯度算法用于学习稳定的离散动作,深度确定性策略梯度算法则结合连续码嵌入。在智慧城市场景下,动态分配相比静态分配可使吞吐量提升11.6%,能效提升15.8%。然而,在工业物联网等对可靠性要求极高的场景中,其可靠性增益有限(0-2%),表明动态码分配需与功率控制或重传机制结合才能满足超可靠物联网需求。
物联网noma强化学习动态码分配资源分配gold码能效优化
cs
02-17 00:00
本文探讨了在资源受限的移动边缘网络中部署大型AI模型的挑战与解决方案。针对模型复杂度与边缘设备有限的计算、内存和通信资源之间的不匹配问题,文章系统梳理了协作式AI的系统架构与应用场景(如交通、医疗),并综述了资源高效协作技术。这些技术分为空间方法(如联邦调优、专家混合、基于补丁的扩散)和时间方法(如分割学习、级联推理、推测解码)。基于此,作者提出了一个多阶段扩散框架,能够将大型生成模型弹性分布在异构边缘资源上。实验表明,该框架在数据生成的效率和适应性方面均实现了性能提升。
边缘计算ai协作资源优化生成模型模型部署