cs
12-30 00:00
本文提出了GPU-Virt-Bench,一个用于评估软件GPU虚拟化系统的综合基准测试框架。该框架包含10个类别、56项性能指标,涵盖开销、隔离质量、LLM推理性能、内存带宽、缓存行为、PCIe吞吐量、多GPU通信、调度效率、内存碎片和错误恢复等方面。通过对比HAMi-core、BUD-FCSP等软件方案与理想MIG硬件方案的性能,为云环境多租户GPU资源部署提供了系统化的评估依据和决策参考。
gpu虚拟化基准测试性能评估云计算资源隔离ai推理
cs
12-30 00:00
本研究针对流形上的状态估计问题,扩展了先前提出的可逆卡尔曼滤波算法。该算法旨在克服传统卡尔曼滤波变体在合成数据上精度评估的局限,其优势在于不依赖小速度假设,且精度仅取决于传感器噪声。然而,在真实数据应用中,测量噪声带来了挑战。为此,本文提出了一种启发式方法,通过事件检测步骤在可逆卡尔曼滤波与经典乘法变体之间进行切换。核心贡献是提出了一种判别指标,用于在真实场景中量化并证明可逆方法优于经典方法的时刻,从而为算法选择提供了理论依据。
状态估计卡尔曼滤波流形优化传感器融合算法验证
cs
12-30 00:00
本研究提出了一种利用对抗鲁棒性评估来指导图剪枝的新框架,以增强图神经网络(GNNs)的防御能力。该框架通过计算鲁棒性分数,识别并剪除图中易受攻击或有害的边,从而在消息传递过程中减少噪声和对抗性扰动的传播。实验在三种代表性GNN架构和多个基准数据集上进行,结果表明,该方法在高扰动环境下能显著提升模型的可靠性和鲁棒性,为构建更安全的图学习系统提供了有效途径。
图神经网络对抗鲁棒性图剪枝模型防御图结构学习
cs
12-30 00:00
本研究针对临时协作团队中智能体需快速适应未知队友的挑战,提出了基于大语言模型的解决方案。核心框架Collab通过从轨迹特征中提取行为规则来对队友类型进行分类,其增强版本ReCollab则引入了检索增强生成技术,利用范例轨迹来稳定推理过程。在合作性游戏Overcooked环境中的实验表明,ReCollab能有效区分队友类型,并在多种布局下持续提升智能体的适应能力,在分类准确性和任务回报之间实现了帕累托最优权衡。这验证了LLMs作为行为世界模型的潜力,并强调了在复杂协调场景中检索增强的重要性。
临时协作团队大语言模型检索增强生成行为建模多智能体系统适应性策略
cs
12-30 00:00
本研究提出了一种专家引导的自动提示优化框架,旨在提升大型语言模型从科学文献中提取实体数据的可靠性。以从高熵合金相关出版物中提取晶格常数为测试案例,研究团队利用7篇专家标注的文献对Claude 3.5 Sonnet模型进行反馈循环优化。在有限的优化成本下,召回率从0.27显著提升至0.9以上。该方法随后应用于2267篇文献,成功为1861种合金成分提取了数据。优化后的提示词能有效迁移至Claude 4.5 Sonnet、GPT-5和Gemini 2.5 Flash等新模型。分析揭示了LLM的三类主要错误:上下文幻觉、语义误解和单位转换错误,强调了验证协议的必要性。该工作为复杂LLM辅助科研任务提供了一条低成本、可迁移且可扩展的可靠数据提取路径。
提示工程科学数据提取高熵合金大语言模型材料信息学
cs
12-30 00:00
本文提出了一种基于可重构场效应晶体管(RFET)的新型随机计算神经网络(SCNN)加速器架构。传统SCNN受限于随机数生成器(SNG)和累加并行计数器(APC)等模块的高资源开销,而RFET在器件层面的可重构特性,使得这些核心模块能够以更高效、紧凑的方式实现。通过系统级仿真与公开标准单元库验证,在相同工艺节点下,该设计相比FinFET方案在面积、延迟和能耗方面均实现了显著降低。
随机计算神经网络加速器可重构晶体管硬件优化能效提升
cs
12-30 00:00
本文提出一种面向未来智能体网络(Agentic Web)的用户主权交互范式SoDA,旨在解决数据锁定和认知过载两大核心挑战。其核心设计是将存储、计算与交互正交解耦,确立“数据为持久资产,模型为瞬时工具”的架构原则,从根本上打破平台对用户记忆的垄断。为实现零信任环境下的安全运行,设计了基于A2A协议的意图-权限握手机制,通过双因子自适应路由进行主动风险治理。实证评估表明,该范式在跨平台服务迁移和复杂任务执行中可降低约27-35%的令牌消耗;在多模态复杂任务编排中,相比标准RAG架构和人工流程,分别降低用户认知负荷72%和88%,并显著提升信息信噪比。
智能体网络用户主权交互范式认知负荷数据解耦意图对齐
cs
12-30 00:00
本文提出SlimEdge框架,旨在解决深度分布式神经网络在资源受限的边缘设备上部署的难题。该方法通过结合结构化模型剪枝与多目标优化,根据异构设备的硬件限制定制网络容量,在保证任务性能的同时满足内存和延迟约束。以用于3D物体识别的先进架构MVCNN为例,框架量化了不同视图对分类精度的贡献,并据此分配剪枝预算。实验表明,优化后的模型在满足用户指定的精度和内存占用上限的同时,在不同硬件平台上将推理延迟降低了1.2倍至5.0倍。
边缘计算模型压缩神经网络部署多目标优化3d视觉
cs
12-30 00:00
针对点云模型在GPU上因数据稀疏、非结构化导致计算与内存需求高、实时性差的问题,本研究提出了HLS4PC——一个可参数化的高层次综合(HLS)框架,用于FPGA加速。该框架通过FPGA并行化与算法优化,实现了映射函数和神经网络层的高效定点数运算。研究对先进的PointMLP-Elite模型应用了多种硬件感知压缩技术(如用均匀随机采样替代最远点采样、参数量化、层融合和输入点剪枝),得到了复杂度降低4倍、在ModelNet40数据集上精度仅下降2%的PointMLP-Lite变体。FPGA加速该变体后,吞吐量较先前工作提升3.56倍,较GPU和CPU实现分别提升2.3倍和22倍。
fpga加速点云处理硬件感知优化模型压缩高层次综合
cs
12-30 00:00
本文提出了一种名为Cleave的新范式,旨在利用边缘设备的闲置计算资源进行去中心化的大模型训练,以挑战当前依赖大型云数据中心的集中式训练模式。Cleave通过一种新颖的选择性混合张量并行方法精细划分训练操作,并结合以参数服务器为中心的框架,有效应对了设备内存限制和通信瓶颈。此外,它采用成本优化模型来指导设备选择和任务分配,从而高效处理设备的异构性和动态变化。评估表明,Cleave的训练性能可与基于云GPU的训练相媲美,其每批次训练时间比现有边缘训练方法快高达10倍,并能支持比基线方法多8倍的设备,故障恢复速度也快至少100倍。
边缘计算大模型训练张量并行去中心化训练异构设备
cs
12-30 00:00
本研究通过实验评估前沿开源大语言模型在学术论文评审中的表现。研究收集了OpenReview的真实评审数据,让LLMs生成评审意见并与人类评审员的评分、论文的引用量、高影响力、新颖性和颠覆性等发表后指标进行对比。结果显示,LLM评审与人类评审员的相关性较弱(0.15),存在3-5分的系统性高估偏差,且预测错误时仍给出高置信度(8.0-9.0/10)。然而,LLM评审与论文发表后指标的相关性强于与人类评分的相关性,表明其作为预审筛选工具具有一定潜力。研究强调了将LLMs用作全自动评审代理时存在的安全与对齐风险,并开源了数据集$D_{LMRSD}$以促进相关安全框架研究。
大语言模型学术评审预审代理研究安全人机对齐开源数据集
cs
12-30 00:00
本文提出了一种端到端的LLM框架,用于优化高性能计算中的GPU热点内核,而无需构建和运行完整的应用程序。核心方法是自动将独立提取的内核代码补全为最小可执行程序,并在应用外部进行多轮迭代优化与评估。框架集成了自动错误修复和性能模式继承技术,以修复故障、保持正确性、复用有效的分块/内存/同步策略,并降低搜索成本。在NVIDIA GPU和海光DCU平台上的评估显示,该方法在PolyBench、AMD APP SDK及大规模超算应用的热点内核上均实现了显著加速,平均加速比最高达7.77倍,超越了直接的LLM优化。该方法无需完整的源代码依赖,具有跨平台可移植性,实现了实用、低成本的GPU内核优化。
gpu优化大语言模型高性能计算编译优化热点内核最小可执行程序
cs
12-30 00:00
本文提出了一种新颖的层注意力池化(LAP)策略,用于动态聚合预训练Transformer模型的多层输出特征,以改进说话人验证任务。该方法从多个角度动态评估每层特征的重要性,并采用最大池化而非传统的加权平均进行聚合。结合提出的轻量级后端模型(包含LAP和注意力统计时序池化),在VoxCeleb基准测试中实现了最先进的性能,同时大幅减少了训练时间。分析表明,LAP的动态加权机制能有效捕捉说话人特征。
说话人验证特征聚合注意力机制预训练模型轻量级模型
cs
12-30 00:00
本文提出了一种用于无服务器GPU平台的自适应GPU资源分配框架,旨在解决多智能体系统协同推理时面临的异构工作负载与动态计算需求挑战。该框架采用复杂度为$O(N)$的实时自适应算法,根据工作负载特征、智能体优先级和最低资源需求动态分配GPU资源。实验表明,与轮询调度相比,该框架能降低85%的延迟,同时保持与静态分配相当的吞吐量,并在延迟、成本和GPU利用率指标上均优于静态均等和轮询策略。
gpu资源分配多智能体系统无服务器计算协同推理自适应调度
cs
12-30 00:00
本文提出了一种名为LANCA的因果自编码器,旨在解决无监督表示学习中因果变量识别的核心难题。针对传统方法依赖统计独立性而无法捕捉因果依赖的局限,LANCA将加性噪声模型(ANM)作为强归纳偏置引入。理论证明,ANM约束虽不能保证全局唯一可识别性,但能将允许的变换从任意微分同胚限制到仿射类,从而解决分量级的不确定性。方法上,LANCA摒弃了变分自编码器中模糊结构残差的随机编码,转而采用确定性Wasserstein自编码器与可微ANM层相结合,将残差独立性从被动假设转变为显式优化目标。在合成物理基准(如Pendulum、Flow)和逼真环境(CANDLE)上的实验表明,LANCA在应对复杂背景场景产生的伪相关方面,优于现有先进基线,展现出更强的鲁棒性。
因果表示学习无监督学习加性噪声模型自编码器可识别性结构残差
cs
12-30 00:00
本文探讨了在无法完全信任的高能力AI代理部署中,自动化控制监控所面临的实际挑战。研究指出,将监控扩展到现实世界部署会引入新的动态:并行代理实例、不可忽略的监督延迟、代理实例间的渐进式攻击,以及基于单个有害行为识别阴谋代理的困难。论文分析了应对这些挑战的设计选择,重点关注三种具有不同延迟-安全性权衡的监控形式:同步、半同步和异步监控。作者引入了一个高层次安全案例草图作为理解和比较这些监控协议的工具,并通过四个未来AI部署的案例研究,探讨了监督、延迟和恢复三大核心挑战。
ai安全控制监控监督延迟代理安全前沿ai部署挑战
cs
12-30 00:00
本文针对学习型数据库基数估计器(如MSCN)易违反单调性逻辑约束的问题,提出了量化评估指标MonoM。通过设计可生成直接可比查询的工作负载生成器,以及向损失函数中添加新颖的正则化项,构建了一个单调性训练框架。实验表明,该框架不仅显著提升了模型对单调性的遵循程度,还通过减少过拟合改善了基数估计的整体准确性。
基数估计单调性约束查询优化深度学习数据库系统模型正则化
cs
12-30 00:00
本研究探讨了计算复杂性理论中的核心概念与算法可判定性的边界。重点分析了P与NP类的关系,其中L∈P意味着存在确定性图灵机在多项式时间O(n^k)内求解L。通过多项式归约方法,我们构造了一个具有算法不可判定词问题的结合演算A(𝔗),其中对于计算非递归函数E(x)的图灵机𝔗,证明了q₁01ˣv≡q₀01ⁱv⇔x∈Mᵢ(i∈{0,1},Mᵢ={x|E(x)=i})。这一发现揭示了计算复杂性与代数不可判定性之间的深刻联系,阐明了数学中算法解的根本限制。
计算复杂性np完全性不可判定问题半群图灵机多项式归约
cs
12-30 00:00
本文研究了无蜂窝大规模MIMO网络中用户设备(UE)与其接入点(AP)集群的社交性机制(自私、平等、利他)对网络性能的影响。为在有限前传和处理能力下,动态优化能效并满足服务质量(QoS)需求,作者将问题建模为具有外部性的多对多社交匹配博弈,并提出了基于延迟接受(DA)和提前接受(EA)匹配博弈的两种新算法。数值结果表明,当UE和AP集群均采用平等主义机制时,能在QoS满意度和能效之间取得最佳权衡。
无蜂窝网络社交匹配博弈能效优化服务质量用户中心聚类mimo
cs
12-30 00:00
本文提出HybridFlow框架,以解决大语言模型在资源受限的边缘设备上部署时面临的高延迟和高Token消耗问题。该框架采用两阶段策略:首先将复杂查询动态分解为可并行执行的子任务;其次,通过一个学习型路由器,根据预测的效用增益和实时资源状态,自适应地将每个子任务分配给边缘或云端模型。在多个基准测试上的评估表明,HybridFlow在保持准确性的同时,有效降低了端到端推理时间和总体Token使用量。
边缘计算大语言模型任务调度协同推理资源优化
cs
12-30 00:00
本研究追踪了2000年开始发表论文并持续至2020-2023年的41,424名科学家,分析了他们在16个STEMM及社会科学领域的性别差异。研究发现:男性学者在终身学术产出(高23%)和近五年期刊声望标准化生产力(高19%)上存在显著优势,但双方在期刊选择、国际合作、引用量(领域标准化后)及团队规模方面无显著差异。约80%的STEMM领域学者和70%的社会科学学者保持每年发表。研究揭示了学科间性别差异的有趣分化。
性别差异学术生产力科学计量stemm国际合作引用分析
cs
12-30 00:00
本研究分析了1992-2021年间波兰STEMM领域顶尖科研人员(前10%)的国际合作情况。通过对152,043名作者及587,558篇论文的分析发现,国际合作中的性别差距在过去30年间持续扩大。在农业、生物、环境和医学四个学科中,男性顶尖科研人员的国际化强度显著高于女性。采用带固定效应的分数逻辑回归模型证实,男性顶尖科研人员参与国际合作的概率比女性高出约11%。
科研合作性别差距国际合作文献计量波兰科研stemm领域
cs
12-30 00:00
本文提出了一种用于声事件定位与检测的鲁棒框架,旨在提升模型在真实录音场景下的泛化性能。系统采用ResNet基础模型,并通过数据增强、混合真实与仿真数据集训练、以及测试时增强等技术构建完整流程。框架利用外部声源扩充训练样本多样性,同时确保批次中保留足够数量的真实录音以学习真实场景上下文。此外,设计了基于聚类的模型集成方法以聚合高置信度预测。实验结果表明,该框架下的模型性能优于基线方法,并在真实世界录音中取得了具有竞争力的结果。
声事件检测声源定位鲁棒框架数据增强模型集成真实场景
cs
12-30 00:00
Oignon 是一款免费开源的学术引用图谱可视化工具,旨在解决现有工具在可扩展性、网络遍历深度、付费门槛和构建速度方面的不足。它采用双路径排序系统并结合时效性权重,能够同时捕捉与特定出版物相关的基础性工作和最新突破,为研究者提供更全面的学术脉络。
学术工具引用图谱可视化开源软件文献计量