cs
02-25 00:00
本文提出SA-SFT,一种轻量级自增强微调方法,用于缓解大语言模型在特定任务微调时出现的灾难性遗忘问题。该方法的核心是让模型在微调前生成自我对话数据,并将这些自生成数据与任务数据混合进行训练,无需修改优化器或训练计划。实验表明,SA-SFT在50个评估场景中,不仅保持了与原模型相当的性能,还在40个案例中取得了最佳结果,优于层冻结和外部数据混合等基线方法。理论分析指出,遗忘部分源于风格诱导的参数漂移,而自生成数据的自我对齐能有效抵消此效应。
大语言模型灾难性遗忘微调自增强参数漂移模型对齐
cs
02-25 00:00
本研究提出了一种基于图神经网络(GNN)的框架,用于从自发言语中自动评估失语症严重程度。创新之处在于将患者的言语话语构建为一个有向多模态图,其中节点代表词汇项和手势,边编码词-词、手势-词和词-手势之间的转换关系。通过GraphSAGE模型学习参与者级别的嵌入表示,整合了局部邻域和整体图结构信息。结果表明,失语症的严重程度并非编码于孤立的词汇分布中,而是体现在言语与手势之间的结构化交互中。该架构为床边筛查和远程健康监测提供了可靠的自动化评估工具。
图神经网络失语症评估多模态交互言语分析医疗人工智能
cs
02-25 00:00
本研究对知识蒸馏生成的小型语言模型进行了系统性基准测试,量化分析了其性能与计算成本。结果表明,知识蒸馏能创造出更优的性能-计算曲线。研究发现,创建一个80亿参数的蒸馏模型,其计算效率比训练同等规模的原始模型高出2000倍以上,而其推理能力却能与规模大10倍的标准模型持平甚至超越。这验证了知识蒸馏不仅是模型压缩技术,更是构建前沿、可访问人工智能的主要策略。
知识蒸馏小型语言模型模型压缩计算效率基准测试资源受限
cs
02-25 00:00
本研究提出VISION-ICE框架,利用常规电生理手术中的心腔内超声(ICE)视频,通过3D卷积神经网络(3D-CNN)将心律失常起源定位建模为三类分类任务(正常窦性心律、左侧起源、右侧起源)。在十折交叉验证中,模型对四位未见患者的平均识别准确率达到66.2%,显著优于33.3%的随机基线。该方法有望为临床医生提供快速、实时的定位引导,减少心脏消融手术的操作时间和负担。未来工作将扩展数据集以提升模型的鲁棒性和泛化能力。
心腔内超声心律失常定位3d卷积神经网络人工智能辅助诊断心脏电生理
cs
02-25 00:00
针对智能体应用中大量虚假告警导致的“告警疲劳”问题,本文提出ConceptRM方法,旨在以低成本构建高质量训练语料来优化反射模型。该方法仅需少量专家标注作为锚点,通过生成不同噪声比例的数据集并利用协同教学训练多个模型,分析模型间的共识决策来从噪声数据中可靠地识别负样本。实验表明,ConceptRM能以最小标注成本显著提升虚假告警拦截效果,在领域内和跨领域数据集上分别优于现有LLM基线达53.31%和41.67%。
告警疲劳数据清洗协同学习反射模型噪声数据智能体
cs
02-25 00:00
本研究提出了一个防信息泄露的基准测试框架,用于评估急诊分诊中早期恶化预测模型在现实、时间受限的感知条件下的性能。研究基于MIMIC-IV-ED的去重患者队列,比较了信息丰富的医院分诊与仅依赖生命体征的类似大规模伤亡事件(MCI)场景。通过将模型输入限制在患者就诊后一小时内可获得的信息,研究发现,即使在仅使用生命体征数据时,多种建模方法的预测性能下降幅度有限,表明早期生理测量保留了重要的临床信号。结构化消融和可解释性分析进一步指出,呼吸和氧合指标是早期风险分层的最关键因素。
急诊分诊恶化预测基准测试信息约束生命体征临床决策支持
cs
02-25 00:00
本文探讨了AI生成输出在何种情况下与其创造者保持关联,以及在何种情况下(无论是意外、故意设计还是涌现行为)会失去这种关联。当AI可追溯至原始创造者时,添附原则为所有权分配提供了有效途径,能在保持问责的同时保护投资激励。当AI变得不可追溯时,先占原则可以鼓励资源重新分配给有动力将AI整合到生产性用途的新保管者。文章进一步分析了战略性所有权解散(即故意设计自主AI以规避归属)带来的税收套利和监管规避机会,并提出赏金制度、私人激励和政府补贴作为鼓励AI捕获、防止无主AI扭曲市场的机制。
人工智能所有权法律框架可追溯性先占原则市场扭曲监管规避
cs
02-25 00:00
现有红队测试基准通过直接翻译适配新语言时,无法捕捉根植于当地文化与法律的社会技术漏洞,造成LLM安全评估的盲区。为此,研究团队提出CAGE框架,其核心是“语义模具”方法,能将提示的攻击性结构与文化内容解耦,从而系统地将已验证的攻击意图适配到新的文化语境中,建模真实的本土化威胁而非简单越狱。研究以创建韩语基准KoRSET为例,证明其比直接翻译基线更能有效揭示模型漏洞。CAGE为开发跨文化的、有意义的、情境感知的安全基准提供了可扩展的解决方案。
大语言模型安全红队测试文化适配基准生成社会技术漏洞
cs
02-25 00:00
本研究提出了一种基于张量网络生成器增强优化(TN-GEO)框架的新方法,用于解决经典的旅行商问题(TSP)。该方法采用基于自动可微分矩阵乘积态(MPS)的张量网络玻恩机作为生成模型,利用玻恩规则定义候选解的概率分布。与需要 $N^2$ 个变量和惩罚项来确保有效路径约束的二进制编码方法不同,本研究采用基于整数变量的排列公式,并通过带掩码的自回归采样,确保生成的每个样本在构造上都是有效路径。此外,研究还引入了 $k$-site MPS 变体,使用滑动窗口方法学习 $k$-gram(连续城市子序列)的分布,从而实现对更大规模问题实例的参数高效建模。在 TSPLIB 基准实例(最多 52 个城市)上的实验验证表明,TN-GEO 的性能可以超越包括交换和 2-opt 爬山法在内的经典启发式算法。更关注局部相关性的 $k$-site 变体相比完整 MPS 情况也显示出更好的结果。
张量网络组合优化旅行商问题生成模型矩阵乘积态启发式算法
cs
02-25 00:00
本研究提出了一种利用物理信息神经网络(PINNs)解决金属氧化物半导体场效应晶体管(MOSFET)冷却优化中逆问题的新方法。针对多层结构(含铝、石墨片、不锈钢水管)的MOSFET,给定热通量及进出口温度,该方法通过逐层顺序训练PINNs来估计所需冷却剂流速。数学上,该方法在训练每层时将其它层参数视为常数,从而降低优化维度,避免陷入局部极小值,并证明了其解向解析解的收敛性。实验验证表明,该方法的预测结果与实测数据高度吻合。
物理信息神经网络mosfet散热逆问题求解热管理功率电子深度学习
cs
02-25 00:00
本文通过对首尔两个智能城区的民族志研究,探讨了人行道配送机器人引发的劳动本质问题。研究发现,机器人配送并非自主高效,而是依赖于人类劳动、法规协调和社会包容的分布式社会技术成就。机器人并未取代劳动,而是重构了劳动,使机器人表现可见,却遮蔽了背后的人类与制度支持。研究提出了“机器人特权”概念,并呼吁人机交互领域更深入地结合劳动与空间政治学,以更好地理解面向公众的机器人。
机器人劳动配送机器人智能城市社会技术系统空间政治民族志研究
cs
02-25 00:00
本研究针对住宅节能改造决策中的专业知识鸿沟,开发了一个领域特定的大语言模型。该模型基于53.6万个美国住宅建筑原型的物理模拟和技术经济计算数据进行微调,采用低秩适应(LoRA)方法,将易于获取的住宅特征映射为最优改造建议。评估显示,模型在98.9%的情况下能将最优减碳方案排在前三推荐,在93.3%的情况下能识别出最短贴现回收期。微调使CO₂预测误差降低一个数量级,能耗和改造成本预测误差也大幅减少,且在输入信息不完整时仍保持稳健性能。
节能改造大语言模型住宅建筑决策支持低碳转型技术经济分析
cs
02-25 00:00
本文提出 MoBiQuant,一种新颖的混合比特量化框架,旨在解决弹性大语言模型部署中因量化精度切换导致的校准参数不匹配问题。研究发现,该问题源于不同精度下词元级敏感性的变化,特别是由精度依赖的异常值迁移现象引起。MoBiQuant 的核心是“多合一递归残差量化”方法,可迭代重构高精度权重,并结合“词元感知路由器”动态选择残差比特切片数量。该方法在 LLaMA3-8B 上的实验表明,无需重复校准即可实现平滑的精度切换,并匹配特定比特校准后训练量化(PTQ)的性能,显著提升了模型在词元异常值分布上的泛化能力。
模型量化大语言模型弹性部署混合精度词元感知推理优化
cs
02-25 00:00
本研究挑战了传统文本到图像模型后门攻击的评估范式,揭示了编码器侧投毒会引发持续、无触发器的语义损坏,从根本上重塑了模型的表示流形。通过基于雅可比矩阵的几何机制分析,发现后门作为低秩、目标中心的形变,放大了局部敏感性,导致失真在语义邻域内连贯传播。为量化这种结构性退化,研究者提出了SEMAD诊断框架,用于测量内部嵌入漂移和下游功能错位。该发现在扩散和对比学习范式中均得到验证,暴露了编码器投毒的深层结构风险。
后门攻击扩散模型语义漂移编码器安全模型鲁棒性几何分析
cs
02-25 00:00
本文提出了一种联邦学习框架,用于估计桥梁退化的连续时间马尔可夫链(CTMC)风险模型。该框架允许各市政部门在不共享原始敏感检测数据的情况下,协作训练一个共享的基准模型。每个参与方利用本地数据,针对桥梁从“良好”到“轻微损坏”、“良好”到“严重损坏”以及“轻微损坏”到“严重损坏”三种状态转移,训练一个包含桥龄、海岸线距离和桥面面积等协变量的对数线性风险模型。本地优化通过小批量随机梯度下降法对CTMC对数似然函数进行,每轮通信仅上传一个12维的伪梯度向量至中央服务器。服务器使用带动量和梯度裁剪的样本加权联邦平均算法聚合更新。在包含区域异质性的合成数据上的实验表明,该联邦机制能实现稳定的收敛,并为参与者提供了天然激励:通过贡献本地数据,参与者可获得无法仅从本地数据中得到的、定期更新的全局基准参数,从而支持基于证据的生命周期规划,同时保持数据主权。
联邦学习桥梁退化评估连续时间马尔可夫链风险模型数据隐私基础设施维护
cs
02-25 00:00
本文针对AI智能体在生产环境中安全访问应用工具和数据的需求,提出了OpenPort协议(OPP)。该协议是一个治理优先的规范,通过一个与模型和运行时无关的安全服务端网关来暴露应用工具。其核心贡献包括:定义了依赖授权的工具发现机制、包含机器可执行`agent.*`原因码的稳定响应信封,以及结合集成凭证、范围权限和ABAC策略的授权模型。对于写操作,协议规定了风险门控的生命周期,默认创建草稿并需人工审核,支持在明确策略下的限时自动执行,并强制执行包括预检影响绑定和幂等性在内的高风险保障措施。为解决延迟审批流程中的“检查时/使用时”状态漂移问题,协议还引入了可选的“状态见证”配置文件,用于重新验证执行时的前置条件。协议在操作上要求包含稳定429语义的准入控制(速率限制/配额)以及跨允许/拒绝/失败路径的结构化审计事件,以确保客户端恢复和事件分析的确定性。
ai安全访问控制协议规范治理框架智能体工具
cs
02-25 00:00
本文提出CalibRL,一种支持可控探索的混合策略强化学习框架,旨在解决多模态大语言模型在强化学习训练中因状态空间巨大和奖励稀疏导致的熵崩溃、策略退化等问题。其核心机制包括:1)基于分布感知的优势加权,通过组稀有性缩放更新以校准分布,保持探索性;2)利用专家知识作为校准基线的非对称激活函数,在保留修正方向的同时抑制过度自信的更新。该方法以引导方式增加策略熵,并通过在线采样估计在策略分布来明确目标分布,从而避免收敛到错误模式,缓解模型策略与专家轨迹之间的分布不匹配,实现探索与利用的更稳定平衡。在八个基准测试上的实验验证了其有效性。
强化学习多模态推理可控探索混合策略分布校准大语言模型
cs
02-25 00:00
本文提出IMOVNO+框架,旨在联合提升数据质量与算法鲁棒性,以解决多分类任务中类别不平衡、重叠和噪声的复合问题。在数据层面,框架通过条件概率量化样本信息量,将数据集划分为核心、重叠和噪声区域,并引入结合Z-score度量的重叠清理算法及基于多正则化的智能过采样方法。在算法层面,采用元启发式方法对集成分类器进行剪枝,以削弱弱学习器的影响。在35个数据集上的实验表明,IMOVNO+在多项指标上显著优于现有方法,尤其在多分类任务中,G-mean和F1-score提升显著。
类别不平衡多分类学习数据清洗集成学习元启发式机器学习
cs
02-25 00:00
针对现有视觉-语言-动作(VLA)模型在机器人操作中存在的推理效率低、鲁棒性差的问题,本研究提出了OptimusVLA框架。该框架创新性地引入了全局先验记忆(GPM)和局部一致性记忆(LCM)。GPM通过检索语义相似轨迹的任务级先验来替代高斯噪声,缩短了生成路径,减少了函数评估次数(NFE)。LCM则通过建模已执行的动作序列来推断任务进度,并注入学习到的一致性约束,以增强轨迹的时间连贯性与平滑性。在三个仿真基准测试中,OptimusVLA均表现优异,并在真实世界评估中,在泛化性和长时程任务上分别超越基线模型42.9%和52.4%,同时实现了2.9倍的推理加速。
机器人操作视觉语言模型动作生成记忆增强推理加速时序一致性
cs
02-25 00:00
本文针对AI(特别是大语言模型)在数字取证中识别证据的可靠性问题,提出一个结构化框架。该框架自动化提取取证工件,通过LLM驱动分析精炼数据,并利用数字取证知识图谱(DFKG)进行结果验证。在一个包含13GB数据、61个应用、2864个数据库和5870个表的真实数据集上评估,该框架通过确定性唯一标识符(UID)和取证交叉引用,确保了工件的可追溯性和证据一致性。实验表明,该框架在工件提取上准确率超过95%,有力支持了监管链的遵循,并增强了取证关系的上下文一致性,为建立合法可靠的AI辅助数字取证范式提供了方法论。
数字取证大语言模型证据可靠性知识图谱自动化验证监管链
cs
02-25 00:00
本研究针对边缘设备AI内核编译,提出了一种基准测试方法,用于量化分析基于MLIR的编译流水线中三种编译器控制机制的性能贡献:向量化(Vec)、跨硬件上下文的多线程(MT)以及使用乒乓暂存缓冲区的双缓冲(DB)。通过Triton/Inductor生成的内核,研究构建了消融阶梯以分离各机制的贡献,并以GELU激活函数为代表,量化了MT加速比随问题规模的变化。结果表明,向量化是带宽敏感内核的主要增益来源;当调度开销被分摊后,多线程能带来显著提升;而在传输与计算可重叠时(即非纯内存或纯计算受限的极端情况),双缓冲能提供额外收益。
ai编译器mlir并行优化延迟隐藏性能分析边缘计算
cs
02-25 00:00
研究发现,新手程序员过度依赖大语言模型(LLM)进行“氛围编程”(Vibe Coding)会积累“认知债务”(Epistemic Debt)。实验(N=78)对比了无限制AI辅助、有引导的AI脚手架和手动编程三种模式。结果显示,无限制AI组在后续“AI黑屏”维护任务中的失败率高达77%,远高于有引导组的39%。这表明,仅将AI视为外包承包商(Cognitive Outsourcing)而非咨询顾问(Cognitive Offloading),会阻碍学习者形成必要的认知图式,导致其成为高功能但低修正能力的“脆弱专家”。研究提出,未来的学习系统需引入“元认知摩擦”(Metacognitive Friction)机制,例如“解释门”(Explanation Gate)和“复述教学”(Teach-Back)协议,以保障AI生成代码的可维护性。
ai辅助编程认知债务元认知脚手架大语言模型编程教育代码可维护性
cs
02-25 00:00
本研究针对汇编编程教学中抽象概念难以理解的问题,开发了Playsemble游戏化学习系统。该系统将汇编指令转化为互动游戏任务,学生通过编写代码控制吃豆人收集物品、躲避幽灵。系统集成了代码编辑器、CPU模拟器和可视化调试工具,并提供基于大语言模型的即时反馈。在107名本科生的课程部署中,包含寄存器操作、循环、条件判断等核心概念的渐进式任务表明,Playsemble能有效促进主动实验、维持学习投入并加深概念理解。
游戏化学习汇编编程计算机教育互动系统教学工具
cs
02-25 00:00
多模态大语言模型(MLLMs)视觉推理成本高昂。本文提出OTPrune,一种无需训练的视觉令牌剪枝框架,将剪枝问题建模为通过最优传输(OT)进行分布对齐。通过最小化完整令牌分布与剪枝后分布之间的2-Wasserstein距离,OTPrune在降低推理成本的同时,保留了视觉表示的局部多样性和全局代表性。作者推导出一个可处理的子模目标函数,并证明了其单调性和子模性,为稳定高效的剪枝提供了理论依据。实验表明,OTPrune在性能与效率的权衡上优于现有方法。
多模态大模型视觉令牌剪枝最优传输分布对齐推理加速子模优化