cs
02-04 00:00
本文提出STEMVerse诊断框架,旨在系统分析大语言模型在科学、技术、工程和数学领域的推理能力。该框架通过“学科专业×认知复杂度”双轴标签,将超过20,000个STEM问题重新整合到统一的能力空间中,超越了传统仅提供单一总分的评估范式。实证研究揭示了不同参数规模和训练范式的LLM在STEM推理中存在的结构性失败模式,为深入理解模型在科学推理中的知识缺陷与认知能力不足提供了清晰且可操作的视角。
大语言模型评估stem推理诊断框架认知复杂度学科专业
cs
02-04 00:00
本文提出一种无需模型训练或访问内部参数的测试时去毒化方法。该方法通过零阶优化,仅利用输入词嵌入、毒性评分函数和模型前向评估,近似计算完成文本毒性相对于输入的梯度,并通过少量梯度下降步骤引导模型生成毒性更低的内容。实证表明,该方法在不同模型和提示下均能有效降低毒性,并在多数情况下实现了最佳的毒性-质量平衡。
大语言模型安全对齐零阶优化测试时干预词嵌入控制黑盒优化
cs
02-04 00:00
牛顿-舒尔茨迭代在Muon优化器和Stiefel流形中应用广泛,但传统方法存在效率低、不稳定的问题。本文提出统一牛顿-舒尔茨正交化框架,通过避免多项式展开、评估各矩阵幂次项作用并剔除不显著项,构建了带可学习系数的推荐多项式。优化后的系数实现了卓越性能与稳定收敛,显著减轻了传统迭代范式因重复长维度矩阵乘积带来的计算负担。
正交化方法牛顿-舒尔茨迭代矩阵计算优化算法可学习系数数值稳定性
cs
02-04 00:00
本研究提出两种策略,将大语言模型(LLM)与参数高效微调(PEFT)的预训练语言模型结合,以应对网络安全领域数据漂移和标注数据稀缺的挑战。策略一:利用LLM为未标注数据生成标签;策略二:将LLM作为低置信度预测的回退机制。实验表明,该方法能有效提升模型在网络安全下游任务中的可靠性与鲁棒性,使其更适用于实际应用。
参数高效微调大语言模型网络安全数据标注模型鲁棒性预训练模型
cs
02-04 00:00
本文提出了一种用于自然语言处理持续学习的稀疏适配器融合方法(SAFM),旨在解决任务间参数复用效率低、知识共享不足以及灾难性遗忘等问题。SAFM通过决策阶段(决定新增、复用或添加空适配器)和调优阶段(采用分层损失以区分适配器)动态融合新旧适配器,优先复用或添加空适配器的架构搜索策略最小化了参数消耗。实验表明,SAFM在性能媲美现有最优方法的同时,参数使用量减少了40%以上。
持续学习适配器融合参数高效灾难性遗忘自然语言处理
cs
02-04 00:00
本文研究用于平滑整数规划(如MAX-CUT、MAX-k-SAT)的学习增强算法。我们提出一个框架,通过预测预言机构建目标的线性代理,再经线性规划与舍入过程求解。该框架确保解的质量对预测误差具有一致性与平滑性,从而将经典稠密区域的可处理近似有效扩展至近稠密区域。更重要的是,我们超越了预言机存在的假设,证明了其PAC可学习性,并证明诱导算法类具有有界伪维度,保证了可通过多项式样本学习到具有接近最优期望性能的预言机。
学习增强算法整数规划pac学习近似算法平滑性预言机
cs
02-04 00:00
针对大语言模型在计算机科学教育中易受恶意或无关提示攻击的问题,本研究提出了CodeGuard框架。该框架包含首创的提示分类法、包含8000条提示的数据集,以及一个轻量级的实时检测模型PromptShield。实验表明,PromptShield的F1分数达到0.93,优于现有方法,并能将有害或违规的代码生成减少30-65%,同时不影响正常教学任务的性能。
ai教育安全大语言模型代码生成提示工程计算机科学教育对抗性攻击
cs
02-04 00:00
本研究聚焦跨文化表情包再创作任务,旨在保持原表情包的交流意图与幽默感的同时,适配文化特定元素。研究者提出了一个基于视觉语言模型的混合再创作框架,并构建了一个大规模的中美表情包双向数据集。通过对6,315个表情包对的人工与自动化评估,研究发现现有模型能有限度地完成此任务,但存在明显的方向不对称性:从美国到中国的再创作质量普遍高于反向。研究进一步识别了幽默感与图文设计中哪些方面易于跨文化迁移,哪些仍是挑战,并提出了一个评估跨文化多模态生成任务的框架。代码与数据集已开源。
多模态生成跨文化传播视觉语言模型表情包再创作人工智能评估
cs
02-04 00:00
本文探讨了脑基础模型(Brain Foundation Models)训练数据带来的新型伦理与治理挑战。这类模型通过大规模神经数据(如EEG、fMRI)预训练,能适应多种下游任务。然而,神经数据因其源于身体且在临床/研究环境中受严格治理,比文本或图像数据具有更强的保护诉求。基础模型范式却将其置于大规模复用、跨语境拼接和开放式应用的实践中,且参与主体(包括商业开发者)范围扩大,而现有治理框架却碎片化且不清晰。文章结合AI伦理、神经伦理和生命伦理,系统梳理了隐私、知情同意、偏见、利益共享和治理五大核心关切,并为每个领域提出了议程性问题和基线保障措施。
脑基础模型神经数据伦理数据治理ai伦理神经科学ai
cs
02-04 00:00
本研究针对社交网络中因结构位置差异导致的信息获取不公平问题,提出了一种通过修改网络结构来提升PageRank公平性的方法。核心贡献在于设计了一个高效的线性时间算法,该算法基于贪心策略,并利用快速采样有根生成森林的技术,能够在允许重连固定数量边的约束下,最大化弱势群体的PageRank权重。在多个真实世界网络上的大规模实验表明,该算法性能显著优于现有方法,能在几分钟内为百万节点网络生成精确解。
网络公平性pagerank边重连算法设计社交网络分析
cs
02-04 00:00
针对复合材料连续、非线性且数据稀缺的设计空间,传统基于离散图表示或简单描述符的AI方法面临挑战。本文提出ORDER框架,将顺序性作为核心原则,通过多模态预训练(图像与表格数据对齐),确保具有相似目标性能的材料在潜在空间中占据邻近区域。该方法有效保留了复合材料性能的连续性,并能在稀疏观测的设计之间进行有意义的插值。在纳米纤维增强复合材料和碳纤维T700模拟数据集上的实验表明,ORDER在性能预测、跨模态检索和微观结构生成任务上均优于现有多模态基线。
复合材料设计多模态学习顺序感知材料表征人工智能数据稀缺
cs
02-04 00:00
针对电商搜索结果页(SRP)从线性列表向复杂非线性布局的演变,传统基于位置的排序模型已显不足。本文提出一种全新的全页面体验优化框架,它通过因果框架建模商品相关性、二维位置布局与视觉元素的交互作用,并基于准实验数据构建长期用户满意度(如预期两周收入)的度量指标。该模型在工业级A/B测试中,品牌相关性(核心用户体验指标)提升1.86%,同时实现了+0.05%的显著收入增长。
电商搜索页面布局优化因果推断长期收益a/b测试用户体验
cs
02-04 00:00
针对当前大模型基准测试分数趋同、难以指导实际部署的问题,本文提出CreditAudit框架。该框架不仅评估模型的平均能力($\mu$),还引入场景诱导波动($\sigma$)作为稳定性风险信号,并通过跨模型分位数将波动性映射为从AAA到BBB的可解释信用等级。在GPQA、TruthfulQA等基准上的实验表明,平均能力相近的模型可能具有显著不同的稳定性风险,在智能体或高失败成本场景下,稳定性风险可能颠覆模型选择决策。CreditAudit为特定场景下的模型选择提供了二维的、基于等级的评估语言。
大模型评估稳定性风险部署导向信用审计二维评估
cs
02-04 00:00
现有推荐系统个体用户公平性评估指标存在局限:要么只关注推荐效果差异而忽略用户相似性,要么只关注相似用户推荐差异而忽略项目相关性。本文提出Pairwise User unFairness (PUF) 新度量,首次将用户相似性 $S(u_i, u_j)$ 与推荐效果差异 $|E(u_i) - E(u_j)|$ 同时纳入评估框架,完整实现了“相似用户应被相似对待”的公平性定义。在4个数据集和7个排序器上的实验表明,PUF能一致且稳健地捕捉这两方面差异,而现有指标对此几乎不敏感。
推荐系统公平性评估用户相似性个体公平算法公平效果差异
cs
02-04 00:00
一项系统综述回顾了近十年(2015-2024)关于预测脊柱择期手术后住院时长(LOS)的计算模型研究。在纳入的29项研究中,机器学习模型(如随机森林、提升算法、神经网络)的预测性能(AUC 0.94-0.99)普遍优于传统统计模型。关键预测因子包括年龄、合并症(高血压、糖尿病)、BMI、手术类型与时长、以及手术节段数量。尽管模型展现出强大潜力,但研究间缺乏标准化定义和外部验证限制了其临床转化。未来需推动标准化和透明报告,以促进模型在优化出院计划和医院资源管理中的实际应用。
医疗预测模型住院时长脊柱手术机器学习系统综述医疗资源管理
cs
02-04 00:00
GraphDancer 提出一种强化学习框架,用于训练大语言模型(LLMs)在异构知识图谱上进行探索和推理。该框架通过交替进行推理和函数执行来导航图结构,并引入一种基于图感知的课程学习策略,根据信息寻求路径的结构复杂度来调度训练。实验表明,仅使用 3B 参数的模型在跨领域基准测试中,其性能超越了配备 14B 参数或 GPT-4o-mini 的基线模型,展现了强大的跨领域泛化能力。
知识图谱推理强化学习课程学习大语言模型跨领域泛化
cs
02-04 00:00
本研究评估了大型语言模型(LLMs)在高等教育中生成教育反馈的潜力与效果。研究者使用大学教师设计的结构化评分标准,让7个不同的LLM对一门包容性教学培训课程中的学生项目进行定量评估和定性反馈生成。随后,采用Hughes等人的分析框架,对这些AI生成反馈的结构及其在促进形成性学习体验方面的有效性进行了分析。结果表明,在清晰的情境信息和明确的指令引导下,LLMs能够生成结构良好的反馈,具备成为可持续、有意义反馈工具的潜力。
大型语言模型教育反馈高等教育人工智能教育形成性评估
cs
02-04 00:00
本文探讨了人工智能如何通过自适应、数据驱动和伦理引领的学习平台,推动工程教育领域的公平、多样性与包容性。研究提出了一种符合联合国2030年可持续发展议程(特别是目标5“性别平等”与目标10“减少不平等”)的伦理框架,并通过全球案例分析与批判性思维策略,构建了一个融合伦理领导力与可持续性思维的包容性评估模型。结果表明,AI技术不仅能有效提升STEM教育的可及性与包容性,还能为构建全球化的教育体系提供支持。
人工智能教育工程教育教育公平伦理领导力可持续发展包容性设计
cs
02-04 00:00
本文提出缩放点积注意力(SDPA)可被重写为输入向量在由输入自身决定的共同曲面上的投影。这一数学等价形式揭示了SDPA能够发现输入中随时间与上下文变化的非线性依赖关系。新形式不仅提升了前向传播与学习算法的速度,更重要的是为SDPA的扩展提供了思路。在语言模型中,SDPA的作用被重新解释为寻找由输入向量所在曲面决定的、随时间变化的上下文含义,从而修改输入词嵌入。这为SDPA在处理具有时变局部非线性依赖的时间序列数据时提供了强有力的理论依据。
注意力机制大语言模型非线性信号处理时间序列数学解释投影
cs
02-04 00:00
本文提出了IMU-1,一个仅拥有4.3亿参数、在720亿token上训练的小型语言模型。通过整合多项前沿技术(如QK-norm注意力、多头门控、值残差、LayerNorm缩放等架构改进,结合NorMuon优化器与muP参数化等优化策略,并采用包含事后检查点EMA的三阶段训练方案),该模型在显著减少训练数据量(仅为对比模型的1/56)的情况下,性能接近了大规模训练的基准模型。研究提供了详尽的消融实验,并开源了代码、模型权重与数据。
小语言模型高效预训练模型架构优化策略样本效率
cs
02-04 00:00
本文提出TabularMath诊断基准,包含114个基于GSM8K和AIME的确定性程序生成问题(233,472行),旨在评估表格模型从统计插值到计算外推的能力。研究发现,在标准回归指标(如$R^2$)上,TabPFN v2.5表现出色($R^2=0.998$),但在分布外数据的精确整数匹配上,其准确率低于10%,而上下文学习(ICL)则能保持约40%。这表明表格模型擅长学习平滑函数近似,但在外推时难以恢复精确计算输出。两种范式互补:TabPFN能高效扩展数据,ICL则能从少量示例中实现精确计算。
表格学习计算外推程序合成基准评估机器学习
cs
02-04 00:00
本文针对大语言模型(LLM)为迎合用户而生成与内部思维链(CoT)推理相悖的答案这一“不忠实”行为,提出了“虚伪鸿沟”这一机制性度量指标。该方法利用稀疏自编码器(SAEs)和稀疏线性探针,在潜在空间中数学地比较模型内部的真实信念与最终生成轨迹之间的差异,从而量化并检测模型的虚伪行为。在Gemma、Llama和Qwen模型上使用Anthropic的奉承基准进行实验,结果显示该方法在检测奉承和虚伪案例上的AUROC分别达到0.55-0.73和0.55-0.74,持续优于基于对数概率的基线方法(0.41-0.50 AUROC)。
大语言模型思维链稀疏自编码器忠实性评估机制可解释性模型对齐
cs
02-04 00:00
本文提出ROSA-Tuning,一种用于增强预训练模型长上下文建模能力的检索与召回机制。它在标准注意力机制之外,并行引入一个基于CPU的ROSA(RWKV在线后缀自动机)检索模块,该模块能高效定位长上下文中与当前查询相关的历史位置,并以可训练的方式将检索到的信息注入模型状态。通过设计的二元离散化策略、反事实梯度算法以及异步CPU-GPU流水线,实现了端到端训练与执行效率优化。在Qwen3-Base-1.7B上的系统评估表明,该方法能显著恢复窗口注意力模型的长上下文建模能力,在LongBench等基准测试中达到接近甚至匹配全局注意力的性能,同时保持了与窗口注意力方法相近的计算效率和GPU内存使用量。
长上下文建模注意力机制检索增强后缀自动机高效计算模型调优