cs
01-30 00:00
本文针对音频-语言模型(ALMs)中提示调优存在的泛化能力不足问题,提出了语义扩展提示调优(SEPT)框架。该方法通过引入大语言模型生成的语义邻居来显式正则化提示嵌入空间,并设计了一种带有边界约束的语义扩展损失函数,以增强类内紧凑性和类间分离性,从而改善嵌入空间的语义结构。研究建立了首个ALMs提示泛化基准,实验表明SEPT能持续提升多种基线的泛化性能,且推理时计算成本不变。
提示调优音频-语言模型语义扩展泛化能力嵌入空间正则化
cs
01-30 00:00
本文提出DASH框架,以解决现有基于大语言模型(LLM)的启发式设计(LHD)方法的两大局限:仅关注最终解质量的“终点式评估”忽略收敛过程与效率;以及面对新问题分布时高昂的再适应成本。DASH通过收敛感知指标协同优化求解器的搜索机制与运行时调度,生成高效高性能求解器。同时,其集成的档案库检索(PLR)机制能在进化过程中归档专用求解器,为异构分布提供低成本的热启动。在四个组合优化问题上的实验表明,DASH将运行效率提升3倍以上,并在不同问题规模上超越现有基线。通过基于档案的热启动,DASH在不同分布下保持高精度的同时,将LLM适应成本降低了90%以上。
组合优化大语言模型启发式设计动态感知优化求解器生成高效计算
cs
01-30 00:00
本研究提出STAER框架,旨在解决脉冲神经网络在类增量学习中面临的灾难性遗忘与脉冲时序错位问题。该方法通过引入可微分的Soft-DTW对齐损失来保持脉冲时序保真度,并利用输出逻辑的时序伸缩机制强化表征学习。基于深度ResNet19脉冲主干网络,STAER在Sequential-MNIST和Sequential-CIFAR10数据集上实现了最先进的性能,匹配甚至超越了传统人工神经网络基线,同时保持了生物合理的动态特性。
脉冲神经网络持续学习时序对齐类增量学习经验回放
cs
01-30 00:00
研究团队提出了DevOps-Gym,这是首个用于评估AI代理在完整软件DevOps周期(包括构建与配置、监控、问题解决和测试生成)表现的端到端基准。该基准包含从30多个Java和Go项目中收集的700多个真实任务,并通过半自动数据收集机制确保任务覆盖范围与质量。对当前最先进模型和代理的评估揭示了其根本性局限:它们在Java和Go的问题解决与测试生成任务上表现不佳,且完全无法处理监控、构建与配置等新任务。这些结果表明,利用AI代理自动化完整DevOps周期仍需进行大量基础研究。
ai代理devops自动化软件工程基准代码生成任务评估
cs
01-30 00:00
本文提出VoxMorph,一种零样本语音身份融合框架,仅需每人5秒音频即可生成高保真语音融合样本,无需重新训练模型。该方法将语音特征解耦为韵律和音色嵌入,通过球面线性插值(Slerp)进行融合,并利用自回归语言模型与条件流匹配网络进行合成。实验表明,VoxMorph在音频质量上提升2.6倍,可懂度错误降低73%,在严格安全阈值下对自动说话人验证系统的攻击成功率达67.8%,为语音生物识别安全提供了实用且可扩展的新范式。
语音合成身份融合零样本学习特征解耦生物识别安全音频生成
cs
01-30 00:00
本文提出了一种名为Finetune-Informed Pretraining (FIP)的模型无关方法,旨在解决多模态预训练中下游微调时可能仅侧重单一模态导致的表征优化不足问题。FIP通过为目标模态设置更高的掩码难度、更强的损失权重以及更大的解码器容量,在不修改共享编码器或引入额外监督的情况下,使表征学习偏向于微调时所需的目标模态。在无线信号星座图的掩码建模任务中应用表明,该方法无需额外数据或算力即可持续提升下游微调性能。该方法实现简单、架构兼容,可广泛应用于多模态掩码建模流程。
多模态学习预训练微调表征学习掩码建模模型无关
cs
01-30 00:00
IDE-Bench是一个通过IDE原生工具接口,评估AI智能体在真实软件工程任务中表现的综合框架。它超越了原始的终端执行,提供了一个结构化的工具生态系统,模拟了如Cursor和Windsurf等AI原生IDE的环境。该框架为代码库搜索、结构化文件编辑以及测试全栈应用程序提供了高级抽象,旨在评估智能体作为真正工程协作伙伴的能力。为防止训练数据污染,研究团队基于8个从未公开的C/C++、Java和MERN技术栈仓库,创建了80项任务,涵盖功能实现、缺陷修复、重构和性能优化等日常开发场景。这是首个在多语言、全栈环境下,系统地将智能体报告意图与成功的项目级修改相关联的基准测试。
大语言模型评估ai编程助手软件工程基准ide智能体代码生成
cs
01-30 00:00
本文针对单词语音识别在低资源、高噪声场景下的挑战,提出了一种模块化混合框架SW-ASR。该框架结合了去噪、混合ASR前端(Whisper+Vosk)以及一个创新的验证层。验证层通过嵌入相似度、编辑距离和基于LLM的匹配等多种策略,有效处理词汇外单词和音频质量退化问题,并支持可选的上下文引导。在Google Speech Commands和真实低带宽通话数据集上的评估表明,验证层(尤其是上下文引导和LLM匹配)能显著提升噪声和压缩信道下的识别准确率,且不牺牲实时应用的延迟要求。
语音识别混合模型鲁棒性低资源上下文感知实时系统
cs
01-30 00:00
本研究提出了一种结合因果发现与轻量级生成式机器学习模型的框架,用于设计新型金属氢化物以解决氢存储难题。该模型基于450个样本的数据集,生成了1000个候选材料。经过排序筛选,识别出6种先前未报道的化学式与晶体结构,其中4种通过密度泛函理论模拟验证,展现出未来实验研究的巨大潜力。该框架为高效扩展氢存储材料数据库、加速材料发现提供了一种可扩展且省时的新方法。
氢存储材料生成式模型金属氢化物材料发现机器学习密度泛函理论
cs
01-30 00:00
本研究系统性地探讨了预训练数据选择对自监督语音模型性能的影响。研究发现,与普遍认知不同,刻意优化数据的声学、说话人或语言多样性,并未比随机采样带来明确的自动语音识别性能提升。相反,优先选择最长语音片段进行预训练,仅使用原数据集一半的数据量,即可获得更优的ASR结果,并在大规模语料上将预训练时间减少了24%。这表明,对于语音自监督学习模型,数据长度是比数据多样性或总量更关键的性能与效率因素。
自监督学习语音识别数据选择预训练效率优化
cs
01-30 00:00
本研究提出了一种新颖的文本域自适应方法,用于解决基于大语言模型(LLM)的自动语音识别(ASR)系统在仅使用文本数据适应新领域时的挑战。传统方法直接微调LLM会破坏语音-文本模态的对齐。本方法将音频投影任务模拟为文本去噪任务,训练LLM从含噪声的输入中恢复干净文本,从而在适应目标领域的同时保持跨模态对齐。该方法轻量高效,无需修改架构或增加参数。在两个数据集上的广泛评估显示,其相对性能提升高达22.1%,优于现有文本域自适应方法。
语音识别大语言模型域自适应文本去噪模态对齐
cs
01-30 00:00
本文提出ICON框架,通过揭示大语言模型(LLM)的“意图-上下文耦合”现象,即当恶意意图与语义一致的上下文模式(如“科学研究”)耦合时,模型的安全约束会显著放松。ICON利用先验引导的语义路由,自动将恶意意图路由至匹配的上下文模式,并实例化为攻击提示序列,逐步构建权威式上下文以诱导生成违禁内容。该框架还结合了局部提示优化与全局上下文切换的分层优化策略,避免攻击陷入无效区域。在八个先进LLM上的实验表明,ICON实现了97.1%的平均攻击成功率。
大语言模型安全越狱攻击意图上下文耦合多轮对抗攻击语义路由分层优化
cs
01-30 00:00
本研究探索了利用生成式AI部分自动化领域驱动设计(DDD)中的元模型生成过程。通过在实际DDD项目数据上微调模型(采用4位量化的Code Llama与LoRA技术),即使在消费级GPU上,模型也能根据简单提示生成语法正确的领域特定JSON对象,显著提升了设计效率并降低了资源需求。这为AI驱动的软件开发奠定了基础。
生成式ai领域驱动设计软件工程模型微调低资源优化自动化设计
cs
01-30 00:00
本研究提出BioNIC模型,一种受小鼠初级视觉皮层(V1)单皮层柱详细突触连接图启发的多层前馈神经网络,用于面部情绪识别。模型在结构上整合了邻接掩码、分层组织和代表抑制性神经元的梯度抑制等生物学约束;在功能上实现了赫布可塑性、稳态调节、层归一化等生物启发学习机制。在FER-2013数据集上,BioNIC取得了59.77 ± 0.27%的准确率,性能与常规模型相当。研究表明,整合连接组学约束是开发生物启发人工智能系统的可行路径。
生物启发神经网络连接组学图像分类神经可塑性计算神经科学人工智能
cs
01-30 00:00
本研究通过系统文献综述(2020-2024年,87项研究)系统评估了大语言模型(LLMs)对软件可维护性与可演化性的影响。研究发现,LLMs在提升代码可分析性、可测试性、理解度及自动化修复方面具有积极作用,但同时也引入了幻觉输出、上下文脆弱性、领域推理能力有限、性能不稳定及评估缺陷等风险,这些风险可能威胁软件的长期可持续性。结论指出,负责任地采用LLMs需要结合保障措施、严格评估和结构化的人工监督。
大语言模型软件维护可演化性系统综述技术债务代码生成
cs
01-30 00:00
本文提出了一种名为MA-LipNet的新型唇语识别方法,旨在解决现有技术因发音动作细微而导致的特征区分度有限和泛化能力差的问题。该方法的核心在于从时间、空间和通道三个维度对视觉特征进行精细化处理,依次应用通道注意力(CA)、联合时空注意力(JSTA)和分离时空注意力(SSTA)模块。CA模块自适应地重新校准通道特征,JSTA和SSTA模块则分别以粗粒度和细粒度方式抑制无关像素和视频帧的干扰。在CMLR和GRID数据集上的实验表明,MA-LipNet显著降低了字符错误率(CER)和词错误率(WER),验证了其有效性和优越性。
唇语识别注意力机制计算机视觉特征提取时空建模
cs
01-30 00:00
本文提出了一种针对大语言模型的新型成员推理攻击方法HT-MIA。该方法通过分析模型在低置信度(困难)令牌上的逐令牌概率改进,有效区分模型预测能力的提升是源于泛化还是对训练数据的记忆,从而捕捉到更显著的成员信号。实验表明,在特定领域医学数据集和通用基准测试上,HT-MIA的性能均优于七种现有先进方法。研究还探讨了差分隐私训练作为防御机制的有效性。
成员推理攻击大语言模型隐私保护差分隐私模型安全
cs
01-30 00:00
本研究针对软件工程领域系统文献综述(SLR)日益泛滥的现象,以“敏捷软件开发工作量估算”这一具体且研究充分的主题为例,对18篇已发表的SLR进行了定性内容分析。研究发现,作者为开展新的SLR常以“覆盖范围存在空白”、“先前研究存在方法学局限”、“先前SLR已过时”或“技术方法快速进步需要更新综述”等理由进行辩护。文章强调,在设计和评审指南中,以及作为会议和期刊的政策,都需要强调识别现有SLR并为开展进一步SLR提供充分理由,以减少重复劳动,提高领域进展速度。
系统文献综述软件工程敏捷开发工作量估算研究方法重复研究
cs
01-30 00:00
针对提示式持续学习方法中知识完全隔离导致参数利用效率低下的问题,本研究提出了一个提示共享框架。该框架构建了一个全局提示池,并引入任务感知的门控路由机制,稀疏激活部分提示以实现任务特定特征的动态解耦与协同优化。此外,通过历史感知调制器利用累积的提示激活统计信息,保护常用提示免受过度的更新,从而缓解参数使用低效和知识遗忘。实验表明,该方法在效果和效率上均优于现有的静态分配策略。
持续学习提示学习参数效率知识迁移门控路由
cs
01-30 00:00
本研究针对预测编码等基于能量的学习算法迭代计算成本高的问题,提出了一种新的网络初始化技术。该方法旨在保留先前训练样本的迭代进展,从而显著减少训练时间。实验表明,在监督和无监督学习场景下,该方法均能大幅提升收敛速度并降低最终测试损失,为缩小预测编码与反向传播在计算效率和最终性能上的差距提供了可行路径。
预测编码神经网络初始化方法训练加速能量模型
cs
01-30 00:00
本研究针对大语言模型在企业数据管理中可能泄露敏感信息的问题,形式化了“敏感信息感知”概念,并首次在理论上建立了其与差分隐私的联系。作者提出了一种监督微调方法,能使现有的4位量化大语言模型显著提升敏感信息感知能力,性能最高提升21.7%,超越同规模全精度开源及商业模型,同时基本保持模型在通用指令遵循、数学与常识推理等其他任务上的性能。
大语言模型敏感信息感知差分隐私监督微调模型量化数据安全
cs
01-30 00:00
本文提出TwinWeaver,一个开源框架,通过将纵向患者历史序列化为文本,利用大语言模型统一进行事件预测和轨迹预测。基于此框架构建的Genie数字孪生模型,在涵盖20种癌症类型的93,054名患者数据上进行了验证。该模型显著降低了预测误差,中位平均绝对比例误差为0.87,优于最强时序基线模型的0.97。在风险分层任务中,其平均一致性指数达到0.703,优于基线模型的0.662。模型还展现出良好的泛化能力,在分布外临床试验数据上,零样本表现与基线相当,微调后表现更优。此外,框架支持可解释的临床推理扩展,为纵向临床建模提供了可扩展且透明的基础。
数字孪生大语言模型精准肿瘤学临床预测时序分析泛癌研究