今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读生成中,请稍后刷新。

2025-12-15 速览 · 计算机科学

2025-12-15 共 24 条抓取,按综合热度排序

← 返回日历
cs 12-15 00:00

AI如何提升实验室新手技能?一项真实生物实验的实证研究

本研究通过一项对照实验,实证测量了AI推理模型对无湿实验室经验人员的技能提升效果。参与者被要求完成大肠杆菌转化与表达实验,实验组可使用AI助手,对照组仅能使用互联网。研究记录了实验成功率等定量结果,并观察了参与者与AI、设备及同伴的互动方式。研究结果为评估AI在生物安全等领域的实际影响提供了方法论和数据基础。

ai技能提升生物实验实证研究人机交互生物安全
cs 12-15 00:00

AI作为认知放大器:重新审视生成式AI时代的人类判断力

本文基于GPT-3时代以来的专业培训与用户观察,提出生成式AI应被视为“认知放大器”,其输出质量根本上取决于使用者的专业知识和判断力。作者通过分析专家与新手的差异,构建了从被动接受到认知引导的三级AI参与模型,并指出层级跃迁的关键在于领域专长和元认知技能的培养,而非单纯的技术提示工程。这对劳动力发展和AI系统设计具有重要启示。

认知放大器人机交互领域专长元认知生成式ai专家-新手差异
cs 12-15 00:00

WebSTAR:通过步骤级过滤合成高质量数据,提升计算机使用代理性能

本文提出了一种可扩展的数据合成方法,用于训练计算机使用代理。核心创新在于步骤级过滤,它能从嘈杂的代理操作轨迹中自动筛选出正确的步骤,无需人工标注。基于此方法构建了包含13.3K轨迹的WebSTAR数据集,并训练了Qwen模型。在WebVoyager基准测试中,仅通过监督微调的7B模型即超越现有最佳开源模型15%以上。研究还创建了WebSCORE数据集和轻量级奖励模型StepRM,为高效、鲁棒的计算机使用代理开发提供了新工具。

计算机使用代理数据合成步骤级过滤轨迹数据奖励模型gui交互
cs 12-15 00:00

多模态情感意图分析驱动AIGC个性化推荐,提升用户满意度

本研究提出一种基于多模态情感与意图识别模型(MMEI)的个性化AIGC推荐系统。该系统通过预训练的ViT、Wav2Vec2和BERT编码器,结合注意力融合模块,综合分析用户的面部表情、语音语调和文本评论,以捕捉其交互时的实时情感与意图状态。实验表明,该模型在基准数据集上F1分数提升4.3%,在线评估中用户参与时长增加15.2%,满意度提升11.8%,有效实现了内容与用户情感意图的精准匹配。

aigc推荐多模态分析情感计算意图识别个性化推荐注意力融合
cs 12-15 00:00

Tekum:面向平衡三值逻辑的锥形精度实数运算新格式

本文针对新兴的三值逻辑硬件,提出了名为“Tekum”的实数运算新格式。它借鉴了Posit和Takum格式的锥形精度思想,并专门为平衡三值逻辑系统设计。研究解决了该格式设计中的若干基础挑战,评估表明其展现出极具前景的特性,在多方面性能优于现有的Posit和Takum格式。这项工作为在三值系统中释放实数计算的潜力奠定了基础。

三值逻辑实数运算锥形精度硬件设计数值格式
cs 12-15 00:00

MREF-AD:基于区域专家融合的多模态阿尔茨海默病诊断模型

本文提出MREF-AD模型,通过混合专家框架将大脑各区域视为独立专家,并利用两级门控网络学习个体化的融合权重,自适应整合淀粉样蛋白PET和MRI等多模态信息。该模型在ADNI数据集上实现了先进的诊断性能,同时提供了区域和模态层面的可解释性,揭示了结构与分子影像对疾病诊断的联合贡献。

多模态融合阿尔茨海默病神经影像可解释ai混合专家脑区分区
cs 12-15 00:00

印度临床语音识别系统评估:多语言环境下存在显著偏见

本研究首次系统评估了主流ASR模型在印度真实临床访谈数据(卡纳达语、印地语、印度英语)上的表现。通过对比Indic Whisper、Whisper、Sarvam等模型,发现不同语言和模型间性能差异巨大,部分系统在印度英语上表现良好,但在方言或混合语言上失败。研究揭示了与说话者角色(患者/医生)和性别相关的系统性性能差距,凸显了在印度医疗环境中公平部署ASR技术的紧迫需求。

语音识别医疗公平多语言模型偏见评估印度医疗
cs 12-15 00:00

非洲语言语音识别模型性能基准测试:数据稀缺下的最优选择

本研究首次对Whisper、XLS-R、MMS和W2v-BERT四种主流语音识别模型在13种非洲语言上的表现进行了系统性基准测试。通过使用1至400小时不等的标注数据进行微调,研究发现:在极低资源场景下,MMS和W2v-BERT更具数据效率;随着数据增加,XLS-R的扩展性更佳;而Whisper在中资源条件下表现突出。研究还分析了外部语言模型解码的适用条件及其局限性,为资源匮乏语言的ASR系统设计提供了实证依据。

语音识别非洲语言低资源场景模型基准测试数据效率解码策略
cs 12-15 00:00

多智能体模块化学习框架:提升人机交互中的情感识别效率与灵活性

本文提出了一种新颖的多智能体框架,用于训练多模态情感识别系统。该框架将每种模态的编码器(如视觉、音频、文本)和融合分类器视为独立的智能体,由一个中央监督器协调。这种方法支持新模态(如通过emotion2vec的音频特征)的模块化集成、旧组件的无缝替换,并显著降低了训练过程中的计算开销。通过一个支持视觉、音频和文本模态的概念验证实现,证明了该框架的可行性。它不仅提高了训练效率,还为具身和虚拟智能体在人机交互场景中设计更灵活、可扩展和可维护的感知模块提供了新思路。

多智能体系统多模态情感识别模块化学习人机交互训练效率
cs 12-15 00:00

TritorX:AI驱动的ML加速器算子生成系统,覆盖481个PyTorch算子

本文介绍了TritorX,一个基于大语言模型的AI系统,旨在为新兴的ML加速器平台(如Meta MTIA)大规模生成功能正确的PyTorch ATen算子内核。该系统整合了开源大模型、自定义代码检查器、即时编译和基于PyTorch OpInfo的测试框架,优先追求算子的覆盖率和正确性,而非仅针对少数高性能内核。实验表明,TritorX成功为481个独特的ATen算子生成了内核和封装,并通过了超过2万项对应测试,为实现新硬件平台“一夜之间”生成完整PyTorch后端铺平了道路。

ai代码生成机器学习加速器pytorch算子硬件软件协同大语言模型应用
cs 12-15 00:00

动态多目标调度提升GPU集群效率,利用率最高达78.2%

针对GPU集群利用率低(约50%)、存在资源碎片化和作业饥饿等问题,本研究系统评估了静态调度策略的局限,并提出了三种动态多目标调度器:混合优先级调度器(HPS)、预测性回填调度器(PBS)和智能批处理调度器(SBS)。在模拟的64-GPU集群上对1000个AI作业的测试表明,动态调度器在利用率、吞吐量、公平性和饥饿缓解方面均显著优于FIFO等静态基线。其中HPS表现最佳,实现78.2%的利用率和25.8作业/小时的吞吐量,并将长时间等待作业数从156个大幅减少至12个。

gpu调度资源利用率动态调度集群管理ai基础设施
cs 12-15 00:00

Dora:面向分布式边缘AI的QoE感知混合并行框架

本文提出Dora框架,旨在解决资源受限的边缘环境中,分布式AI模型训练与推理的用户体验质量(QoE)保障难题。Dora通过异构感知模型分区、竞争感知网络调度和运行时适配三大机制,联合优化异构计算、易竞争网络与多维QoE目标。在智能家居、交通分析等典型场景中,Dora在满足QoE要求的同时,实现了1.1-6.3倍的执行加速,或降低21%-82%的能耗。

边缘ai混合并行qoe优化分布式计算资源调度
cs 12-15 00:00

MolSculpt:从化学语法“雕刻”3D分子几何结构

本研究提出MolSculpt框架,旨在解决现有方法在利用1D分子表示生成3D几何结构时存在的知识脱节问题。该框架基于冻结的1D分子基础模型和3D分子扩散模型,通过引入可学习的查询从基础模型中提取化学知识,并利用可训练投影器将其注入扩散模型,从而在端到端优化中深度融合1D潜在知识以指导3D生成。实验表明,MolSculpt在从头生成和条件生成任务上均达到SOTA性能,在GEOM-DRUGS和QM9数据集上展现出卓越的3D保真度与稳定性。

分子生成3d几何扩散模型跨模态学习药物发现
cs 12-15 00:00

MedBioRAG:融合语义检索与大语言模型的生物医学问答新方法

本研究提出MedBioRAG模型,通过结合语义与词法搜索、文档检索及监督微调,显著提升大语言模型在生物医学领域的问答能力。该模型在NFCorpus、TREC-COVID、MedQA等多个基准测试中,于文档检索、封闭式问答及长文本生成任务上均超越了现有最优模型及GPT-4o基础模型,尤其在检索相关性与答案准确性方面表现突出。

检索增强生成生物医学问答语义搜索大语言模型文档检索
cs 12-15 00:00

SCOUT:一种防御语言模型微调中数据投毒攻击的新方法

本文针对语言模型面临的隐蔽数据投毒攻击,提出了SCOUT防御框架。攻击者利用特定领域知识,构造语义自然但内含恶意触发词的文本(如医疗诊断、社交媒体成瘾分类),以操纵模型输出,传统基于上下文的检测方法对此类攻击失效。SCOUT通过分析移除单个词元对目标标签输出逻辑值的影响,构建显著性图谱来识别可疑触发词。实验表明,该方法在多个基准数据集上能有效检测传统及新型复杂攻击,同时保持对干净输入的预测精度。

数据投毒后门攻击语言模型安全显著性分析模型防御
cs 12-15 00:00

面向多智能体系统的下一代查询优化框架

本文针对基于大语言模型的多智能体工作流提出下一代查询优化框架。当前构建此类架构的方法多为临时方案,缺乏通用性、可扩展性和系统性优化。新框架旨在应对异构数据源与查询引擎下的多智能体协同、昂贵LLM调用成本控制及任务冗余消除等新挑战,实现自动化模型选择、工作流组合与跨引擎执行优化,为新兴多智能体架构奠定基础。

查询优化多智能体系统大语言模型异构引擎工作流组合成本效率
cs 12-15 00:00

超越忆阻器:忆感器在神经形态计算中的独特作用

本研究提出并验证了忆感器(具有记忆功能的电感器)在神经形态计算架构中的关键作用。研究发现,带磁芯的线圈其电感L(q)是电荷q的函数,构成忆感器,其磁芯磁化状态能记忆电流历史。与忆阻器不同,忆感器能通过影响神经形态RLC电路的时间常数(由电感和电容共同决定)来发挥独特功能。实验成功利用该忆感器复现了阿米巴原虫的记忆、计时和预测行为,为超越忆阻器的计算范式提供了理论与实验依据。

神经形态计算忆感器忆阻器类脑计算新型计算架构rlc电路
cs 12-15 00:00

同步游戏在有限自动机子类上的统一获胜策略

本研究针对同步自动机上的同步游戏,证明了当自动机的转移幺半群属于伪簇DS时,同步器存在统一的获胜策略。DS由所有正则D类构成子半群的有限幺半群组成。研究进一步表明,DS是具备这一性质的最大伪簇,为同步游戏的理论分析提供了重要边界。

同步游戏有限自动机伪簇ds转移幺半群统一策略
cs 12-15 00:00

MoB:用拍卖机制解决MoE持续学习中的灾难性遗忘问题

本研究提出了一种名为“投标者混合模型”(Mixture of Bidders, MoB)的新框架,旨在解决混合专家模型在持续学习中的核心缺陷。MoB摒弃了传统易受灾难性遗忘影响的习得门控网络,转而采用维克瑞-克拉克-格罗夫斯拍卖机制,让专家们通过竞标真实成本(执行成本与遗忘成本之和)来竞争处理数据批次。这种基于博弈论的方法实现了无状态路由、激励相容的真实投标,以及无需明确任务边界的专家自发专业化。在Split-MNIST基准测试中,MoB取得了88.77%的平均准确率,显著优于基线模型。

持续学习混合专家模型拍卖机制灾难性遗忘博弈论神经网络
cs 12-15 00:00

强化学习优化脓毒症肝素治疗:新评估框架TECM提升临床决策

本研究提出了一种基于强化学习的数据驱动框架,用于优化外科脓毒症患者的个性化肝素治疗策略。核心创新在于将离散的SOFA评分转化为连续的cxSOFA评分以构建更精细的状态与奖励函数,并引入了类似分类任务混淆矩阵的“治疗效果比较矩阵”(TECM)来评估治疗策略。应用多种RL算法后,cxSOFA-CQL模型表现最佳,可将死亡率从1.83%降至0.74%,平均住院日从11.11天缩短至9.42天。该框架为临床决策支持提供了可解释且稳健的优化工具。

强化学习脓毒症治疗肝素策略临床决策支持数据驱动评估tecm
cs 12-15 00:00

云环境中基于多资源优化的节能任务调度算法

本文针对云计算能耗问题,提出一种新型任务调度算法。该算法通过综合考虑CPU、磁盘和I/O利用率及任务处理时间构建适应度函数,显式优化多种物理资源的利用率,从而提高活跃资源使用效率。仿真实验表明,相比现有MaxUtil算法,该方案能显著降低能耗,为绿色云计算提供有效解决方案。

云计算节能任务调度资源优化绿色计算能效算法
cs 12-15 00:00

无缝迁移技术综述:容器与虚拟机的现状与挑战

本文对实现计算实体在运行中无缝迁移的技术进行了全面综述,重点分析了容器和虚拟机两种主流迁移方法。研究指出,现有技术在实际应用中常因系统复杂性、资源需求过高而面临挑战,导致其收益难以覆盖成本。文章通过多维度分析迁移技术、迁移单元和基础设施特性,揭示了当前技术差距,并探讨了迁移目标与操作约束对技术可用性的影响,为未来研究和开发提供了方向性指导。

无缝迁移容器迁移虚拟机迁移云计算系统虚拟化资源调度
cs 12-15 00:00

联邦学习新框架:去中心化聚合算法在精度与隐私上超越传统中心化方法

本研究对联邦学习中的中心化分层架构与两种去中心化架构进行了全面对比。通过Fashion MNIST和MNIST数据集评估发现,去中心化的聚合联邦学习和持续联邦学习在精确率、召回率、F1分数和平衡准确率上均优于中心化方法。分析指出,去中心化机制通过将计算与聚合过程分布在设备端,有效缓解了通信瓶颈与隐私担忧,为分布式协作模型训练提供了性能更优的替代方案。

联邦学习去中心化聚合模型训练隐私保护性能评估分布式计算
cs 12-15 00:00

KBQA-R1:用强化学习优化大模型知识库问答,解决幻觉与僵化问题

本文提出KBQA-R1框架,通过强化学习将知识库问答从文本模仿范式转向交互优化。该框架将问答过程视为多轮决策,利用组相对策略优化,让模型根据查询执行的具体反馈而非静态监督来学习导航知识库。同时,引入参考拒绝采样方法解决冷启动问题,严格对齐推理轨迹与真实动作序列。在多个基准测试中,KBQA-R1实现了最先进的性能,有效将大模型推理建立在可验证的执行基础上。

知识库问答强化学习大语言模型推理优化交互决策
AI速览助手