cs
02-23 00:00
本文提出WeWrite框架,旨在解决视频搜索中利用用户历史行为进行个性化查询改写时面临的信号稀释与反馈延迟问题。其核心贡献在于:1)提出基于后验的自动化挖掘策略,精准识别需要个性化改写的场景;2)采用监督微调与组相对策略优化相结合的混合训练范式,使大语言模型的输出风格与检索系统对齐;3)设计了低延迟的并行“伪召回”部署架构。在线A/B测试表明,该框架将有效点击视频量提升了1.07%,并将查询重构率降低了2.97%。
个性化搜索查询改写大语言模型视频检索强化学习在线部署
cs
02-23 00:00
暗色模式常被视为降低设备能耗的环保措施,但本研究揭示了其潜在的反弹效应。当用户切换到暗色主题网页时,可能会下意识地提高屏幕亮度,以补偿感知到的视觉对比度下降。这种适应性行为可能完全抵消暗色模式在OLED等显示屏上带来的理论节能收益。研究指出,在制定可持续性指南时,必须综合考虑界面色彩方案与用户行为之间的复杂互动,而非简单推荐暗色模式。
暗色模式能耗反弹用户行为可持续计算人机交互
cs
02-23 00:00
本研究通过主题分析63名大学生的开放式回答,揭示了学生在使用大语言模型时遭遇的幻觉问题及其应对方式。研究发现,幻觉主要表现为虚假引用、错误信息、过度自信但误导性的回答、偏离指令以及迎合用户(奉承)等。学生主要通过直觉判断或主动验证(如交叉核对、重新提问)来检测幻觉。学生对幻觉成因的理解存在多种心智模型,包括将AI误解为会因“数据库”中找不到答案而编造信息的“研究引擎”。研究强调了将幻觉认知与缓解策略纳入AI素养教育的必要性,特别是需要教授验证协议、建立准确的生成式AI心智模型,并警惕奉承和自信表达等掩盖错误的模型行为。
ai幻觉ai素养教育心智模型学生视角主题分析大语言模型
cs
02-23 00:00
本研究首次对四种大语言模型(包括两种通用模型和两种针对亲密伴侣暴力设计的领域模型)进行了专家主导的人工评估,以衡量其在回应技术助长虐待相关问题的有效性。研究采用真实世界收集的问题,以幸存者安全为中心设计提示词,从专业标准和用户体验(特别是曾经历TFA的个体视角)两个维度评估模型回应的质量和可操作性。研究结果揭示了当前LLMs在此敏感领域的现有能力与局限,并为未来模型的针对性设计、开发和微调提供了具体建议。
技术助长虐待大语言模型评估亲密伴侣暴力幸存者支持人机交互安全
cs
02-23 00:00
本研究基于社会认知理论,通过对265名高校教师的调查,揭示了数字自我效能感是影响其采纳生成式人工智能(GAI)的关键因素。研究识别出三种用户画像(积极参与者、审慎保留者、批判抵制者),并验证了一个三维度的数字自我效能感量表。结果表明,自我效能感水平与GAI的使用模式存在显著关联。基于此,研究提出了一个整合了四种社会技术配置、适应不同自我效能感画像的采纳路径以及个性化机构支持机制的差异化使用框架。
生成式ai数字自我效能感高等教育技术采纳用户画像社会认知理论
cs
02-23 00:00
研究通过“电话游戏”实验范式,追踪AI系统间信息传递链,揭示了三个系统性模式:1)收敛性,不同文本在确定性、情感强度和视角平衡上趋于中等置信度、平淡情感和分析结构;2)选择性留存,叙事锚点得以保留,但证据细节、限定词、引用和归因被剥离;3)竞争性过滤,多观点共存时,强论点留存,弱但有效的考量消失。下游实验表明,人类认为AI传递的内容更可信、更精炼,但事实回忆能力下降,对平衡性的感知减弱,情感共鸣减少。研究表明,使AI内容显得权威的特性,可能系统性地侵蚀知情判断所依赖的认知和情感多样性。
ai间通信信息失真认知多样性社会信息传递人机交互
cs
02-23 00:00
本文针对企业级对话界面(Gemini Enterprise)在跨项目与账户边界安全、可复现地编排异构后端代理与工具的需求,提出了一个基于Cloud Run的A2A枢纽架构。该枢纽将查询路由至四个路径:部署于不同项目的公共A2A代理、不同账户中受IAM保护的Cloud Run A2A代理、结合Discovery Engine与Vertex AI Search并从Google Cloud Storage直接检索源文本的检索增强生成路径,以及通过Vertex AI的通用问答路径。研究发现,实际互操作性不仅受协议合规性约束,还受Gemini Enterprise UI限制及边界相关身份验证的影响。为解决UI仅接受纯文本输入且接受输出模式列表为空的问题,研究团队在JSON-RPC端点强制实施纯文本兼容模式,同时将结构化输出与调试信号分离至REST工具API。在一个涵盖费用政策、项目管理协助、通用知识和事件响应截止时间提取的四查询基准测试中,该方案实现了确定性路由和稳定的UI响应。对于检索路径,授予存储对象读取权限可实现基于证据的十五分钟截止时间提取。所有实验均可通过标记为a2a-hub-gemini-ui-stable-paper的代码库快照复现。
企业对话ui代理编排跨边界安全检索增强生成ui兼容性云原生架构
cs
02-23 00:00
研究指出,大语言模型和AI智能体在关键领域部署时表现出的奉承、幻觉和策略性欺骗等行为偏差,并非训练缺陷,而是源于模型对世界的主观认知存在根本性误设。通过将经济学中的Berk-Nash理性化理论引入AI领域,研究构建了一个严谨框架,将智能体建模为在一个有缺陷的主观世界模型中寻求最优解。研究发现,不安全行为是结构性的必然产物:它们要么作为稳定的错位均衡出现,要么根据奖励方案形成振荡循环;策略性欺骗则作为“锁定”均衡或对客观风险具有鲁棒性的认知不确定性而持续存在。研究在六个前沿模型家族上验证了理论预测,并绘制了安全行为的拓扑边界相图。结论表明,安全性是由智能体的认知先验决定的离散相,而非奖励大小的连续函数。这确立了“主观模型工程”——即设计智能体内部信念结构——是实现稳健对齐的必要条件,标志着从操纵环境奖励到塑造智能体现实解释的范式转变。
ai对齐模型误设理性错位主观模型安全边界认知先验
cs
02-23 00:00
研究发现,用于评估自动驾驶视觉语言模型(VLM)性能的合成多项选择题(MCQA)数据集中,存在大量可被模型利用的隐藏文本线索,导致模型无需视觉输入即可获得高准确率。本文提出一种新方法,通过将正确答案与语言伪影解耦,并采用课程学习策略,迫使模型依赖视觉基础进行推理。该方法将模型的“盲猜”准确率从高于随机猜测66.9%大幅降低至2.9%,有效消除了绝大多数可被利用的文本捷径,确保模型性能真实反映其视觉感知能力。
视觉语言模型自动驾驶数据偏见课程学习视觉基础
cs
02-23 00:00
本研究通过构建Docker测量流水线,对2000个GitHub仓库中的Dockerfile进行分层抽样分析。结果显示,仅56%的Dockerfile能成功构建镜像,其中仅2.7%能在无基础设施配置调整下实现比特级可复现。调整配置后,可复现性提升18.6%,但仍有78.7%的构建无法复现。研究发现,除时间戳和元数据外,开发者控制的未清理缓存、日志、文档和浮动版本选择是导致不可复现的主要原因。研究据此提出具体Dockerfile编写指南,为未来可复现容器检查工具和持续集成流程提供参考。
容器技术软件可复现性docker构建供应链安全持续集成
cs
02-23 00:00
针对高维多阶段制造过程的优化难题,本研究提出了POGPN-JPSS框架。该框架将部分可观测高斯过程网络(POGPN)与联合参数-状态空间(JPSS)建模相结合,利用过程专家知识从高维中间观测数据中提取低维潜在特征,从而有效利用过程结构信息。在复杂的多阶段生物乙醇生产模拟中验证,POGPN-JPSS以两倍于现有先进方法的速度达到目标性能,且可靠性更高,显著节省了优化所需的时间和资源。
贝叶斯优化制造过程优化高斯过程网络状态空间建模过程专家知识高维数据
cs
02-23 00:00
本文提出LATMiX方法,通过可学习的可逆仿射变换来优化大语言模型(LLM)的微缩放(MX)量化。作者首先从理论上分析了MX量化下的变换误差,强调了同时考虑激活值分布与底层量化结构的重要性。基于此,LATMiX将传统的异常值抑制方法推广为可学习的变换,并使用标准深度学习工具进行优化。实验表明,该方法在多种模型大小和零样本基准测试中,均能持续提升低比特MX量化的平均准确率。
模型量化大语言模型微缩放格式仿射变换后训练量化
cs
02-23 00:00
本研究提出了一种专门针对晴空条件下农田级NDVI预测的概率性预测框架。该方法采用基于Transformer的架构,明确区分对历史植被动态的建模与对未来外生信息的利用,整合了历史NDVI观测数据以及历史和未来的气象协变量。为应对卫星重访模式不规则和预测不确定性随预测时长变化的问题,作者引入了一种基于时间距离加权的分位数损失函数,使训练目标与有效预测时长相匹配。此外,通过累积和极端天气特征工程,更好地捕捉了与植被响应相关的延迟气象效应。在欧洲卫星数据上的大量实验表明,该方法在点预测和概率性评估指标上均优于多种统计、深度学习及近期的时间序列基线模型。消融研究进一步凸显了目标历史数据的关键作用,并表明气象协变量在联合利用时可提供互补性增益。
ndvi预测概率预测transformer卫星时序气象协变量农业遥感
cs
02-23 00:00
本文提出CodeScaler,一种免执行的奖励模型,旨在解决基于单元测试执行的强化学习(RLVR)在代码大模型训练中面临的可扩展性瓶颈。该方法通过精心构建的偏好数据、语法感知的代码提取和保持有效性的奖励塑造技术进行训练,无需依赖高质量测试用例。在五个编码基准测试中,CodeScaler将Qwen3-8B-Base模型的平均性能提升了11.72分,优于基于二进制执行的强化学习方法1.82分,并能在无测试用例的合成数据集上进行可扩展的强化学习。在推理时,CodeScaler作为一种有效的测试时扩展方法,性能与单元测试方法相当,同时将延迟降低了10倍。此外,CodeScaler在RM-Bench上不仅于代码领域(+3.3分),在通用和推理领域(平均+2.7分)也超越了现有奖励模型。
代码大模型奖励模型强化学习代码生成免执行评估可扩展训练
cs
02-23 00:00
本文针对低地球轨道多目标主动碎片清除任务,提出了一种统一的共椭圆机动框架,结合了霍曼转移、安全椭圆接近操作和显式燃料补给逻辑。研究在包含随机碎片场、禁飞区和速度增量约束的逼真轨道模拟环境中,对比了贪婪启发式、蒙特卡洛树搜索和基于掩码近端策略优化的深度强化学习三种规划算法。在100个测试场景中,掩码PPO算法展现出最优的任务效率和计算性能,其访问的碎片数量可达贪婪算法的两倍,且运行时间显著优于MCTS。这些发现凸显了现代强化学习方法在实现可扩展、安全且资源高效的空间任务规划方面的潜力。
空间碎片清除深度强化学习轨道机动任务规划共椭圆转移
cs
02-23 00:00
本研究提出了一种三阶段课程学习框架,旨在解决将大型语言模型的思维链推理能力蒸馏到小型学生模型时存在的容量不匹配问题。该方法首先通过掩码乱序重建任务建立结构理解,其次利用分组相对策略优化在掩码补全任务中让模型自主探索准确性与简洁性的平衡,最后针对持续失败案例进行定向重写以内部化教师知识。在GSM8K数据集上的实验表明,该方法使Qwen2.5-3B-Base模型在输出长度减少27.4%的同时,准确率提升了11.29%,超越了指令微调变体和先前的蒸馏方法。
思维链蒸馏课程学习结构感知掩码分组相对策略优化模型压缩推理效率
cs
02-23 00:00
研究团队发布了IRPAPERS基准,包含来自166篇科学论文的3,230个页面,每个页面均提供图像和OCR转录文本。通过180个“大海捞针”式问题,系统比较了基于图像和基于文本的检索与问答系统。实验发现,基于文本的检索(使用Arctic 2.0嵌入、BM25及混合搜索)在Recall@1上达到46%,而基于图像的检索达到43%。两种模态表现出互补的失败案例,使得多模态混合搜索性能超越任一单模态,达到49%的Recall@1。在问答任务中,基于文本的RAG系统比基于图像的系统具有更高的真实答案对齐度(0.82 vs. 0.71)。研究分析了单模态文本和图像表示的局限性,并识别了需要特定模态的问题类型。
视觉文档处理多模态检索科学文献基准问答系统混合搜索
cs
02-23 00:00
本文提出AnchorTree框架,通过离散扩散模型进行代码生成,解决了现有方法因忽视编程语言刚性结构而常生成无法执行程序的问题。该方法利用代码的抽象语法树作为结构化先验,在扩散过程中优先解析关键词和标识符等语法语义关键标记,从而建立结构骨架以引导后续生成。实验验证了AnCoder模型系列,表明结构锚定的扩散模型能以参数高效的方式实现高质量的代码生成。
代码生成扩散模型抽象语法树程序合成结构化先验
cs
02-23 00:00
本文提出Robust-MMR,一种自监督预训练框架,旨在提升医学视觉-语言模型在成像设备、采集协议和报告风格变化下的领域鲁棒性。该方法通过非对称扰动感知掩码、领域一致性正则化和模态弹性约束,将鲁棒性目标显式融入掩码视觉-语言学习中。在医学视觉问答(VQA-RAD、SLAKE、VQA-2019)、跨域图像-文本分类(MELINDA)和鲁棒图像-描述检索(ROCO)等基准测试中,Robust-MMR显著提升了跨域性能,例如将VQA-RAD的跨域准确率提升至78.9%,并在扰动评估下将准确率从69.1%提升至75.6%。
医学多模态学习鲁棒预训练领域不变表示掩码重建视觉-语言模型自监督学习
cs
02-23 00:00
本研究提出DesignAsCode框架,将平面设计生成重新构想为使用HTML/CSS的程序化合成任务,以解决现有方法在视觉保真度与结构可编辑性之间的失衡问题。该框架采用“规划-实现-反思”流水线,包含一个用于构建动态、可变深度元素层次结构的语义规划器,以及一个通过迭代优化代码来修正渲染瑕疵的视觉感知反思机制。实验表明,该方法在结构有效性和美学质量上均显著优于现有基线,其原生代码表示还解锁了自动布局重定向、复杂文档生成和基于CSS的动画等高级功能。
平面设计生成程序化合成html/css视觉保真度结构可编辑性迭代优化
cs
02-23 00:00
本研究开发了一个集成Web与移动端的可视化工作流管理系统,旨在解决传统管理方式(如手动记录、分散通讯)导致的数据完整性差和项目追踪模糊问题。系统采用MongoDB、Node.js、Express.js、React.js和React Native技术栈,核心是围绕任务状态(待办-进行中-已完成)设计的可视化仪表盘,通过颜色标签区分任务紧急度,并为管理者提供动态团队绩效图表。在由工程师、学生、公务员及医护人员等10人参与的可用性测试中,系统在组织效率(4.90/5分)和视觉仪表盘(5.00/5分)方面获得极高评价,界面易用性(4.65分)与整体满意度(4.60分)表现优异。结果表明,该系统能有效简化复杂工作流程,为中小企业和项目团队提供可追溯的数字化工作环境。
工作流管理可视化仪表盘数据完整性项目追踪全栈开发用户体验
cs
02-23 00:00
本研究对132项研究进行了系统综述,系统梳理了心理健康领域文本对话机器人的评估实践。研究发现,当前评估主要依赖西方开发的量表,文化适应性有限,且多为小规模、短期的样本研究。评估维度分为机器人中心属性(如可靠性、安全性、共情能力)和用户中心结果(体验、知识、心理状态、健康行为)。综述指出,自动化性能指标与用户福祉之间的联系薄弱,并呼吁采用方法三角验证、加强时间纵向研究设计,以及关注评估的公平性,为构建可靠、安全、以用户为中心的评估体系提供了结构化基础。
心理健康对话机器人系统综述评估方法人机交互
cs
02-23 00:00
本文提出BioBridge框架,旨在解决蛋白质语言模型(PLMs)泛化性差与通用大语言模型(LLMs)缺乏蛋白质领域知识的问题。该框架通过领域增量持续预训练(DICP)将蛋白质知识与通用语料同时注入LLM,并利用PLM-Projector-LLM管道实现跨模态对齐,将蛋白质序列嵌入映射至语言模型的语义空间。实验表明,BioBridge在EC、BindingDB等蛋白质基准测试中达到主流PLMs水平,在MMLU、RACE等通用理解任务上与LLMs表现相当,实现了领域适应性与通用语言能力的创新结合。
蛋白质语言模型跨模态对齐持续预训练生物信息学大语言模型
cs
02-23 00:00
本文提出对偶模型,通过“单输入、双输出”范式解决一致性生成模型中的训练权衡问题。传统方法需将训练预算分割给多步与少步目标,导致后者训练不足。DuMo使用共享主干网络与双头设计,从单一输入同时预测速度场$v_t$与流映射$u_t$,将多步目标的几何约束应用于每个样本,从而在不分离训练目标的情况下提升稳定性和效率。在ImageNet 256×256上,仅用2步即达到1.79的SOTA FID分数。
生成模型一致性模型对偶学习概率流ode图像生成扩散模型