今日速览 · Fortune Health

cs 02-19 00:00

融合Koopman算子与贝叶斯感知校准的高保真触觉手术模拟框架

本研究提出了一种结合非线性动力学、感知心理物理学与高频触觉渲染的统一框架，以提升手术模拟的真实感。该框架通过Koopman算子将手术器械与软组织的交互提升至增广状态空间，实现了对本质非线性动力学的线性预测与控制。同时，基于韦伯-费希纳和史蒂文斯标度定律的贝叶斯校准模块，使渲染力信号与个体感知阈值相匹配。在触诊、切口、骨磨削等模拟任务中，系统平均渲染延迟为4.3毫秒，力误差低于2.8%，感知辨别能力提升20%。多元统计分析表明，其性能显著优于传统的弹簧-阻尼器和基于能量的渲染方法。

触觉渲染手术模拟koopman算子贝叶斯校准感知优化虚拟现实

cs 02-19 00:00

基于业务-对话系统对齐模型的实用对话系统评估方法

本文提出了一种识别实用对话系统评估项的方法论。传统上，用户满意度和用户体验是评估对话系统的主要指标。然而，在开发和运营实用对话系统时，还需考虑多种其他评估项，这些评估项有望催生新的研究课题。目前尚无识别这些评估项的系统方法。作者提出基于业务-对话系统对齐模型来识别评估项，该模型是业务-IT对齐模型在实用IT系统开发与运营中的应用。此外，本文还提出了一个通用模型，便于为每个对话系统构建其专属的业务-对话系统对齐模型。

对话系统系统评估业务对齐人机交互软件工程

cs 02-19 00:00

EdgeNav-QE：结合QLoRA量化与动态早退机制，实现边缘设备高效导航

本文提出EdgeNav-QE框架，旨在解决大型动作模型（LAMs）在边缘设备上部署时面临的内存与延迟挑战。该方法创新性地结合了4位精度的量化低秩适应（QLoRA）与动态早退（DEE）机制。QLoRA大幅压缩模型体积，而DEE则根据任务复杂度动态调整推理深度，简单任务提前退出，复杂任务则使用完整模型。在Habitat-Sim环境与Matterport3D数据集上的实验表明，相比全精度基线，该框架将推理延迟降低82.7%，内存占用减少66.7%，同时保持了81.8%的导航成功率。

边缘计算模型量化动态推理自主导航大型动作模型

cs 02-19 00:00

自动驾驶安全测试新框架：从冲突到碰撞的两阶段场景生成方法

本文提出了一种两阶段自动驾驶系统（ADS）安全测试框架，以解决现有方法主要关注已接近碰撞的场景、忽略其他潜在危险的问题。该框架首先将“冲突”作为中间搜索目标，识别出可能引发危险的交通交互场景；随后通过有针对性的变异，将这些冲突场景转化为实际的碰撞场景。在百度Apollo平台上的评估表明，该方法单次运行即可发现多达12种不同的碰撞类型，其发现的碰撞多样性是最先进基准方法的两倍，同时由于针对冲突进行变异，所需的模拟次数更少。这证明了将冲突作为中间目标能拓宽搜索范围，并显著提升ADS安全评估的效率和效果。

自动驾驶安全场景测试冲突检测碰撞生成仿真验证两阶段框架

cs 02-19 00:00

EmoTrack：帮助年轻人反思在线行为的跨平台应用

本研究开发并评估了一款名为EmoTrack的多平台个人信息学应用，旨在帮助年轻人追踪和反思其在线行为，特别是YouTube视频观看习惯。该系统通过记录用户活动，引导用户培养更积极、更专注的在线参与策略。对13名参与者的评估表明，EmoTrack能有效促进用户反思其观看行为及对情绪的影响，反思深度覆盖从R0到R3的不同层次。

人机交互在线行为反思个人信息系统心理健康数字健康应用评估

cs 02-19 00:00

多无人机监控任务中的近距离通用路由问题研究

本文提出了一种针对多无人机监控任务的近距离通用路由问题（CEMUAVGRP），旨在最小化无人机总飞行距离。问题包含节点（每个节点有其磁盘邻域）和边。研究提出了一种两阶段迭代求解方法：第一阶段（通用路由）在不考虑节点邻域的情况下为每架无人机规划包含必需节点和边的满意路径；第二阶段（近距离路由）为已确定路径中的每个必需节点优化其代表点。具体采用自适应迭代局部搜索框架，结合变邻域下降启发式算法与二阶锥规划方法进行求解。实验表明所提算法高效，并验证了磁盘邻域模型的优越性。

无人机路由监控任务迭代优化二阶锥规划变邻域搜索

cs 02-19 00:00

模型能否选择幽默的漫画表情包作为回复？新基准揭示AI理解情境幽默的局限

本研究针对网络交流中动态使用表情包（尤其是漫画面板）创造幽默的“表情包回复选择”任务，提出了包含10万个人工标注对的MaMe-Re基准。分析发现：1）大语言模型初步展现出捕捉夸张等复杂社交线索的能力；2）加入视觉信息并未提升模型性能，揭示了理解视觉内容与将其有效用于情境幽默之间的差距；3）模型在受控环境中可匹配人类判断，但难以区分语义相似候选回复之间微妙的机智差异。这表明，为当前模型选择情境幽默的回复仍是一个开放挑战。

表情包回复情境幽默大语言模型多模态理解人机交互基准测试

cs 02-19 00:00

LLM提示压缩的困惑度悖论：代码比数学推理更抗压缩

本研究揭示了大型语言模型提示压缩中的“困惑度悖论”：代码生成任务能承受高达60%的压缩率，而数学推理任务在压缩后性能会显著下降。通过首个逐令牌困惑度分析发现，代码语法令牌（高困惑度）被保留，而数学问题中的关键数值（低困惑度）却被剪枝。研究提出任务感知自适应压缩算法TAAC，在6个代码和4个推理基准上验证，实现了22%的成本降低与96%的质量保持，性能优于固定比率压缩7%。

提示压缩困惑度分析代码生成数学推理自适应算法大语言模型

cs 02-19 00:00

TaRL：利用语言模型嵌入实现高效少样本表格分类

本文提出了一种名为TaRL的轻量级方法，旨在利用已广泛部署的大型语言模型（LLMs）的语义嵌入能力，解决Web表格（如产品目录、知识库、科学数据集）的少样本分类问题。研究指出，直接应用LLM嵌入效果不佳，但通过移除嵌入中的公共成分并校准Softmax温度，其潜力得以释放。该方法仅需少量样本（k ≤ 32），在语义丰富的表格上即可达到与最先进专用模型相当的性能，为复用现有LLM基础设施进行高效表格理解提供了可行路径。

表格分类少样本学习语言模型语义嵌入web数据

cs 02-19 00:00

大语言模型人格调控的几何限制：性格特质难以独立控制

本研究通过分析大五人格调控向量之间的几何关系，挑战了人格特质可独立调控的常见假设。研究在LLaMA-3-8B和Mistral-8B模型上应用了从无约束到硬正交化的一系列几何条件化方案。结果表明，人格调控方向存在显著的几何依赖性：调控一个特质总会引发其他特质的变化，即使线性重叠已被显式移除。硬正交化虽能强制几何独立，但无法消除跨特质行为效应，且会削弱调控强度。这些发现表明，LLM中的人格特质占据一个轻度耦合的子空间，限制了完全独立的特质控制。

大语言模型人格调控几何分析大五人格向量空间模型行为

cs 02-19 00:00

大语言模型能否评估人格？验证对话AI在特质分析中的有效性

本研究验证了大型语言模型作为传统问卷式人格评估的动态替代方案。通过一项被试内实验（N=33），研究者将基于引导式LLM对话得出的“大五人格”分数与黄金标准IPIP-50问卷结果进行比较，并测量了用户感知的准确性。结果显示，两种方法具有中等程度的聚合效度（r=0.38-0.58），其中尽责性、开放性和神经质得分在统计学上等效。宜人性和外向性则显示出显著差异，表明需要对特定特质进行校准。值得注意的是，参与者认为LLM生成的个人画像与传统问卷结果同样准确。这些发现表明，对话式AI为传统心理测量学提供了一种有前景的新方法。

大语言模型人格评估心理测量学大五人格对话ai聚合效度

cs 02-19 00:00

IntelliAsk：基于偏好优化的审稿问题生成模型提升写作质量

针对现有大语言模型生成审稿问题过于表面化的问题，本研究提出了IntelliReward奖励模型。该模型基于冻结的自回归LLM，并在最后50个词元状态上叠加可训练的多头Transformer，能更准确地预测专家级的人类偏好。通过结合Decoupled Clip和动态采样策略优化（DAPO），训练出与人类在努力程度、证据性和相关性标准对齐的问题生成模型IntelliAsk。实验表明，IntelliAsk在推理任务（如MuSR，准确率68.3 vs 64.7）和复杂写作评估（如WritingBench，得分8.31 vs 8.07）上均优于基础模型，表明审稿问题质量与更广泛的模型能力相关。

大语言模型偏好优化审稿问题生成奖励模型写作评估人工智能对齐

cs 02-19 00:00

叙事理论驱动的大语言模型方法：自动故事生成与理解综述

本综述探讨了如何将叙事理论与大语言模型（LLMs）结合，应用于自动故事生成与理解任务。研究梳理了自然语言处理（NLP）与叙事学领域的交叉研究，提出了一个反映叙事学经典区分的分类法，并分析了叙事数据集、任务、理论以及提示工程与微调等方法趋势。文章指出，LLMs 便于将 NLP 流程与抽象的叙事概念（如情节、角色）连接，为跨学科合作提供了机会。当前挑战在于缺乏统一的叙事任务定义与基准，使得模型比较困难。未来方向应聚焦于：定义和改进基于理论的个体叙事属性评估指标；进行大规模、理论驱动的文学/社会/文化分析；以及设计能验证或完善叙事理论的实验。

大语言模型叙事理论故事生成自然语言处理跨学科研究评估基准

cs 02-19 00:00

临床NLP模型部署安全研究：应对时间泄漏风险的设计方案

本研究针对临床自然语言处理模型在部署中面临的时间泄漏风险，提出了一种轻量级审计流程。该流程将可解释性工具集成到模型开发中，旨在识别并抑制可能编码未来临床决策的文档伪影信号，从而避免模型因过度依赖未来信息而产生虚假的高性能表现。以择期脊柱手术后次日出院预测为案例，研究发现经过审计的模型表现出更保守、校准更好的概率估计，减少了对出院相关词汇线索的依赖。这强调了部署就绪的临床NLP系统应优先考虑时间有效性、校准和行为鲁棒性，而非单纯的乐观性能指标。

临床nlp时间泄漏模型安全可解释性部署风险预测校准

cs 02-19 00:00

轻量级可解释护栏：提升大模型提示安全性的新方法

本文提出了一种轻量级可解释护栏（LEG）方法，用于对大模型输入提示进行安全性分类。该方法采用多任务学习架构，联合训练提示分类器和解释分类器，后者能标注出影响安全决策的关键词。训练数据通过一种新颖的策略生成，以抵消大语言模型的确认偏误。此外，训练过程采用了一种结合交叉熵损失、焦点损失和基于不确定性加权的新损失函数，以捕捉全局解释信号。实验表明，LEG在三个数据集上，无论是域内还是域外评估，其提示分类和可解释性性能均达到或超越了现有方法，且模型规模显著更小。

提示安全可解释ai多任务学习轻量级模型大语言模型

cs 02-19 00:00

任务对话新范式：目标导向偏好优化实现策略与执行的解耦

本文提出目标导向偏好优化（GOPO），一种分层强化学习框架，用于解决任务型对话系统中长期目标与单轮回复的错配问题。GOPO通过专家智能体在对话轨迹层面优化多轮目标偏好，再由客服智能体严格遵循选定策略生成回复。在电商客服数据集上的评估表明，GOPO在序列级评估指标TSE上显著优于PPO、Memento等基线方法，甚至使14B模型的表现超越了规模大得多的模型。该工作为商业场景下的任务对话系统建立了新范式。

任务型对话分层强化学习偏好优化目标导向序列级评估电商客服

cs 02-19 00:00

A2H协议：让AI智能体与人类无缝协作的统一通信标准

本文提出了A2H（Agent-to-Human）协议，旨在解决现有AI智能体系统将人类视为外部观察者而非可交互参与者的核心局限。该协议通过三个关键组件实现：1) 使用“人类名片”通过可解析域名注册人类身份，使其能被智能体发现；2) 定义正式的通信模式，规范智能体联系人类的时机、原因与方式；3) 提供统一的消息抽象层，将复杂的JSON输出标准化并转换为人类友好的格式。A2H为将人类整合进智能体生态系统建立了基础协议，推动AI智能体从孤立的自治系统迈向真正与人连接的智能基础设施。

人机交互ai智能体通信协议多智能体系统标准化

cs 02-19 00:00

用户模拟中未知人格识别：PICQ数据集揭示LLM与人类认知差异

本研究针对现有用户模拟中人格信息不足的问题，提出识别模拟情境下相关但未知用户人格的任务。作者构建了PICQ数据集，包含情境感知选择题及可能影响用户选择的未知人格标注（如“用户是否对价格敏感？”），并提出评估忠实性、影响力和不可及性的多维度评测方案。对主流大语言模型的评测揭示了“忠实性vs.洞察力”的困境：模型影响力随规模增长，但忠实性呈倒U型曲线。研究将此现象归因于认知差异，特别是人类的“认知经济性”倾向，为理解人类与LLM的认知模型差异提供了新视角。

用户模拟人格识别认知差异大语言模型评测对话系统

cs 02-19 00:00

TurboADMM：面向多智能体轨迹优化的并行求解器

本文提出TurboADMM，一种专为多智能体轨迹优化设计的QP求解器。它通过协同设计三个组件来解决现有方法在可扩展性上的不足：1）利用ADMM分解创建可并行求解的智能体子问题；2）采用Riccati预热技术为每个智能体的QP提供高质量初值；3）在qpOASES中实现参数化QP热启动，跨ADMM迭代重用KKT系统因子分解。该方法在保持稠密耦合约束下块三对角结构的同时，实现了接近线性的复杂度扩展。

轨迹优化多智能体系统admm算法qp求解器并行计算

cs 02-19 00:00

沉浸式人机交互十年回顾：扩展现实在社交机器人研究中的应用与局限

本文系统回顾了2015至2025年间扩展现实（XR）作为研究工具在社交人机交互（HRI）领域的应用。通过对6527篇文献的筛选，仅有33项实证研究符合标准。研究发现，当前研究多局限于实验室模拟，机器人常作为被动视觉刺激，而现代头戴设备的生物信号（如眼动追踪）和日志功能远未充分利用。研究团队和样本存在技术中心化、西方化、年轻化和男性化倾向，且硬件延迟、样本同质化、研究周期短浅是主要局限。文章提出了一个包含方法论创新、提升生态效度、改进机器人交互质量、促进样本多样性及建立分类学在内的五阶段路线图，旨在推动XR从实验室原型发展为社交机器人领域有效的生态化研究工具。

人机交互扩展现实社交机器人实证研究文献综述生态效度

cs 02-19 00:00

知识蒸馏在机器翻译中的应用综述：方法、趋势与挑战

本文系统综述了知识蒸馏（KD）在机器翻译（MT）领域的应用（涵盖截至2025年10月的105篇论文）。研究指出，KD在MT中不仅是模型压缩工具，更是通用的知识转移机制，能有效提升翻译质量与效率。文章从方法论贡献和实际应用两个维度对现有工作进行了分类，并通过定性与定量分析揭示了该领域的共同趋势、关键研究空白以及评估实践不统一的问题。同时，报告提供了具体场景下的KD方法选择指南，并警示了应用KD可能带来的幻觉增强和偏见放大等风险，最后探讨了大语言模型（LLM）对KD4MT领域的重塑作用。

知识蒸馏机器翻译模型压缩大语言模型自然语言处理综述

cs 02-19 00:00

GTCA：通过门控树交叉注意力实现检查点兼容的语法增强

本文针对仅解码器大语言模型对语法扰动敏感的问题，提出了一种检查点兼容的门控树交叉注意力（GTCA）分支。该方法在保持主干架构不变的前提下，通过读取预计算的成分块记忆来注入显式句法结构。设计采用令牌更新掩码和分阶段训练来控制结构更新的范围和时机。实验表明，GTCA能在不损害多项选择QA或常识推理性能的情况下，显著提升模型的句法鲁棒性，为现有模型检查点提供了一条实用的语法增强路径。

句法增强模型鲁棒性门控注意力检查点兼容大语言模型

cs 02-19 00:00

EZCollegeApp：基于大语言模型的美国大学申请辅助系统

针对美国大学申请流程中政策分散、表格重复、问题模糊等痛点，本研究提出了EZCollegeApp系统。该系统采用大语言模型（LLM）驱动，通过“先映射后生成”的范式，将表格理解与答案生成分离，确保在不同申请门户间保持一致的推理逻辑。系统整合了官方招生网站的文档解析、检索增强的问答技术，以及一个人在回路（human-in-the-loop）的聊天机器人界面，在提供建议的同时确保最终答案由申请者完全控制。系统架构、数据管道、安全隐私措施及评估方法均已开源。

大语言模型智能教育大学申请检索增强生成人机交互系统架构

cs 02-19 00:00

融合触觉与高精度：新型VR手套实现更真实的虚拟交互体验

针对当前VR手套技术中高精度手套缺乏触觉反馈、触觉手套精度不足的固有矛盾，本研究提出了一种创新的混合方法。该方法将高精度手套与触觉手套相结合，构建了一个能同时提供精确追踪与丰富触觉反馈的系统。这一方案旨在为专业培训、工业应用及危险环境远程操作等场景，提供比传统控制器更自然、更沉浸的交互体验，突破了现有方案只能侧重单一性能的局限。

虚拟现实人机交互触觉反馈手势追踪混合系统vr手套

24 小时跨学科精选

计算机科学

2026-02-19 速览 · 计算机科学

融合Koopman算子与贝叶斯感知校准的高保真触觉手术模拟框架

基于业务-对话系统对齐模型的实用对话系统评估方法

EdgeNav-QE：结合QLoRA量化与动态早退机制，实现边缘设备高效导航

自动驾驶安全测试新框架：从冲突到碰撞的两阶段场景生成方法

EmoTrack：帮助年轻人反思在线行为的跨平台应用

多无人机监控任务中的近距离通用路由问题研究

模型能否选择幽默的漫画表情包作为回复？新基准揭示AI理解情境幽默的局限

LLM提示压缩的困惑度悖论：代码比数学推理更抗压缩

TaRL：利用语言模型嵌入实现高效少样本表格分类

大语言模型人格调控的几何限制：性格特质难以独立控制

大语言模型能否评估人格？验证对话AI在特质分析中的有效性

IntelliAsk：基于偏好优化的审稿问题生成模型提升写作质量

叙事理论驱动的大语言模型方法：自动故事生成与理解综述

临床NLP模型部署安全研究：应对时间泄漏风险的设计方案

轻量级可解释护栏：提升大模型提示安全性的新方法

任务对话新范式：目标导向偏好优化实现策略与执行的解耦

A2H协议：让AI智能体与人类无缝协作的统一通信标准

用户模拟中未知人格识别：PICQ数据集揭示LLM与人类认知差异

TurboADMM：面向多智能体轨迹优化的并行求解器

沉浸式人机交互十年回顾：扩展现实在社交机器人研究中的应用与局限

知识蒸馏在机器翻译中的应用综述：方法、趋势与挑战

GTCA：通过门控树交叉注意力实现检查点兼容的语法增强

EZCollegeApp：基于大语言模型的美国大学申请辅助系统

融合触觉与高精度：新型VR手套实现更真实的虚拟交互体验