cs
01-13 00:00
本研究开发了一个系统性的数据驱动框架,用于评估公共空间质量。通过整合157项同行评议研究中的1207个质量因子,构建了一个经过验证的、涵盖六大空间类型(如城市空间、绿地、街道广场等)的层次化分类体系。该方法结合语义分析、跨类型分布分析和领域知识集成,最终将1029个独特因子组织为14个主类和66个子类,并识别出通用、特定和交叉功能因子。该框架为将实证研究转化为实用评估工具提供了系统方法,支持循证政策制定和跨城市比较分析。
公共空间评估数据驱动框架质量因子城市研究语义分析分类体系
cs
01-13 00:00
本文提出“透明文档”概念,这是一种基于网页的交互式学术文章,允许读者通过悬停文本片段来探索其与底层数据的关系。研究团队开发了一种基于LLM的创作工具,该工具能自动识别文本中可由数据计算得出的片段(如数值、聚合结果、比较级、趋势形容词等),并尝试合成合适的Fluid查询表达式。生成的表达式被嵌入网页,将静态文本转变为可交互的数据驱动元素,从而揭示支撑自然语言主张的数据来源。研究在扩展后的SciGen数据集上进行了评估,结果表明GPT-4o通常能够合成与人工解决方案在扩展意义上兼容的复合表达式。
透明文档数据溯源ai辅助创作交互式论文llm应用人机协作
cs
01-13 00:00
本研究首次将基础模型应用于代码调制视觉诱发电位脑机接口,旨在解决其需要长时间校准的瓶颈。提出了两种方案:完全免校准(无需受试者特定数据)和有限校准(评估增量校准数据的效果)。模型使用其他受试者的数据进行分类头训练,对新受试者实现即插即用。在两个数据集上的测试表明,免校准方法的平均准确率分别达到68.8%和71.8%,与原始研究需要数分钟校准的性能相当;而仅使用20%数据(约43秒)的有限校准方案,准确率可达92%。
脑机接口基础模型视觉诱发电位免校准迁移学习人机交互
cs
01-13 00:00
本文提出了一种基于推荐系统的框架,旨在增强工业排程中的人机协作能力,以应对突发事件的干扰。该框架基于强大的AI规划引擎Timefold构建,通过实验评估了九种启发式算法在真实预防性维护场景下的表现,旨在寻找能在解的质量与计算时间之间取得最佳平衡的算法,从而在需要重新排程时支持近乎最优的决策。研究通过一个简单用例展示了该推荐系统的完整工作流程。
人机协作工业排程推荐系统预防性维护启发式算法鲁棒性
cs
01-13 00:00
本文回顾了60年来人机协作范式的演变,从利克里德的“人机共生”(AI作为同事)到恩格尔巴特的“增强人类智能”(AI作为工具),再到当代的两极:以人为中心的AI“超级工具”与共生智能的相互适应模型。研究将有效协作机制形式化为一个因果链:可解释AI(XAI)→ 共同适应 → 共享心智模型(SMMs)。文章揭示了一个元分析层面的“绩效悖论”:在判断/决策任务中,人机团队常表现出负协同效应(表现逊于AI单独工作),但在内容创作和问题构建任务中则呈现正协同。研究将失败归因于“算法在环”动态、厌恶/偏见不对称以及累积性认知技能退化。最后,文章提出了一个结合“延伸自我”与“双过程”理论的统一框架,认为只有当AI被内化为认知组件,形成统一的人-XAI共生主体时,才能产生持久的增益。这解决了上述悖论,并为未来的研究和实践指明了方向。
人机协作人工智能绩效悖论可解释ai共生智能认知科学
cs
01-13 00:00
本研究针对图形用户界面(GUI)基础任务中的关键缺口——鼠标拖拽操作,提出了首个大规模文本拖拽数据集GUI-Drag(16.1万例)和系统性评测基准ScreenDrag(5333例)。通过高效的持续训练策略,模型在ScreenDrag上取得显著性能提升,同时保持了在ScreenSpot等点击基准上的原有能力。这项工作为构建超越单一点击、面向真实GUI交互场景的通用基础模型铺平了道路。
gui基础模型人机交互文本拖拽数据集构建持续学习自主代理
cs
01-13 00:00
本研究通过访谈43位信任与安全领域专家,系统分析了生成式AI在儿童安全、选举诚信、仇恨骚扰、诈骗和暴力极端主义五大领域的影响。研究发现,生成式AI一方面显著降低了攻击门槛,能以空前规模和速度生成有害内容(如深度伪造和复杂宣传);另一方面,防御者也可利用其大规模检测有害内容、进行调查、部署反叙事、改善审核员福祉并提供用户支持。研究为理解生成式AI的双重影响提供了战略框架,并为其负责任应用以构建更安全的网络环境指明了方向。
生成式ai信任与安全网络安全深度伪造内容审核人机交互
cs
01-13 00:00
本研究提出了一种自主QA代理框架,采用检索增强生成技术,将Selenium测试脚本的生成过程锚定在项目特定的文档和HTML结构中。系统通过将多种格式的文档向量化并检索相关上下文,有效减少了大型语言模型在生成代码时常见的“幻觉”问题。在20个电商测试场景的评估中,该方法生成的脚本语法有效率达100%,执行成功率达90%,显著优于标准LLM生成30%的成功率。
软件测试自动化检索增强生成selenium脚本ui测试大语言模型应用
cs
01-13 00:00
本文评估了最新的SAM 3D人体网格恢复模型,发现其在处理特殊体型(如老年性肌肉萎缩、脊柱侧弯、妊娠)时存在局限。研究指出,这种局限并非模型能力不足,而是其架构设计(依赖低维参数化MHR表示、语义不变条件DINOv3及基于标注的对齐)导致“回归均值”效应的副产品,属于感知-失真权衡的范畴。分析揭示了为何个体生物细节被平滑化,并为将该模型的优异基线性能扩展至医学领域提出了具体、建设性的改进路径。
三维人体重建感知失真权衡医学图像分析参数化模型计算机视觉
cs
01-13 00:00
本文提出了一种可微框架,将随机效用模型(RUM)的公理结构直接嵌入深度神经网络。通过揭示RUM一致性与布尔格上流守恒之间的同构关系,并利用约束图的生成树设计新型树预条件共轭梯度求解器,有效改善了内点法导致的病态Hessian谱,实现了超线性收敛,并能求解此前被认为无法处理的问题规模。该投影过程通过隐函数定理被构建为可微层,其精确雅可比矩阵可在反向传播中传递几何约束。实验表明,这种“公理即层”的范式消除了基于惩罚方法的结构性过拟合,使模型可联合训练、可证明理性,并能在标准近似方法失效的稀疏数据场景中泛化。
可微优化随机效用模型树预条件公理嵌入神经网络隐函数定理
cs
01-13 00:00
本文提出TeleMem,一个统一的长期多模态记忆系统,旨在解决大语言模型在长程交互中因注意力有限而表现不佳的问题。系统通过叙事动态提取维护连贯的用户画像,确保仅保留基于对话的信息。其结构化写入流程通过批量处理、检索、聚类和整合记忆条目,显著提升了存储效率,减少了令牌使用并加速了记忆操作。结合ReAct式推理的多模态记忆模块,使系统具备“观察-思考-行动”的闭环能力,能准确理解长期上下文中的复杂视频内容。实验表明,在ZH-4O长期角色扮演游戏基准上,TeleMem在准确率上超越Mem0基线19%,令牌使用减少43%,速度提升2.1倍。
长期记忆多模态ai检索增强生成智能体系统记忆管理视频理解
cs
01-13 00:00
本文提出CrossTrafficLLM,一个基于大语言模型(LLM)的生成式人工智能框架,旨在统一交通预测与自然语言描述生成。该框架的核心挑战在于对齐定量交通数据与定性文本语义。技术上,它采用文本引导的自适应图卷积网络,将高层语义信息与交通网络结构有效融合。在BJTT数据集上的评估表明,该框架在交通预测精度和文本生成质量上均超越了现有方法,为智能交通系统提供了更可解释、更具可操作性的生成式交通智能方案。
智能交通系统大语言模型交通预测图神经网络可解释ai生成式ai
cs
01-13 00:00
本研究通过偏最小二乘结构方程模型(PLS-SEM)对413名新手程序员进行调查,探讨了他们对ChatGPT编程助手的采纳意愿。研究发现,新手程序员对ChatGPT的绩效期望(PE)越高,其在编程任务中的决策(DM)能力越强。他们普遍将ChatGPT视为提升学习和技能发展的工具。同时,对ChatGPT持有积极风险-回报评估(RRA)的程序员,倾向于做出更自信有效的决策,认为其快速解决问题和学习新技术的益处大于潜在风险。对ChatGPT在决策中作用的积极感知,显著增强了他们使用该工具进行编程的意愿。
编程教育ai工具采纳新手程序员风险感知决策行为结构方程模型
cs
01-13 00:00
本研究通过定量分析视频通话中的数据消耗,评估了摄像头开启与关闭模式下的碳排放差异。实验利用手机4G网络进行,测量了不同模式下的数据传输量。结果表明,在移动网络环境下,关闭摄像头可将数据消耗及相应的碳排放减少约一半。研究为优化数字通信工具能效、降低其环境足迹提供了实证依据,并提出了减少通话期间环境影响的具体建议。
碳排放视频会议数据消耗能效评估定量分析环境信息学
cs
01-13 00:00
本文提出,大语言模型(LLM)中出现的“欺骗”或“隐藏目标”行为,不应被解读为智能体的意图,而是模型对训练数据中不连贯语言结构的高度保真。通过分析思维链(CoT)记录,作者指出“错位”输出是对模糊指令、语境反转及预设叙事的连贯回应。其“意图性”表象源于主谓语法和训练内化的概率完成模式。Anthropic的研究表明,对语言场进行微小扰动即可消解普遍“错位”,这与对抗性智能体假设相悖,却与结构保真度一致。模型如同一面生成之镜,映照出人类语言自身的不连贯性。
ai对齐大语言模型结构保真度语言哲学ai安全思维链
cs
01-13 00:00
本研究通过比较法分析,评估AI生成的法证证据是否符合法律可靠性标准。研究发现,AI工具虽能提升证据分析规模,但其可复现性缺陷、法庭技术素养不足及缺乏标准化验证协议,导致采信标准不一。研究强调,需建立独立的AI证据验证机制及专门的可采性标准,以防范错误定罪风险,推动AI在刑事司法系统中的负责任整合。
人工智能证据刑事审判法证科学可采性标准司法可靠性错误定罪
cs
01-13 00:00
本研究在ChatGPT(GPT-5.1)的Web界面中发现了一种可复现的行为效应:当对话以用户上传受版权保护的图片并要求移除水印(模型正确拒绝)开始时,后续所有生成无关、良性图像的请求在该会话的剩余时间内都会被拒绝。然而,纯文本请求(如生成Python函数)则不受影响。在40次手动运行的会话中,受“污染”的线程在120次图像生成请求中拒绝了116次(96.67%),而对照组则无拒绝(Fisher精确检验 $p < 0.0001$)。研究者将此现象描述为“安全状态持续性”,即一次版权拒绝会过度泛化,影响后续无关的图像生成行为。这凸显了多模态AI系统中会话级安全交互的复杂性,对系统可靠性、用户体验和安全设计具有启示意义。
多模态ai安全机制会话状态行为分析用户体验版权保护
cs
01-13 00:00
本研究评估了GPT-3.5 Turbo和GPT-4在应用心理理论(ToM)任务上的表现,包括失言测试、社交故事问卷和故事理解测试。结果显示,GPT-4在失言测试中达到接近人类的准确率,在社交故事问卷中与神经典型成年人相当,在故事理解测试中甚至超越了人类基准。然而,GPT-4在高达42%的回答中使用了不确定性标记,表明其在现实辅助应用中仍需进一步优化以确保可靠性。
心理理论大语言模型社会认知人工智能辅助自闭症
cs
01-13 00:00
本研究基于GITT-VT分析范式,回顾了贝叶斯思维海绵框架(BMF)分析工具及bayesvl R软件包七年来的发展历程。该工具旨在降低人文社科领域研究者,特别是早期职业研究者(ECRs)进行高级定量分析的门槛。自2019年以来,该工具已支持来自22个国家的160余位作者,在跨学科领域发表了112篇同行评议论文。研究表明,这种易于获取、理论驱动的计算工具能够培养更具包容性的方法论生态系统,并推动设计出灵活、可复现且适合跨学科研究的新一代研究方法。
贝叶斯推理人文社科研究方法早期职业研究者计算工具跨学科研究
cs
01-13 00:00
本文指出当前角色扮演模型(如RAG、基于事实的提示、基于文献的学习和合成数据生成)在塑造可信、有深度的角色方面存在系统性缺陷,其根源在于训练范式忽略了角色内部世界的动态交互。作者提出了VEJA(价值观、经验、判断、能力)框架,作为一种新的数据管理范式,旨在建模人类互动中特有的审慎、价值冲突的推理过程。一项试点研究通过LLM作为评判者的评估表明,基于VEJA手动策划的数据集在质量上显著优于最先进的合成基线,证实了向概念驱动的数据管理转变对于创造具有真实深度和叙事连续性的角色扮演代理至关重要。
角色扮演模型veja框架数据管理人工智能叙事连续性llm评估
cs
01-13 00:00
随着脑机接口从医疗实验走向消费和军事领域,人类神经系统成为可被攻击的网络化载体。现有网络安全、生物医学安全和数据保护框架无法应对神经信号完整性面临的对抗性威胁,导致治理缺口。本文以新加坡为案例,通过制度分类分析和监管授权映射,揭示了一个结构性悖论:一个在网络安全和生物医学领域均具备高监管能力的国家,却因未能将人脑归类为基础设施,而在两者的交叉领域存在脆弱性。文章提出了“认知主权”概念,即保护神经过程免受外部调制的战略能力,并建议将人脑作为关键国家基础设施的一个独立层加以保护。
脑机接口神经安全认知主权治理缺口基础设施新加坡
cs
01-13 00:00
本研究对孟加拉语文学与新闻两大语料库(Vacaspati与IndicCorp)进行了全面的语言学分析。通过计算类型-标记比(TTR)、罕用词比例(HLR)、Bigram多样性、平均词长等指标,发现尽管规模较小,文学语料库展现出显著更高的词汇丰富度与结构复杂度。困惑度分析进一步证实文学文本比新闻文本更难预测。研究还发现,在NLP下游任务中,融合文学数据能提升模型性能。此外,文学语料更符合齐夫定律(Zipf's law),并具有更高的熵与更低的冗余度。可读性指数(如Flesch指数)也表明文学文本更为复杂。
语料库语言学孟加拉语nlp词汇多样性可读性分析齐夫定律困惑度
cs
01-13 00:00
本研究调查了菲律宾教师对在课堂中整合人工智能(AI)工具的态度、保留意见、准备度和开放度。结果显示,尽管教师们对AI整合表达了高度的保留意见,但他们总体上持积极态度,并相信自己已准备好且非常愿意将这些技术作为传统教学方法的补充。教师们充分意识到AI工具在满足学生个性化学习需求方面的潜在益处,并报告获得了所在机构的高度支持。
人工智能教育教师态度技术整合菲律宾教育课堂技术
cs
01-13 00:00
本研究针对印度铁路工场安全管理的系统性挑战,提出了ISMS-CR(中央铁路工场集成安全管理系统)。该框架通过一个自动化的“工作许可”模块,将工作授权的全生命周期数字化,包括许可发起、验证、批准、执行与关闭。通过强制执行结构化工作流、基于角色的责任制和可追溯的数字记录,该系统旨在减少人为错误、行政延误和程序违规,从而提升高风险铁路工场环境下的操作可靠性与安全维护实践。
安全管理铁路工场数字化框架工作许可模块化系统工业安全