cs
02-05 00:00
研究探索了人机混合模式识别高影响力科研问题的可行性。该方法分为三个阶段:首先利用AI大规模处理文献生成混合信息库;其次通过集成多个大语言模型提出候选问题池,并采用交叉模型投票机制进行初步筛选;最后通过多阶段过滤流程,逐步增加人类专家监督,对问题进行精炼。实验表明,AI在识别已确立的突破上与人类专家高度一致,但在预测前瞻性问题时存在较大分歧,凸显了人类判断在评估主观、前瞻性挑战中的关键作用。
人机协作科研问题识别大语言模型ai科学家前瞻性评估
cs
02-05 00:00
本研究提出了一种视觉语言模型(VLM),能够自动编辑网页HTML以修复违反Web内容无障碍指南(WCAG2)的问题。该方法将任务定义为有监督的图像条件程序合成,模型根据HTML代码及其渲染图像学习修正。团队构建了包含人工修正样本的新数据集WebAccessVL,并进一步提出违规条件VLM,通过额外输入WCAG2违规数量来引导修正过程。实验表明,该方法能将每个网站的平均违规数从5.34降至0.44,性能优于Gemini、GPT-5等商业大语言模型API。感知研究证实,修正后的网站在保持原始视觉外观和内容方面表现良好。
网页无障碍视觉语言模型程序合成html自动修复wcag指南
cs
02-05 00:00
本研究通过半结构化访谈和反思性主题分析,探讨了十名中国研究生对AI认知行为疗法聊天机器人(AI-CBT)的认知与使用体验。研究发现,学生对AI-CBT持谨慎开放态度:其感知有用性和全天候可及性支持积极态度,但数据隐私、情感安全及对复杂问题适配性的担忧限制了使用意愿。社会规范(如污名化和同伴看法)和感知控制(数字素养、语言质量)进一步影响采纳行为。研究为针对中国学生群体的AI心理健康工具提供了文化敏感的设计、传播和部署建议,并围绕透明度、安全措施和分级护理路径提出了具体设计启示。
ai心理治疗认知行为疗法心理健康用户接受度质性研究健康信念模型
cs
02-05 00:00
本研究通过定量方法,调查了沙特阿拉伯公民在接触自动驾驶技术前后的态度变化。研究发现,信任、感知安全和便利性是影响公众接受度的关键因素,而年龄、性别、教育水平和驾驶习惯等人口统计学变量也会对接受度产生影响。研究结果为沙特“2030愿景”框架下的智慧交通政策制定和产业推广提供了实证依据。
自动驾驶汽车公众接受度沙特阿拉伯智慧交通定量研究态度转变
cs
02-05 00:00
本研究提出了PaperX框架,旨在解决将科学论文自动转化为多模态演示内容(如幻灯片、海报)的难题。传统方法将每种格式视为独立任务,导致处理冗余和语义不一致。PaperX的核心创新是引入“学者DAG”这一中间表示,将论文的逻辑结构与最终呈现语法解耦。通过应用自适应图遍历策略,该框架能从单一源论文生成多样且高质量的演示输出。综合评估表明,PaperX在内容保真度和美学质量上达到先进水平,同时相比专用单任务代理显著提升了成本效率。
学术演示生成多模态内容图结构表示自动化研究传播统一框架
cs
02-05 00:00
本研究首次从特征学习的理论视角,分析了差分隐私随机梯度下降(DP-SGD)在长尾数据上的训练动态。研究发现,DP-SGD在长尾子群体上的测试误差显著高于整体数据集误差。理论分析表明,梯度裁剪和噪声注入的联合作用,会损害模型对信息丰富但样本稀少的代表性样本的记忆能力,从而解释了DP-SGD在长尾数据上泛化性能下降的现象。该结论在合成与真实数据集上得到了广泛实验验证。
差分隐私长尾数据dp-sgd记忆效应泛化性能特征学习
cs
02-05 00:00
本研究首次将测试时缩放(TTS)技术应用于音频语言模型(ALMs)的模糊情绪识别任务。通过系统评估8个前沿ALMs模型和5种TTS策略在三个主流语音情感数据集上的表现,深入分析了模型容量、TTS策略与情感模糊性之间的交互关系。研究为开发更鲁棒、上下文感知的语音AI系统奠定了基础,并揭示了弥合模型假设与真实世界复杂情感之间差距的关键方向。
情感计算音频语言模型测试时缩放模糊情绪识别语音分析
cs
02-05 00:00
本研究提出了一种用于13C核磁共振(NMR)的可逆深度学习模型,采用单一的条件可逆神经网络(cINN)统一了分子结构与光谱之间的双向映射。模型基于i-RevNet风格的双射块构建,其前向映射与逆映射在结构上天然可得。训练时,模型从基于图的结构编码预测128位分箱光谱代码,其余潜在维度捕获残差变异性。推理时,可逆同一训练网络,从光谱代码生成结构候选,显式表征了谱到结构推断的一对多性质。在过滤子集上,模型在训练样本上数值可逆,光谱代码预测优于随机基线,且在验证光谱上逆推时能产生粗略但有意义的分子结构信号。结果表明,可逆架构可在单一端到端模型内统一光谱预测与不确定性感知的候选结构生成。
可逆神经网络核磁共振谱化学信息学分子结构预测双向学习深度学习
cs
02-05 00:00
本文提出了一种名为GOPO(Group Ordinal Policy Optimization)的新策略优化方法,旨在解决基于人类反馈的强化学习(RLHF)中奖励模型与策略优化目标不匹配的问题。传统方法依赖奖励的绝对值进行训练,而GOPO仅利用奖励的排序信息,舍弃其具体数值。在摘要、指令遵循等奖励难以验证的任务中,该方法相比现有技术(如GRPO)能带来更优的训练/验证奖励轨迹、在多数训练步骤中获得更好的LLM-as-judge评估结果,并能以更少的训练步骤达到同等质量的策略。实验表明该方法在不同任务和模型规模上均能带来一致改进。
强化学习人类反馈策略优化奖励模型排序学习大语言模型
cs
02-05 00:00
本文首次系统性地综述了3D高斯泼溅(3DGS)资产的知识产权保护研究。3DGS已成为实时3D场景合成的主流表示方法,其商业价值与显式参数化结构引发了新兴的IP保护问题。文章提出了一个自下而上的分析框架,系统梳理了(i)基于高斯扰动的底层机制、(ii)被动与主动保护范式,以及(iii)生成式AI时代下的鲁棒性威胁,揭示了当前技术基础与鲁棒性表征方面的不足,并指出了深入研究的机遇。最后,文章围绕鲁棒性、效率与保护范式提出了六个未来研究方向。
3d高斯泼溅知识产权保护数字资产鲁棒性参数化表示生成式ai
cs
02-05 00:00
本文提出TruKAN,一种改进的Kolmogorov-Arnold网络架构。它用k阶样条理论中的截断幂函数族替代原KAN的B样条基,在保持表达力的同时提升了精度与训练效率。每层TruKAN结合截断幂项与多项式项,并采用共享或独立节点配置,增强了模型可解释性。研究将TruKAN集成至EfficientNet-V2框架,在计算机视觉基准测试中对比了MLP、KAN、SineKAN等模型。结果表明,TruKAN在复杂视觉任务上实现了更高的精度、更优的计算效率与内存使用。
神经网络kan模型计算效率可解释ai计算机视觉模型优化
cs
02-05 00:00
本研究提出了一种名为DiGAN的扩散引导注意力网络,用于解决阿尔茨海默病(AD)早期诊断中因脑结构变化细微且时间进程不规则带来的挑战。该方法将潜在扩散模型与注意力引导的卷积网络相结合:扩散模型能从有限的训练数据中合成逼真的纵向神经影像轨迹,丰富时间上下文并增强对不规则间隔临床访问的鲁棒性;注意力卷积层则能捕捉区分认知正常、轻度认知障碍及主观认知下降的判别性结构-时间模式。在合成数据和ADNI数据集上的实验表明,DiGAN在早期AD检测任务上优于现有先进基线方法。
阿尔茨海默病早期检测扩散模型注意力机制纵向数据分析神经影像
cs
02-05 00:00
本研究提出PriorProbe方法,基于“人参与的马尔可夫链蒙特卡洛”技术,从个体参与者中恢复精细的、个体特定的认知先验。在面部表情识别任务中,将恢复的先验与最先进的神经网络结合,显著提升了模型对个体在模糊刺激上分类决策的预测能力,性能优于单独使用神经网络或其他先验来源,同时保持了模型对真实标签的推断准确性。该方法为深度神经网络的个性化提供了一个通用且可解释的框架。
个性化神经网络认知先验面部表情识别人机交互贝叶斯推断mcmc
cs
02-05 00:00
本研究提出了一种用于增材制造三维断层扫描体积中孔隙检测与临界性评估的可解释计算机视觉框架。该框架通过强度阈值分割与连通分量分析识别了500个孔隙,并提取了尺寸、长宽比、范围及距表面距离等几何特征。通过构建包含24,950个连接的孔隙交互网络,利用机器学习模型预测孔隙临界性。SHAP分析表明,归一化表面距离是预测临界性的主导因素,其重要性比其他所有描述符高出一个数量级以上,揭示了边界驱动的失效机制。该框架为增材制造工艺优化与质量控制提供了透明且可操作的见解。
可解释ai增材制造缺陷检测计算机视觉孔隙分析质量控制
cs
02-05 00:00
本文针对语言引导的音视频分割任务,提出了无需真值标注的掩码质量评估新任务(MQA-RefAVS)。研究者构建了包含多种几何与语义错误模式的基准数据集MQ-RAVSBench,并开发了基于多模态大语言模型的评估器MQ-Auditor。该模型能联合推理视频、音频、文本及掩码信息,输出预测IoU、错误类型诊断及质量控制建议。实验表明,MQ-Auditor优于现有开源及商用MLLM,可集成至现有分割系统中,用于检测分割失败案例并支持下游性能提升。
音视频分割质量评估多模态大模型无参考评估错误诊断
cs
02-05 00:00
本研究提出了一种基于视觉Transformer(ViT)基础模型的零样本动物图像聚类方法,无需人工标注即可将数千张未标记图像直接聚类至物种级别。通过系统评估5种ViT模型、5种降维技术与4种聚类算法的组合,在60个物种(30种哺乳动物、30种鸟类)数据集上验证了方法的有效性。结果显示,使用DINOv3嵌入结合t-SNE与监督层次聚类可实现近乎完美的物种级聚类(V-measure: 0.958),无监督方法也达到0.943的性能,仅需专家复核1.14%的异常图像。该方法还能通过有意过聚类可靠地识别种内变异,如年龄、性别二态性等生态学有意义模式。
计算机视觉零样本学习生态监测图像聚类transformer生物多样性
cs
02-05 00:00
该研究提出了NH-Fair基准,旨在标准化评估从视觉模型到大型视觉语言模型(LVLMs)的偏见缓解方法。研究发现:1)许多去偏方法在精心调优的经验风险最小化(ERM)基线面前并未表现出可靠优势;2)一种复合数据增强方法能持续提升公平性且不牺牲模型性能,是实用的策略;3)LVLMs虽平均准确率更高,但仍存在子群差异,且模型规模带来的增益通常小于架构或训练协议的选择。研究为公平性评估提供了可复现、考虑超参数调优的流程。
公平性基准偏见缓解视觉语言模型数据增强模型评估机器学习
cs
02-05 00:00
本研究针对传统希贾字母教学中重复记忆导致的低参与度问题,设计并实现了一套基于游戏化的创新学习系统。该系统采用ADDIE框架开发,集成Unity 2D与Firebase技术,融合积分、徽章、排行榜等游戏元素,并包含视觉动画、标准发音音频及互动描摹练习。实证评估显示,50名小学生的平均测试分数从42.8提升至88.6(提升107%,p < 0.001),效应量极大(Cohen's d = 4.87),同时用户参与度高(日均4.2次会话),动机评分达4.82/5。该方法不仅提升了认知技能,还培养了毅力与责任感等内在价值。
游戏化学习希贾字母教育技术伊斯兰教育addie框架实证评估
cs
02-05 00:00
本研究开发了一套基于裸眼3D显示的虚拟课堂系统,通过呈现具有不同行为(如点头、记笔记、打瞌睡)的3D学生角色来模拟课堂共在感。实验对比了仅呈现积极行为与混合呈现积极/消极行为两种条件,通过分析学习者的姿势和记笔记行为发现,混合行为场景更能帮助维持学习专注力。这为提升点播式在线讲座的教学效果提供了新策略。
在线教育虚拟课堂学习专注力3d显示人机交互
cs
02-05 00:00
计算可重复性是科学研究的基石,但实践中仍面临激励不足、技术门槛高及期刊标准不一等障碍。本文首先综述了可重复性对作者和期刊的益处,并基于在多家期刊进行可重复性核查的实践经验,提出了简洁、跨学科的实用操作指南。文章进一步分析了当前期刊政策的巨大差异,并为此提出了一个统一的多层级可重复性标准框架概念,旨在支持跨期刊和研究社区的透明、一致评估,以降低实践门槛,推动可重复性研究的广泛采纳。
计算可重复性科研实践指南期刊政策开放科学研究标准mardi倡议
cs
02-05 00:00
本研究通过分析美国土木工程师学会1999-2025年间近15万篇论文摘要,首次对LLM在土木与环境工程(CEE)学术写作中的使用及其影响进行了大规模数据驱动评估。研究采用基于词汇频率偏移的方法,估计2024年和2025年发表的摘要中分别有15%和26%可能由LLM生成。分析发现,自2023年起,摘要的词汇选择、句式结构、标点使用及语气均出现系统性偏移,LLM生成的文本倾向于使用更多样化的词汇、更复杂的句法、更少的被动语态和不确定性修饰语,使行文更显分段化、复杂化和断言化。
大语言模型学术写作土木工程量化分析文本风格词汇偏移
cs
02-05 00:00
本文提出了首个专为动态点云序列理解设计的MLLM模型4DPC^2hat,解决了现有方法主要关注静态对象、缺乏大规模跨模态数据集的局限。核心贡献包括:1)构建了大规模跨模态数据集4DPC^2hat-200K,包含超过44K动态序列和200K问答对;2)设计了Mamba增强的时间推理MLLM,以捕捉点云序列中的长程依赖和动态模式;3)提出了一种失败感知的自举学习策略,通过迭代识别模型缺陷并生成针对性监督来持续增强推理能力。实验表明,该模型在动作理解和时间推理方面显著优于现有模型。
动态点云多模态大模型时间推理自举学习4d理解
cs
02-05 00:00
本研究提出了一种名为GPAIR的超快三维光声迭代重建方法,解决了传统迭代重建算法在三维成像中耗时过长(可达数小时)的瓶颈。该方法的核心创新在于使用连续各向同性高斯核替代传统空间网格,并推导了压力波的解析闭式表达式。通过结合强大的GPU加速可微分Triton算子,GPAIR在包含840万个体素的动物实验数据上,实现了亚秒级的超快重建速度,比传统方法快数个数量级。这一突破使大规模三维光声成像接近实时化,有力推动了该技术向临床应用的转化。
光声成像迭代重建高斯核gpu加速三维重建计算成像
cs
02-05 00:00
本研究借鉴认知与教育科学中的任务-方法-知识(TMK)框架,提出了一种新的提示方法,以解决大语言模型在复杂规划任务中的推理缺陷。通过在PlanBench基准的Blocksworld领域进行测试,TMK提示法使模型在原本失败的不透明符号任务(准确率31.5%)上取得了高达97.3%的准确率。结果表明,TMK不仅能提供上下文,更能引导模型从默认的语言模式转向形式化的代码执行路径,有效弥合语义近似与符号操作之间的鸿沟。
大语言模型推理能力任务规划提示工程tmk框架符号操作