cs
01-01 00:00
本研究针对莱顿大学1575-1815年教授与学监传记资料,设计了一套自动化处理流程,整合OCR、基于大语言模型的数据解析与数据库链接技术,将打字机历史文档转化为结构化数字记录。OCR字符错误率(CER)为1.08%,词错误率(WER)为5.06%。生成式AI从OCR文本中提取JSON数据的平均准确率达63%(基于标注OCR为65%),表明AI能部分修正OCR的低性能。记录链接算法对标注JSON文件的链接准确率达94%,对OCR衍生JSON文件达81%。该研究为数字人文提供了处理版面多变、术语差异历史文档的自动化解决方案,并探索了先进生成式AI模型的应用潜力。
数字人文ocr技术生成式ai数据库整合历史档案数字化记录链接
cs
01-01 00:00
本文提出一个用于评估和改进大语言模型(LLM)生成结构化输出(如JSON)一致性的综合框架。该框架结合了两种核心方法:1)STED(语义树编辑距离),一种在比较JSON输出时平衡语义灵活性与结构严格性的新型相似性度量;2)一个一致性评分框架,通过聚合多次生成结果的STED测量值来量化可靠性。在受控的合成数据集上的实验表明,STED相比TED、BERTScore和DeepDiff等现有指标表现更优(语义等价项相似度达$0.86-0.90$,结构断裂项为$0.0$)。应用该框架对六个LLM进行基准测试,揭示了显著差异:Claude-3.7-Sonnet表现出卓越的一致性,即使在高温参数($T=0.9$)下也能保持近乎完美的结构可靠性,而Claude-3-Haiku和Nova-Pro等模型则表现出明显退化。该框架为基于LLM的生产系统中确保可靠的结构化输出生成提供了理论基础和实用工具。
大语言模型结构化输出可靠性评估语义相似度json一致性模型基准测试
cs
01-01 00:00
本研究针对低资源语言代码生成难题,提出了BanglaCodeAct框架。该框架采用基于多智能体提示和迭代自校正的方法,无需任务特定微调,通过“思考-代码-观察”循环,动态生成、测试并优化来自孟加拉语指令的Python代码。在mHumanEval数据集上的评估显示,Qwen3-8B模型结合该框架,在开发集和盲测集上分别取得了94.0%和71.6%的pass@1准确率,为孟加拉语代码生成设立了新基准,并验证了智能体推理在低资源语言可靠代码生成中的潜力。
代码生成低资源语言多智能体迭代自校正孟加拉语python
cs
01-01 00:00
本研究提出HarmTransform框架,通过多智能体迭代辩论与优化,系统地将显性有害查询转化为语义相同但形式更隐蔽的变体,以弥补现有大语言模型安全训练数据中对隐蔽威胁覆盖的不足。实验表明该方法在生成有效查询转换方面显著优于基线。分析同时指出,辩论机制是一把双刃剑,在提升隐蔽性的同时可能引入话题偏移与不必要的复杂性。
大语言模型安全多智能体辩论有害查询转换安全对齐对抗性样本
cs
01-01 00:00
本研究提出了一种基于过程挖掘的方法,用于分析在线游戏网络流量。该方法能够:1)从游戏网络数据中无监督地识别不同状态;2)通过过程挖掘将这些状态编码为可解释的Petri网模型;3)对游戏网络流量数据进行分类,以识别正在运行的不同视频游戏。在UPSIDE案例研究中,该方法成功建模了《皇室战争》和《火箭联盟》两款游戏的网络行为,所构建的Petri网模型在设备间相似度达到94.02%,状态间分离度达174.99%,同时对两款游戏的分类AUC达到73.84%,实现了有效且可解释的网络行为建模。
过程挖掘网络流量分析petri网游戏网络无监督学习流量分类
cs
01-01 00:00
本综述系统回顾了人工智能在CAD到网格生成流程中的最新应用进展。研究显示,机器学习技术能够辅助零件分类、预测网格质量、实现特征简化,并改进非结构化与块结构化网格生成方法。同时,AI支持体积参数化、加速并行网格生成,并探索了强化学习与大型语言模型在脚本自动化中的应用。总体而言,AI作为一种辅助技术,扩展了传统几何与网格工具的能力,为下一代数据驱动的网格工作流奠定了基础。
人工智能网格生成工程仿真cad机器学习自动化
cs
01-01 00:00
研究比较了大型语言模型(LLMs)在生成医学认证考试题目时,使用公开描述(naive策略)与结合内部蓝图、指南和范例(guided策略)的差异。通过GPT-4o、Claude 4 Sonnet和Gemini 2.5 Flash模型生成160道题目,并使用PubMedBERT和BioBERT编码计算余弦相似度。结果显示,虽然guided策略具有独特性,但在病毒性肺炎、高血压等狭窄临床领域,两种策略生成的题目相似度超过0.65阈值,表明仅凭公开信息也可能生成与内部指导高度相似的考题,增加了考题泄露风险。
ai生成考题考试安全大语言模型医学认证题目相似性余弦相似度
cs
01-01 00:00
针对在线性别歧视内容日益隐蔽、依赖语境且传统检测方法效果不佳的问题,本研究提出一个两阶段框架。训练阶段采用类别平衡焦点损失、类别感知批处理及阈值校准来缓解数据稀缺、噪声和类别不平衡。推理阶段引入动态路由机制:高置信度样本直接分类,不确定样本则交由新型“协作专家判断”模块处理,该模块模拟多角色辩论并通过法官模型整合推理。该方法在多个基准测试中取得最优结果,在EXIST 2025 Task 1.1上F1值提升2.72%,在EDOS Tasks A和B上分别提升4.48%和1.30%。
性别歧视检测不确定性推理专家辩论动态路由噪声鲁棒性自然语言处理
cs
01-01 00:00
本研究提出了一种由小分子构成、酶驱动的生化计算模式,旨在实现与电子计算机相媲美的通用计算能力。通过利用酶对酶促反应的控制效应设计逻辑门模型,并对其输入输出特性进行数学分析,证明了该生化计算模式满足实现时序逻辑电路的关键条件——顺序映射。结合非与门的存储特性,该模式能够实现连续计算和状态存储,为开发下一代通用生化计算机提供了理论依据。
生化计算时序逻辑酶驱动逻辑门通用计算机计算模式
cs
01-01 00:00
本研究利用锑-碲掺杂的GeSe材料中的电驱动Ovonic阈值开关,在单个两端器件中实现了自持动力学和通用布尔逻辑(包括传统上需要多个有源器件网络才能实现的XOR运算)。该器件还能通过逻辑驱动动力学直接检测并估计图像中的边缘梯度。由Ovonic开关组成的网络展现出半加器和全加器的特性,并能处理抑制性和兴奋性信号。相比主流数字解决方案,该计算基元在实现复杂功能的同时,能效提升了多个数量级,为模拟生物神经元树突功能、发展高效的后数字神经形态计算开辟了新路径。
神经形态计算ovonic开关类树突器件布尔逻辑边缘检测能效计算
cs
01-01 00:00
本文提出了一种名为Agentic Cloud Data Engineering的策略感知控制架构,旨在解决云数据管道在动态负载、模式演变和严格治理要求下面临的挑战。该架构将边界明确的AI智能体集成到管道的治理与控制平面中,使其能够分析遥测数据与元数据,依据声明的成本与合规策略进行推理,并提出诸如自适应资源重配置、模式协调及自动化故障恢复等受约束的操作建议。实验表明,相比静态编排,该平台能将平均管道恢复时间降低45%,运营成本减少约25%,并将人工干预事件减少70%以上,同时保证数据新鲜度与策略合规性。
云数据管道智能体控制策略治理自动化运维成本优化
cs
01-01 00:00
针对LLM智能体在安全关键应用中可能违反时序安全策略(如先认证后访问数据)的问题,本文提出了Agent-C框架。该框架引入了一种用于表达时序属性的领域特定语言,将规范转换为逻辑公式,并利用SMT求解在生成过程中实时检测违规动作。当LLM试图生成不合规的工具调用时,Agent-C通过约束生成技术确保每个动作都符合规范,并提供合规的替代方案。在零售客服和机票预订等实际应用中的评估表明,Agent-C实现了100%的安全符合率,同时提升了任务效用,为可靠智能体推理设立了新的前沿。
llm智能体时序约束形式化验证安全策略约束生成smt求解
cs
01-01 00:00
本文针对家庭服务机器人执行“拿个盘子”等指令时面临的挑战——推断视线外物品的存放位置,提出了“存储家庭物品挑战”基准任务。研究者构建了包含真实厨房场景和公开图像的两个数据集,并开发了NOAM混合智能体。该模型将视觉输入转化为空间上下文和可见容器的自然语言描述,再利用大语言模型(如GPT-4)推理最可能的隐藏存储位置。评估显示,NOAM的预测准确性显著超越基线模型,并接近人类水平,为部署具备常识推理能力的家庭机器人提供了有效方案。
服务机器人常识推理视觉语言模型家庭场景理解人机交互
cs
01-01 00:00
当前概率编程语言将模型表示与特定推理算法紧密耦合,限制了新表示形式或混合离散-连续模型的实验。本研究引入了一个因子抽象,定义了五种基本操作,作为操作因子的通用接口,与其底层表示无关。这实现了表示无关的概率编程,允许用户在单一统一框架内自由混合不同表示(如离散表、高斯分布、基于采样的方法),从而支持当前工具无法充分表达的复杂混合模型的实际推理。
概率编程因子抽象混合模型表示无关推理算法统一框架
cs
01-01 00:00
针对先进工艺节点下设计-技术协同优化(DTCO)的迫切需求,本研究提出了AgenticTCAD框架。该框架通过构建专家标注的开源TCAD数据集并微调领域专用模型,解决了大语言模型生成有效TCAD代码的难题。基于此,AgenticTCAD作为一个由自然语言驱动的多智能体系统,实现了端到端的自动化器件设计与优化。在2纳米纳米片场效应晶体管(NS-FET)设计验证中,该框架仅用4.2小时即达到国际器件与系统路线图(IRDS)-2024的器件规格,而人类专家使用商业工具则需要7.1天。
tcad仿真大语言模型多智能体系统器件优化自动化设计设计-技术协同优化
cs
01-01 00:00
为解决云端大语言模型在临床编码自动化中存在的隐私风险和延迟瓶颈,本研究提出了Hybrid-Code混合神经符号多智能体框架。该系统包含一个编码器(Coder)和一个审核器(Auditor)。编码器优先使用BioMistral-7B进行语义推理,在模型输出不可靠时回退至确定性关键词匹配,确保流程完成;审核器则依据257个代码的知识库和临床证据进行验证。在1000份MIMIC-III出院摘要上的评估显示,在知识库范围内无幻觉代码,验证率为24.47%,覆盖率为34.11%(95% CI: 31.2%--37.0%),语言模型利用率超过86%。审核器过滤了无效格式代码,提供了基于证据的质量控制(拒绝率75.53%),同时确保患者数据不离开医院防火墙。该混合架构结合了语言模型语义理解、确定性回退和符号验证,在保证可靠性的同时实现了隐私保护。关键发现是,在生产型医疗系统中,通过冗余实现的可靠性比纯粹的模型性能更有价值。
临床编码隐私保护多智能体混合架构可靠性医疗ai
cs
01-01 00:00
本研究对16种先进的深度学习模型修复方法进行了大规模实证评估,涵盖模型级、层级和神经元级三类。研究不仅评估了修复效果,还考察了方法对模型鲁棒性、公平性和向后兼容性等关键属性的影响。实验采用统一设置,覆盖多种数据集、模型架构和应用领域。主要发现包括:模型级方法修复效果最佳;尚无方法能在提升修复性能的同时,全面改善准确率并保持其他属性。研究建议学术界应优先关注减轻修复带来的副作用。
深度学习模型修复实证研究鲁棒性公平性
cs
01-01 00:00
本文提出CAT框架,旨在评估和可视化大语言模型在可控输入变化下准确性与响应一致性的交互关系。该框架的核心是“一致性-准确性关系曲线”,它描绘了在不断提高的一致性要求下模型准确性的变化趋势,并通过“最小一致性准确率”和“一致性导向的鲁棒性估计”指数进行量化。研究以多项选择题基准为案例,展示了该框架在通用及领域专用模型上的应用,并指出其可扩展至开放式长文本评估。
大语言模型评估一致性度量准确性分析评估框架可控输入变化
cs
01-01 00:00
本文提出了PharmaShip,一个真实世界的中文药品运输单据扫描数据集,旨在测试预训练文本-版面模型在嘈杂OCR和异构模板下的性能。该数据集涵盖序列实体识别、关系抽取和阅读顺序预测三项互补任务,并采用以实体为中心的评价协议以减少架构差异的干扰。实验评估了包括LiLT、LayoutLMv3、GeoLayoutLM在内的五种基线模型,发现像素信息和显式几何信息提供了互补的归纳偏置,而注入阅读顺序导向的规则化能持续提升实体识别效果,是最鲁棒的配置。该研究为药品安全关键领域的文档理解建立了一个可控、可复现的基准。
文档理解实体识别阅读顺序药品单据基准数据集
cs
01-01 00:00
本研究利用阿曼10个气象站2000-2023年的风速观测数据,通过韦布尔分布模型(参数为形状参数 $k$ 与尺度参数 $c$)拟合了各地的风速分布,并计算了1 MWp装机容量的归一化年发电量(NAEP)。分析发现,Thumrait、Masirah、Sur和Fahud四个地点风能潜力突出,其风速超过6 m/s的概率分别为41.71%、37.77%、29.53%和17.03%,对应的NAEP估值分别为1.727、1.419、1.038和0.602 GWh/MWp/年。其中,Thumrait不仅平均风速最高,且风向最为稳定(主要来自东南偏南方向),使其成为建设大型风电场的理想选址。
风能评估韦布尔分布风速建模发电量预测阿曼可再生能源
cs
01-01 00:00
本文提出Luca-Noise反射协议(LN-RP),通过向大语言模型的初始生成状态注入随机噪声种子,分析噪声驱动下的人格涌现现象。在152个生成周期中观察到语言行为的非线性转变,揭示了三种具有不同熵特征的稳定人格模式,并证明外部噪声源可可靠地诱导反射性生成动力学中的相变。定量评估证实了人格的一致保留性及各模式间的显著差异(p < 0.01)。该协议为研究LLMs中的反射性生成、涌现行为和长程语言连贯性提供了可重复的方法。
大语言模型人格涌现噪声驱动反射性生成计算框架非线性动力学
cs
01-01 00:00
本研究开发了一种基于定制印刷电路板(PCB)的电子伊辛机,作为解决NP难图问题的低功耗、高速硬件加速器。其核心原理是模拟退火,通过耦合非线性电子振荡器的模拟计算架构实现。系统将输入问题转化为基于能量的表示,使其能够自然地沿着梯度下降,收敛到代表问题解的稳定相位对齐状态。论文详细介绍了其动机理论、电路设计、仿真与实验结果,为基于物理原理的新型计算设备发展提供了见解。
伊辛机模拟计算np难问题硬件加速器振荡器网络退火算法
cs
01-01 00:00
本研究将大型语言模型(LLMs)在完美信息游戏中涌现世界模型的能力,扩展到了不完全信息领域。研究者以德州扑克作为典型的POMDP环境,在扑克手牌历史数据上预训练GPT风格模型,并通过探测其内部激活发现:模型在没有明确指导的情况下,同时学习了确定性的结构(如手牌等级)和随机性特征(如胜率)。更重要的是,通过非线性探测技术,研究表明这些内部表征与理论上的信念状态相关,表明LLMs正在学习构建其自身对随机扑克环境的表征。
大型语言模型不完全信息博弈世界模型表征学习德州扑克pomdp
cs
01-01 00:00
本文提出DEFT,一种创新的自动测试向量生成方法。它将离散的ATPG问题重新表述为连续优化任务,通过数学上严格的重参数化,使连续目标函数与离散的故障检测语义对齐,从而支持可靠的基于梯度的向量生成。为应对大规模电路,DEFT集成了定制CUDA内核以高效传播,并采用梯度归一化缓解梯度消失。在相同向量预算下,DEFT在工业基准测试中对难测故障的检测率平均提升21.1%和48.9%。
可微优化自动测试向量生成集成电路测试梯度下降难测故障