今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2025-12-29 12-29 15:26

今日计算机科学领域研究聚焦于人工智能与系统优化的深度融合,在能源、软件工程、安全等关键领域推动方法创新与效率提升

  • 能源系统智能化:研究从宏观供应链(如岛屿氢能网络)到微观家庭管理(如EcoNet多智能体规划)均引入多目标优化与AI决策,并探索建筑HVAC系统的“虚拟电池”模型以提升电网灵活性。
  • AI赋能软件工程与安全:大语言模型(LLM)的应用从代码生成(如CosmoCore-Evo框架)扩展到自动化Beta测试(多智能体委员会)和安全监控(反思驱动控制),同时行业调查揭示了其带来的效率提升与认知依赖风险。
  • 隐私与安全新视角:理论研究建立了f-差分隐私与信息流模型的等价性,为隐私分析提供新工具;实证研究则揭示了物联网设备弱认证、卫星网络跨轨道威胁以及轻量级密码密钥长度不足等具体安全风险。
  • 科学计算与评估自动化:新基准AInsteinBench旨在评估LLM在真实科研代码库中的开发能力;同时,多模态大模型与多智能体协作被用于实现房树人绘画测试的自动化心理评估,展示了AI在专业领域的应用潜力。
  • 算法与求解器进展:研究在特定领域取得突破,如针对电动汽车多日路径规划比较多种元启发式算法,以及分析AI围棋求解器在死活题上的新解法与当前局限。

2025-12-29 速览 · 计算机科学

2025-12-29 共 24 条抓取,按综合热度排序

← 返回日历
cs 12-29 00:00

科西嘉岛氢能供应链优化:考虑水资源约束的多目标模型

本研究针对依赖化石燃料进口的岛屿地区,提出了一种可持续的氢能供应链优化方法。通过建立多周期、多目标的混合整数线性规划模型,在系统成本、温室气体排放和风险指数之间进行权衡。模型创新性地整合了水资源可用性、可再生能源、旅游流量和地理限制等岛屿特有因素,并采用改进的TOPSIS方法辅助决策。结果表明,分散式供应链结构能有效降低运输成本,氢气的平准化成本约为6.54欧元/千克,碳排放为1.32-1.75 kgCO₂e/kg H₂。

氢能供应链岛屿能源多目标优化水资源约束milp模型可持续交通
cs 12-29 00:00

利用数据空间构建云边协同的智慧城市智能基础设施

本文提出了一种基于数据空间架构的方法,用于在云-边连续体上构建智能化的智慧城市基础设施。该方法旨在通过数据驱动的设计,提升城市服务在效率、可持续性和韧性方面的表现。研究探讨了如何整合和管理分布在云端与边缘设备上的异构数据资源,以支持更智能的决策和自动化服务。

智慧城市数据空间云边协同数据驱动城市基础设施
cs 12-29 00:00

EcoNet:基于主动推理的家庭能源多智能体规划与控制

本文提出EcoNet,一种基于主动推理的贝叶斯方法,用于家庭及社区能源管理。该方法旨在协调家庭中可能相互冲突的目标(如降低能源成本、减少碳排放与保持舒适室温),并在天气与太阳能发电等不确定预测下进行未来行动规划。通过仿真验证,EcoNet能够有效管理能源资源,提升系统协调性。

能源管理主动推理多智能体不确定性规划家庭能源系统贝叶斯方法
cs 12-29 00:00

Query Carefully:检测文本转SQL任务中的不可回答问题

本文针对文本转SQL系统在处理模糊、超出范围或无法回答的查询时,仍会生成可执行SQL并可能被误判为正确答案的潜在风险,提出了一种名为“Query Carefully”的解决方案。该方案构建了一个集成流程,将基于大语言模型的SQL生成与对不可回答输入的显式检测和处理相结合。研究基于ScienceBenchmark的OncoMX组件,构建了包含80个不可回答问题的OncoMX-NAQ数据集,涵盖8个类别。方法采用llama3.3:70b模型,结合模式感知提示、显式的“无答案规则”以及来自可回答和不可回答问题的少量示例。评估显示,在OncoMX-NAQ上,平衡提示策略实现了最高的不可回答检测准确率(0.8),但在处理缺失值查询(0.5)和列模糊性(0.3)方面仍面临挑战。

文本转sql不可回答检测大语言模型生物医学数据库查询可靠性
cs 12-29 00:00

多日电动汽车路径规划新模型与元启发式算法比较

本文针对电动汽车(EV)续航有限、充电时间长及充电站类型多样的问题,提出了一种适用于跨平台导航系统的多日电动汽车路径规划(EVRP)模型。该模型以混合整数规划(MIP)形式构建,综合考虑了车辆电池容量和用户预约时间窗。研究采用禁忌搜索(TS)、自适应大邻域搜索(ALNS)和蚁群优化(ACO)等多种元启发式算法求解,并通过生成的测试集分析其性能,与Google OR-Tools求解器的精确解进行对比,旨在为用户提供高效日常出行路线并减少充电带来的不便。

电动汽车路径规划元启发式算法混合整数规划多日调度充电优化算法比较
cs 12-29 00:00

公平性即软件质量:通过数据相关性调优提升机器学习性能与公平性

本研究提出将公平性视为软件质量的核心维度,并引入相关性调优(CoT)这一新颖的预处理方法。CoT通过引入Phi系数量化敏感属性与标签间的相关性,并采用多目标优化来缓解代理偏差。实验表明,CoT将弱势群体的真阳性率平均提升17.5%,并将统计奇偶差(SPD)、平均几率差(AOD)和机会均等差(EOD)等关键偏差指标平均降低50%以上,在单属性和多属性场景下分别优于现有方法3%和10%。

机器学习公平性偏差缓解数据预处理相关性调优软件质量多目标优化
cs 12-29 00:00

物理信息神经网络求解周期量子本征问题

本研究提出了一种物理信息机器学习框架,用于求解二维周期势(如石墨烯的蜂窝晶格)中的Floquet-Bloch本征值问题。该框架利用神经网络同时学习复杂的布洛赫函数及其对应的本征值(能量),通过一个复合损失函数无监督地强制满足控制薛定谔方程、布洛赫周期性和归一化约束。模型在整个布里渊区上进行训练,以恢复能带结构和布洛赫模式,并通过与传统平面波展开方法的对比进行了数值验证。研究进一步探索了迁移学习技术,使求解器能够从近自由电子势适应到强变化势,展示了其捕捉能带结构拓扑变化的能力。

物理信息机器学习量子本征问题布洛赫能带神经网络求解器周期势迁移学习
cs 12-29 00:00

CosmoCore-Evo:融合进化算法的梦境回放强化学习框架,提升代码生成适应性

本研究在CosmoCore的情感梦境回放强化学习框架基础上,提出了CosmoCore-Evo。该框架引入进化算法,将强化学习轨迹视为“基因组”,在夜间回放阶段进行突变与选择,灵感源于早期人类适应与自然选择。通过在高适应度轨迹中引入突变,并结合包含效率、合规性及可扩展性的企业级适应度函数,增强了智能体在分布偏移环境(如API变更、新库引入)中的适应性与解决方案新颖性。在HumanEval变体、BigCodeBench及自定义PySpark流水线模拟等基准测试中,CosmoCore-Evo相比原版CosmoCore及PPO、REAMER等基线方法,实现了解决方案新颖性提升高达35%,适应速度加快25%。消融实验证实了进化组件在弥合LLM智能体感知差距中的作用。

代码生成强化学习进化算法分布偏移适应大语言模型梦境回放
cs 12-29 00:00

多智能体LLM委员会实现自主软件Beta测试,任务成功率提升22%

本研究提出了一种多智能体大语言模型委员会框架,用于自动化软件Beta测试。该框架通过集成多个具备视觉能力的LLM智能体,采用三轮投票协议达成测试行动共识,结合模型多样性、角色驱动的行为差异和视觉界面理解,系统性地探索Web应用。在84次实验运行中,多智能体委员会实现了89.5%的总体任务成功率,其中2至4个智能体的配置成功率高达91.7%至100%,相比单智能体基线(78.0%)提升了13.7至22.0个百分点。在WebShop和OWASP基准测试中,框架分别取得了74.7%和82.0%的成功率,并在20个注入的回归缺陷检测中获得了0.91的F1分数。

多智能体系统软件测试自动化大语言模型持续集成视觉界面理解beta测试
cs 12-29 00:00

反思驱动控制:为AI代码助手构建可信赖的安全屏障

本文提出“反思驱动控制”模块,将安全监控从后置修补提升为AI代理推理过程中的显式步骤。该模块在代码生成时持续运行内部反思循环,监测决策路径,一旦发现潜在风险,便从动态反思记忆中检索相关修复案例与安全编码准则,并将这些基于证据的约束直接注入后续推理。在八类安全关键编程任务上的系统评估表明,该方法能显著提升生成代码的安全性与策略合规性,同时基本保持功能正确性,且运行时与令牌开销极小。

ai安全代码生成可信ai反思机制智能代理
cs 12-29 00:00

f-差分隐私与信息流模型的等价性及新型组合定理

本文建立了新兴的f-差分隐私(fDP)与定量信息流(QIF)信道模型之间的等价关系。通过构建两个偏序集之间的伽罗瓦连接,作者证明了这两种隐私框架在统计假设检验层面是等价的。这一理论突破使得研究者能够将QIF领域的成熟工具应用于fDP分析,并由此推导出适用于复杂隐私设计的、更通用的新型组合定理,为提升隐私机制(如高斯机制)的分析精度提供了新途径。

差分隐私信息流组合定理隐私分析伽罗瓦连接
cs 12-29 00:00

多模态大模型与多智能体协作:实现房树人绘画测试的自动化评估

本研究针对临床心理学中广泛使用的房树人绘画测试,提出了一个基于多模态大语言模型与多智能体协作的自动化评估框架。该框架通过角色划分,将绘画特征识别与心理推理解耦,有效解决了传统方法中评分标准不一、依赖评估者主观经验等问题。定量实验表明,模型解释与人类专家解释的平均语义相似度达0.75,在结构化专家数据集上提升至0.85,达到专家级基线理解水平。该研究为投射性评估的标准化和数字化心理健康服务提供了新范式。

多模态大模型多智能体协作房树人测试计算心理学心理健康评估人工智能
cs 12-29 00:00

RISC-V处理器CVA6核心的RTL级功耗侧信道漏洞分析

本研究利用RTL级功耗分析框架VeriSide,对CVA6 RISC-V核心在执行软件AES加密时的功耗侧信道漏洞进行了评估。通过相关性功耗分析(CPA),研究揭示了该设计存在显著的信息泄露,能够实现密钥恢复。这些发现强调了在早期RTL设计阶段进行安全评估对于构建未来安全的RISC-V处理器至关重要。

侧信道攻击risc-v安全硬件安全功耗分析rtl验证
cs 12-29 00:00

建筑HVAC系统灵活性建模新框架:虚拟电池统一表征

本文提出了一种统一的虚拟电池建模框架,用于表征单区域及多区域建筑暖通空调系统的运行灵活性。该框架首先在热舒适约束下识别具有物理意义的表征状态,建立单区域系统的虚拟电池模型,随后扩展至多区域系统,并开发了系统性的模型聚合方法,显著降低了模型与计算复杂度。研究表明,该模型能有效捕捉HVAC系统的灵活性,支持高效的需求响应参与,且所得策略可分解为区域级控制指令,在维持人体热舒适的同时实现近乎最优的运行成本。

虚拟电池模型建筑hvac系统运行灵活性需求响应热舒适约束模型聚合
cs 12-29 00:00

嵌入式系统自适应实时调度算法综述:应对动态环境的关键机制

本文综述了面向动态不确定环境的嵌入式系统自适应实时调度算法。针对传统静态调度难以应对运行时负载、资源可用性或系统更新变化的问题,文章重点介绍了基于反馈控制(如反馈控制调度)和任务间相互依赖(如周期性任务共生调度)的模型,并探讨了结合动态电压频率缩放(DVFS)的预测方法与功耗管理。文章简要总结了影响适应性/可预测性权衡的关键机制、典型评估指标以及当前面临的挑战,特别是在安全性至关重要的场景中,为研究人员和从业者应对自适应实时系统的变化环境提供了简明易懂的导引。

嵌入式系统实时调度自适应算法反馈控制功耗管理动态环境
cs 12-29 00:00

AInsteinBench:首个基于真实科学代码库的大语言模型编程代理基准

本文提出了AInsteinBench,一个用于评估大语言模型(LLM)能否在真实科研软件生态系统中作为科学计算开发代理的大规模基准。与关注概念知识的科学推理基准或强调通用功能实现与问题解决的软件工程基准不同,AInsteinBench在基于生产级科学代码库的端到端科学开发场景中评估模型。该基准的任务来源于六个广泛使用的科学代码库(涵盖量子化学、量子计算、分子动力学、数值相对论、流体动力学和化学信息学)中由维护者撰写的拉取请求。所有任务均经过多阶段筛选和专家评审,以确保其科学挑战性、充分的测试覆盖率和经过良好校准的难度。通过利用可执行环境评估、具有科学意义的失败模式以及测试驱动验证,AInsteinBench衡量模型超越表层代码生成、迈向计算科学研究所需核心能力的能力。

大语言模型代码生成科学计算基准测试软件工程人工智能代理
cs 12-29 00:00

无人机水质监测中的动态避障与观测质量增强路径规划方法

针对动态光照环境下无人机光谱遥感监测水质时,阴影和镜面反射导致光谱失真的问题,本文提出了一种主动路径规划方法。该方法首先构建动态预测模型,将时变光扰区域转化为三维虚拟障碍物;其次,引入改进的干扰流体动力学系统算法生成平滑初始避障路径,并采用模型预测控制框架进行滚动时域优化以满足飞行动力学约束。此外,设计了动态飞行高度调整机制,在可观测区域狭窄时主动降低高度以提升空间分辨率。仿真结果表明,该方法在密集干扰场景下避障成功率高达98%,路径平滑度显著提升,有效观测数据量增加约27%。

无人机路径规划水质监测动态避障模型预测控制光谱遥感观测增强
cs 12-29 00:00

行业调查揭示:大语言模型如何重塑软件工程实践

本研究通过对46位行业专业人士的实证调查,探讨了大语言模型(LLMs)在软件工程中的实际应用与影响。调查显示,LLMs在快速解决技术问题、改进文档支持和提升源代码标准化方面获得积极评价。然而,受访者也表达了对认知依赖、安全风险和技术自主性潜在丧失的担忧。研究强调了在采纳LLM工具时进行批判性和监督性使用的必要性,为开发者和研究者提供了关于如何更有效、负责任且安全地应用LLM技术的实践见解。

大语言模型软件工程行业调查实证研究技术采纳安全风险
cs 12-29 00:00

围棋死活题求解新突破:基于关联区域搜索的AI解法分析与挑战

本研究分析了基于关联区域搜索(RZS)和关联区域模式表的先进围棋求解器在解决死活题时的表现。通过测试围棋大师赵治勋《死活辞典》中的七个经典问题,发现求解器能有效识别关键区域、发现罕见棋形,并在两题中得出与人类解法不同的答案。研究同时指出当前求解器存在对罕见模式价值误判、倾向于直接求活而非最大化实地等与人类棋手行为差异的问题,为未来改进提供了方向。

围棋ai死活题求解关联区域搜索模式识别人机差异
cs 12-29 00:00

卫星网络安全威胁分析:不同轨道高度的地面攻击风险差异

本文对比分析了低地球轨道(LEO)、中地球轨道(MEO)和地球静止轨道(GEO)卫星面临的网络安全威胁。研究综合了60起公开安全事件数据,发现威胁特征因轨道高度而异:GEO卫星主要面临高频上行链路暴露风险,而LEO星座则因有限的功率预算、硬件约束以及对热和辐射诱发故障的敏感性而面临独特风险。分析表明,弱加密和指令路径异常是所有轨道卫星最一致的攻击成功预测指标。研究还指出,未缓解的网络漏洞会加速硬件过时和碎片积累,阻碍碳中和空间运营目标的实现。

卫星安全轨道威胁网络安全空间基础设施加密漏洞可持续性
cs 12-29 00:00

物联网安全新视角:基于密钥长度的轻量级密码算法分类研究

本研究针对物联网(IoT)应用的安全需求,对轻量级对称密码算法进行了全面的安全评估综述。研究发现,现有研究多关注硬件/软件实现或性能,而缺乏对物联网特定安全维度的系统分析。为此,研究提出了两种新的分类法:一是基于内在特性对物联网应用进行分类,二是基于密钥长度评估安全等级。核心结论指出,密钥长度是衡量轻量级密码安全强度的关键参数,使用短于128位密钥的算法被认为安全性不足,难以保护敏感数据。

物联网安全轻量级密码密钥长度安全评估算法分类对称加密
cs 12-29 00:00

利用大语言模型作为聊天机器人对抗聊天网络犯罪

本研究提出LURE系统,首次将大语言模型作为主动代理而非被动分类器,部署于对抗性聊天环境中以对抗网络犯罪。系统结合自动发现、对抗性交互及基于OCR的图像支付数据分析,在Telegram平台的非法视频聊天诈骗场景中测试。结果显示,在与53名犯罪分子的98个群组互动中,超过56%的对话中LLM成功维持多轮交流而不被识别为机器人,有效“赢得”模仿游戏,并揭示了诈骗操作中的关键行为模式,如支付流程、追加销售策略和平台迁移战术。

网络安全大语言模型对抗性交互聊天诈骗主动防御模仿游戏
cs 12-29 00:00

智能家居物联网系统弱认证机制的安全风险实证研究

本研究通过实证分析,揭示了当前智能家居物联网设备认证机制存在的普遍安全缺陷。研究在受控住宅环境中,对智能插座、照明设备、摄像头及生态系统中枢等广泛部署的消费级设备进行了测试,采用被动网络测量和官方应用交互方式。结果表明,设备在初始配对后建立的认证状态会被长期复用,且在网络重连、地址重分配、路由器重启等常规事件后依然有效。攻击者可在同一局域网内,通过重放已观测到的认证凭证,以高成功率发起控制命令。这些发现表明,现有机制过度依赖长期信任关系,缺乏对会话新鲜度、网络上下文或控制器身份的充分绑定。

物联网安全身份认证智能家居安全漏洞实证研究
cs 12-29 00:00

在线多人游戏反作弊技术系统综述:内核级方案与隐私风险的权衡

本文系统综述了针对在线多人游戏中软件作弊的技术防御方案,将现有方法分为服务器端检测、客户端防篡改、内核级反作弊驱动和硬件辅助可信执行环境(TEEs)四类。研究从检测有效性、性能开销、隐私影响和可扩展性四个维度评估了各类方案,并揭示了关键权衡:内核级方案虽能提供高可见性,但伴随显著的隐私与稳定性风险;而服务器端方法侵入性低,却存在检测能力有限的短板。综述强调了反作弊设计与作弊者之间持续的攻防对抗,并指出构建健壮、抗对抗的反作弊系统是未来的关键需求。

反作弊技术在线游戏安全系统综述隐私风险内核安全可信执行环境
AI速览助手