cs
01-29 00:00
本研究提出一种受花朵黄金比例启发的新型内存磨损均衡方法——双环磨损均衡。该方法将内存建模为两个环形结构,结合现有内存管理与垃圾回收机制,无需硬件改动即可实现内存访问的均匀分布。该方案具有确定性、自适应内存大小、且不增加程序执行延迟的特点,为解决相变存储器等新兴内存寿命短的问题提供了有效途径。
内存磨损均衡双环结构黄金比例垃圾回收相变存储器计算机系统
cs
01-29 00:00
针对形式验证中手动编写SystemVerilog断言效率低、易出错的问题,本文提出了STELLAR框架。该框架创新性地将硬件设计的RTL模块表示为抽象语法树结构指纹,从知识库中检索结构相似的(RTL, SVA)对,并以此构建结构引导的提示词来指导大语言模型生成断言。实验表明,STELLAR在语法正确性、风格一致性和功能正确性方面均优于现有方法,为工业级形式验证提供了新方向。
形式验证大语言模型结构引导断言生成硬件设计
cs
01-29 00:00
随着大语言模型规模超越传统CPU/GPU架构的算力增长极限,数据流AI加速器成为关键替代方案。本研究提出了首个针对数据流加速器上LLM训练任务的标准化评测框架DABench-LLM。该框架结合芯片内性能剖析与芯片间可扩展性分析,从资源分配、负载均衡和资源效率等关键维度进行全面评估。通过在Cerebras WSE-2、SambaNova RDU和Graphcore IPU三种商用加速器上的验证,该框架成功揭示了性能瓶颈并提供了具体的优化策略,证明了其在多样化数据流硬件平台上的通用性与有效性。
ai加速器大语言模型性能评测数据流计算硬件基准测试
cs
01-29 00:00
本研究提出了一种针对硅基模拟神经网络的物理信息硬件感知模型与训练方法,以解决实际硬件中电容串扰和位线压降等非理想效应导致的精度损失。该方法将时间域向量矩阵乘法器操作离散化为自适应时隙,并行处理激活模式,并整合到现代深度学习流程中。实验基于16x16硅阵列测量数据校准模型,改进权重提取程序使信噪比提升一倍。通过在训练前向传播中使用硬件感知模型,成功在MNIST和CIFAR-10数据集上使模拟神经网络恢复至理想软件网络的精度,为时域模拟神经形态芯片建立了完整的设计到部署工作流。
模拟神经网络硬件感知训练硅基芯片神经形态计算物理建模模型校准
cs
01-29 00:00
本文提出GTAC,一种基于生成式Transformer的模型,用于设计近似电路。该模型将误差阈值创新性地整合到设计流程中,在满足误差率约束的前提下,相比现有最优方法,进一步减少了6.4%的电路面积,同时设计速度提升了4.3倍。
近似计算生成式transformer电子设计自动化电路优化ai驱动eda
cs
01-29 00:00
本文提出RAPID-Graph,一种软硬件协同设计的存内计算系统,旨在解决大规模图分析中全对最短路径计算的数据移动瓶颈。其核心创新在于:算法层面,引入递归感知分区器,将图分解为顶点块以减少数据依赖,使Floyd-Warshall和Min-Plus核能在存内计算阵列中完全就地执行;硬件层面,采用2.5D集成封装,结合相变存储计算芯片、逻辑芯片和高带宽暂存器,并利用外部非易失存储持久化结果。在OGBN-Products数据集上,相比最先进的GPU集群,其速度提升5.8倍,能效提升1186倍。
存内计算图算法加速全对最短路径动态规划硬件协同设计相变存储器
cs
01-29 00:00
本文提出CHIME,一种面向边缘设备多模态大模型推理的Chiplet异构近内存加速方案。它通过集成单块3D DRAM(提供低延迟带宽用于注意力计算)与RRAM(提供高密度非易失性权重存储)的异构内存芯片,并结合协同设计的映射框架,在数据附近执行融合内核,最小化跨芯片通信。在FastVLM与MobileVLM模型上,相比NVIDIA Jetson Orin NX边缘GPU,CHIME实现了高达54倍的推理加速与246倍的能效提升,吞吐量也远超现有PIM加速器FACIL。
边缘计算多模态大模型近内存计算异构内存chiplet硬件加速
cs
01-29 00:00
本文提出一种缓存感知的混合筛法,通过整合分段、位压缩和缓存行对齐的块处理技术,优化内存带宽及一、二级缓存局部性。该方法仅存储奇数并使用每值1比特,将筛选范围划分为缓存大小的块以减少缓存未命中,并跨块重用不超过上限平方根的素数。实验表明,与传统筛法相比,内存使用减少高达8倍,运行时间提升达2.4倍;与分段筛法相比提升达1.7倍。在高达 $10^9$ 的基准测试中,证明了架构感知算法设计能带来显著的实践性能增益。
素数生成缓存优化位压缩分段筛法算法性能内存效率
cs
01-29 00:00
本研究针对KV缓存卸载技术(将键值缓存存储在CPU DRAM中以支持长上下文LLM推理)中的性能瓶颈进行了深入分析。研究建立了一个分析框架,推导出关键缓存与预填充令牌比率 $\kappa_{\text{crit}}$,当超过此阈值时,推理过程将受限于内存带宽。实证分析表明,典型工作负载远超此阈值,导致99%的延迟消耗在数据传输上,GPU仅利用其额定TDP的28%。研究结果为优化硬件互连、模型架构和调度算法提供了关键洞见。
大语言模型推理kv缓存卸载pcie带宽瓶颈性能分析框架硬件效率优化
cs
01-29 00:00
现代OLAP系统通过存算分离和列式存储缓解了I/O瓶颈,但执行层(尤其是Top-K选择和连接探测)的CPU开销成为新的性能瓶颈。本文提出一种混合架构,通过选择性将高影响的原语操作卸载到GPU来增强现有向量化执行引擎。为减少数据移动,采用仅传输键值和指针的延迟物化技术。核心创新是引入一个“风险门控”机制,该机制基于输入数据大小、传输成本、内核执行时间、后处理开销以及候选集复杂度(K, M)来评估收益与风险,仅在增益/风险区间内触发GPU卸载。实验表明,相比始终开启的GPU卸载,基于门控的卸载策略能显著改善尾部延迟(P95/P99)。
olap执行引擎gpu卸载风险感知门控延迟物化混合架构尾部延迟优化
cs
01-29 00:00
本研究首次对大语言模型推理过程进行了指令级故障注入分析,以评估其对GPU软错误的脆弱性。研究发现,LLM的可靠性受模型架构、参数规模和任务复杂度的显著影响,其表现与传统神经网络存在差异。这些结果为理解LLM的可靠性特征提供了新视角,并为设计更有效的容错机制提供了依据。
大语言模型gpu可靠性故障注入软错误模型脆弱性容错机制
cs
01-29 00:00
本研究探讨了将专家检测视为可习得技能的可能性,并引入基于韩国国家写作标准的LREAD评分标准,针对标点可选性、空格行为和语体转换等微观语言特征进行校准。通过为期三阶段的纵向盲测实验,韩国语言学专业学生的多数投票准确率从60%提升至100%,评分者间一致性显著增强(Fleiss' kappa: -0.09 → 0.82)。研究发现,经过校准的人类专家更依赖语言特定的微观诊断,而非粗略的语篇先验,这为韩语等非英语环境下的LLM文本检测提供了可解释的人工补充方案。
大语言模型检测韩语文本分析认知校准评分标准人机协作
cs
01-29 00:00
本文提出了一种名为DiGiT-TC的数据生成方法,旨在解决现有合成多轮工具调用对话数据方法通常依赖有状态执行环境的局限。该方法通过一种新颖的生成模式,在用户请求中隐式地表示某些工具调用,从而生成具有在有状态环境中通过搜索产生对话特征的数据。研究在标准工具调用基准上验证了该方法的有效性,结果表明即使在有状态问题设置中,该方法也能带来显著的性能提升。
工具调用合成数据无状态环境对话生成语言模型
cs
01-29 00:00
本文提出Arrow语言模型,一种基于直觉主义逻辑解释下一词预测的神经架构。它将前缀编码为左嵌套蕴涵链,通过非交换组合保持顺序,使下一词预测对应于逻辑推理中的肯定前件律,序列处理则成为Curry-Howard对应下的构造性证明扩展。模型从证明论视角将下一词预测解释为嵌套直觉主义蕴涵,自然地推导出等价于乘法RNN的架构,并提出了实用的低秩神经实现,与Transformer和状态空间模型进行了对比。
神经架构推导直觉主义逻辑语言模型证明论序列建模非交换组合
cs
01-29 00:00
本文提出自适应自知识蒸馏方法,通过动态降低对教师模型的依赖来提升学生模型的自训练能力,从而改善其泛化性能。基于此方法,研究者将Whisper模型蒸馏为更小的FastWhisper变体。实验表明,FastWhisper的词错误率比原教师模型低1.07%,推理速度相对提升5倍,在模型压缩与实时语音识别任务上取得显著效果。
知识蒸馏语音识别模型压缩自适应训练whisper模型实时推理
cs
01-29 00:00
本研究提出PiC-BNN,一种真正端到端的二进制神经网络(BNN)硬件加速器。它创新性地利用内容寻址存储器(CAM)和基于汉明距离容忍的近似搜索技术,将网络中所有层(包括批归一化、Softmax等)完全二进制化,无需传统BNN所需的浮点运算支持。该芯片采用65nm工艺制造,在MNIST数据集上达到95.2%的基线软件精度,推理吞吐量达56万次/秒,能效高达7.03亿次/秒/瓦,显著提升了BNN的硬件效率和部署潜力。
二进制神经网络硬件加速器内容寻址存储器近似计算能效优化芯片设计
cs
01-29 00:00
研究发现,传统的多智能体辩论(MAD)常因智能体同质化与信念更新方式单一而效果不佳,甚至不如简单的多数投票。受人类集体决策机制启发,本文提出两项关键改进:1)多样性感知初始化,通过筛选更丰富的候选答案池,提高辩论开始时正确假设存在的概率;2)置信度调制辩论协议,让智能体表达经过校准的置信度,并据此调整信念更新。理论证明,前者提升了辩论成功的先验概率,后者则能系统性地将辩论导向正确假设。在六个推理型QA基准测试中,该方法均稳定超越了传统MAD与多数投票。
多智能体辩论大语言模型置信度校准集体决策推理增强模型优化
cs
01-29 00:00
研究团队提出HEART基准框架,首次将人类与大型语言模型置于相同的多轮情感支持对话中进行直接比较。评估采用盲审人类评分员与LLM-as-judge集成方法,依据人际沟通科学从人类对齐、共情反应、协调、共鸣与任务遵循五个维度进行。研究发现,前沿模型在感知共情与一致性上接近或超越人类平均水平,但人类在适应性重构、张力命名及细微语气转换方面仍具优势。人类与AI评估者在约80%的配对比较中偏好一致,表明双方在评估支持性对话质量的标准上正趋于融合。
情感支持对话人机对比评估共情计算对话系统基准测试人际沟通
cs
01-29 00:00
本文提出Table-BiEval,一种无需人工干预的自监督评估框架,用于量化评估大语言模型将自然语言转换为结构化格式(如代码、表格)的能力。该框架通过确定性中间表示,分别计算内容语义准确度(Content Semantic Accuracy)和归一化树编辑距离(Normalized Tree Edit Distance),从而解耦输出中的“结构”与“内容”。研究对15个前沿大模型在层次结构和扁平表格两个拓扑维度上进行了实证评估,发现中型模型在结构效率上可能优于大型模型,而深度递归嵌套仍是所有模型的普遍瓶颈。
大语言模型评估自监督框架结构内容解耦表格理解代码生成模型评测
cs
01-29 00:00
本文提出了一种具有完全自适应灵活性的新型位截断内存,可在运行时截断任意数量的数据位,以满足不同近似应用在质量与功耗间的权衡需求。该设计已应用于视频处理和深度学习两类数据密集型近似应用。实验表明,与现有技术相比,该内存为视频应用(包括亮度感知、内容感知和感兴趣区域感知)提升了能效(功耗节省高达47.02%),并为基准及剪枝后的轻量级深度学习模型分别实现了显著的功耗节省(高达51.69%),且实现成本较低(仅增加2.89%的硅面积开销)。
近似计算边缘计算内存优化能效优化视频处理深度学习
cs
01-29 00:00
本文提出光场显示点渲染(LFDPR)方法,解决了光场显示(LFD)需渲染数十至数百个视图导致实时渲染困难的问题。该方法改进了基于视点的点渲染技术,引入基于纹理的溅射以避免三角形过采样,并采用LFD偏置采样以匹配显示器的采样特性。通过多视图mipmapping减少纹理走样,结合角度超采样与重建技术抑制视图混叠和串扰。实验表明,LFDPR在保持相近画质的前提下,渲染速度比传统多视图渲染快2-8倍。
光场显示实时渲染点渲染计算机图形学多视图渲染采样优化
cs
01-29 00:00
本文提出了PaperAudit-Bench基准,旨在评估大语言模型在学术论文评审中检测细微、跨章节分布的错误的能力。该基准包含一个覆盖单章节与跨章节推理错误的PaperAudit-Dataset,以及一个将结构化错误检测与证据感知评审生成相结合的PaperAudit-Review框架。实验表明,在长上下文设置下检测此类错误具有挑战性,而将显式错误检测纳入评审流程能产生更严格、更具区分度的评估。此外,该数据集支持通过监督微调(SFT)和强化学习(RL)训练轻量级检测器,能以较低计算成本实现有效错误检测。
自动化同行评审错误检测基准长上下文评估大语言模型学术论文分析
cs
01-29 00:00
针对大语言模型在长程推理任务中因缺乏全局规划能力而导致错误传播的问题,本文提出了PILOT框架。该方法不修改主干模型权重,而是通过一个轻量级超网络,合成一个查询条件化的潜在引导向量,作为内部转向机制,将模型的表征引导至最优推理路径。在数学和代码基准测试上的实验表明,PILOT能有效稳定推理轨迹,在MATH500等任务上显著超越基线模型(如提升8.9%),且推理延迟极低。
大语言模型推理规划潜在引导模型优化轻量级框架
cs
01-29 00:00
本文提出了一种名为最低跨度置信度(LSC)的新型零样本度量方法,用于在大语言模型(LLMs)中高效检测幻觉(即生成看似合理但不真实的内容)。该方法仅需单次前向传播和输出概率,通过滑动窗口机制评估语义连贯跨度的联合似然度,识别可变长度n-gram中置信度最低的区域,从而捕捉与事实不一致性高度相关的局部不确定性模式。实验表明,LSC在多种SOTA LLMs和基准测试中均优于现有零样本基线,在资源受限条件下仍能提供强大的检测性能。
幻觉检测大语言模型零样本学习黑盒评估不确定性估计自然语言处理