这篇研究探讨了大语言模型在自动推理任务中的不确定性问题。研究者提出,模型生成形式规范时的概率不确定性不是缺陷,而是宝贵的信号源。通过引入概率上下文无关文法框架分析SMT-LIB程序分布,他们发现不确定性信号具有任务相关性(如逻辑任务中的语法熵AUROC>0.93)。他们的轻量级信号融合方法能减少14-100%的错误,仅需最小弃权,将大语言模型驱动的形式化转变为可靠工程学科。研究揭示当模型正确理解逻辑关系时会产生稳定的语法模式,为判断何时信任模型提供了可靠指标。
至顶网 科技行者 2025-06-05 09:33:03