搜索准确率最高的计划软件【罔芷:——88pk·ee—

Tiny QA Benchmark++：LLMOps持续评估的轻量级多语言基准测试套件

Tiny QA Benchmark++（TQB++）是一个超轻量级的大型语言模型（LLM）评估工具，由Comet ML公司的Vincent Koc开发。这套工具仅需几秒钟即可检测LLM系统中的关键故障，与大型基准测试形成鲜明对比。其核心是一个不到20KB的52个精心制作的英语问答集，非常适合快速CI/CD检查和提示工程。TQB++的主要创新在于提供了一个合成数据生成工具包，能够按需产生任何语言、领域或难度的微型基准测试，并预先构建了11种语言的测试包。

至顶网科技行者 2025-05-23 07:40:18

人工智能应用：预测疾病、改善治疗的三种全新方式

AI在医学领域的一种有趣应用，就是帮助预测某种诊疗方式在患者身上的潜在效果。以下三种，代表着AI医学应用中颇具前景的重要方向。

至顶网至顶网人工智能频道 2023-11-01 19:19:52

西湖大学携手多所高校突破AI"浅层思考陷阱"：让机器学会在单次对话中深度探索

西湖大学等多所高校联合研究发现，现有AI模型存在"浅层探索陷阱"问题，即倾向于快速给出第一个答案而缺乏深度思考。研究团队提出"长度激励探索"方法，通过奖励详细思考过程同时惩罚无效重复，成功让AI学会在单次对话中进行深度探索。实验显示该方法可提升4.4%准确率，并激发更多类人认知行为。

至顶网科技行者 2026-02-13 21:51:49

华为极简全闪数据中心Pro+发布，智能艺术教育空间样板点正式揭幕

随着AI赋能深入行业场景，数据基础设施的重要性愈发凸显。

至顶网至顶网存储频道 2025-07-01 09:26:12

斯坦福大学推出SMMILE：首个医学AI在情境学习能力评估基准，揭示现有AI在医疗诊断中的致命弱点

这项研究汇集了来自斯坦福大学、苏黎世联邦理工学院、隆德大学、加州大学旧金山分校等多所世界顶尖学府的11位医学专家，共同构建了医学AI领域的首个多模态情境学习评估标准。

至顶网科技行者 2025-07-02 10:59:36

突破数学题的天花板：通用推理大模型如何实现全领域思维能力提升

这项研究突破了大语言模型推理能力主要局限于数学和编程领域的限制，提出了"General-Reasoner"训练方法，使模型能够在物理、化学、金融等多领域展现高水平推理能力。研究团队构建了包含23万个跨学科问题的高质量数据集，并开发了基于生成式模型的答案验证器，取代传统规则验证方法。实验证明，该方法在MMLU-Pro等12个基准测试中表现优异，成功实现了全领域的推理能力提升，同时保持了在数学任务上的卓越表现。

至顶网科技行者 2025-05-26 08:18:31

Amazon-首创PROF算法让AI推理更聪明：不仅要答案对，过程也要清晰

Amazon联合伊利诺伊大学开发PROF算法，解决AI数学推理中"答案对但过程错"的问题。该方法通过同时评估结果正确性和推理过程质量，筛选高质量训练样本，让AI既能答对题目又掌握清晰思维方法。实验显示准确率平均提升4%以上，推理过程质量显著改善，为构建可解释AI系统提供新思路。

至顶网科技行者 2025-09-22 10:48:50

rStar-Coder：微软亚洲研究院打造大规模验证数据集，小模型也能实现卓越代码推理能力

微软亚洲研究院研究团队开发的rStar-Coder通过构建大规模验证数据集，显著提升了语言模型的代码推理能力。该数据集包含418K个竞赛级代码问题和580K个长推理解决方案，每个都经过多样化测试案例验证。关键创新在于三步测试输入生成方法和相互验证机制，确保了数据的高质量和可靠性。实验表明，即使是小型模型也能达到卓越性能——Qwen2.5-7B从17.4%提升至57.3%，甚至在USACO奥林匹克竞赛中超越了规模更大的模型，证明了高质量训练数据比模型规模更重要。

至顶网科技行者 2025-05-31 11:40:42

VerifyBench：为大语言模型的基于参考的奖励系统搭建基准测试

VerifyBench是首个专门评估大语言模型基于参考的奖励系统的基准测试，填补了现有奖励评估基准的关键空白。由浙江大学、美团等机构联合开发，包含VerifyBench和更具挑战性的VerifyBench-Hard两个数据集。研究发现虽然大型模型在标准案例上表现出色，但在复杂案例上仍有显著改进空间。该基准测试通过精心构建的数据集和评估框架，为提升大模型推理能力提供了标准化评估工具，对强化学习训练具有重要意义。

至顶网科技行者 2025-05-27 17:11:24

不孕不育的新曙光：AI

科学家们正在使用计算机算法进行胚胎分析，帮助育龄父母们建立自己的幸福家族。

至顶网科技行者 2021-01-12 14:36:28

TUM团队突破性发现：AI模型竟能用"错误"数据学会完美推理！

慕尼黑工业大学研究团队首次将"grokking"现象成功应用于真实世界的复杂推理任务，通过巧妙的数据增强策略，让仅有1.24亿参数的小型AI模型在多步推理任务上达到95-100%准确率，超越了GPT-4o等大型模型。更令人惊讶的是，即使训练数据中包含错误信息，也能增强而非削弱模型的推理能力。

至顶网科技行者 2025-07-11 09:47:23

AI模型的新挑战：当问题不止一个，连最强大脑也会犯糊涂——清华大学与上海人工智能实验室的压力测试研究

清华大学与上海人工智能实验室联合开展的这项研究发现，即使是最先进的AI模型如DeepSeek-R1，在同时处理多个问题时性能也会显著下降。研究团队开发了REST压力测试框架，通过对34个大型推理模型的测试，揭示了AI在多任务处理中的"问题遗漏"、"思维过度"等典型错误模式，为AI评测和开发提供了新的视角和方法。

至顶网科技行者 2025-07-22 09:27:04

佐治亚理工学院团队揭秘AI"读心术"：让机器看透图片背后的故事

佐治亚理工学院研究团队开发的ConceptAttention技术首次实现了对AI图像生成模型内在机制的精确解读，能够生成高质量概念定位地图，准确显示AI如何理解图片中各种概念的位置。该技术在零样本图像分割任务中表现卓越，准确率达83.07%，超越15种先进方法，并成功扩展至视频分析领域，为AI可解释性研究开辟新方向。

至顶网科技行者 2025-08-20 18:06:34

实现具身智能 NVIDIA在COMPUTEX 2023上展示工业数字化最佳实践

在生成式AI、3D协作、仿真模拟和自主机器技术的驱动下，制造业原有的工作流程正在改变，而NVIDIA提供全栈架构帮助制造业企业拥抱新革新，推动数字化转型。

至顶网李祥敬 2023-05-30 10:12:09

牧联链系统——北京牧国科技有限公司、北京理工大学

基于隐私计算技术，系统整合肉牛数据，在保证数据隐私安全的基础上将数据开放给相应金融机构，为其更好地进行产品设计和决策进行赋能。

至顶网至顶网CIO与CTO频道 2024-03-27 12:12:59

大语言模型的几何平均策略优化：微软研究院让AI推理更稳定更聪明

微软研究院等机构提出GMPO方法，通过几何平均替代算术平均处理强化学习中的词元级奖励，解决GRPO训练不稳定问题。该方法在数学推理任务上平均提升4.1%准确率，在多模态推理中提升1.4%，同时保持更稳定的重要性采样比率和更高的探索能力，为大语言模型训练提供了更可靠的优化策略。

至顶网科技行者 2025-08-05 10:32:39

NVIDIA与英国国家医疗服务体系（NHS）信托基金携手为英国医院部署AI平台

英国国家医疗服务体系（NHS）信托基金将使用NVIDIA和AI Centre联合开发的开源框架MONAI，提供面向脑卒中、失智症、心力衰竭、癌症等疾病的临床AI应用。

至顶网业界供稿 2022-11-29 09:40:56

图神经网络预测闪燃以拯救消防员生命

当房间里的可燃材料突然开始全部燃烧，闪燃就会发生，闪燃导致巨大的热量和可燃气体激增，因而墙壁及爆裂窗户可能会突然破裂。在2008年至2018年的10年期间，美国约有800名消防员在工作中死亡，超过32万名消防员受伤，据估计，其中13%的事故是闪燃事件造成的。

至顶网至顶网软件与服务频道 2022-08-15 15:34:46

新南威尔士大学首创ZARA：让AI像侦探一样从运动传感器数据中识别人类活动

新南威尔士大学研究团队开发了ZARA系统，这是首个零样本运动识别框架，能够在未经专门训练的情况下识别全新的人类活动。该系统集成了自动构建的知识库、多传感器检索机制和分层智能体推理，不仅实现了比现有最强基线高2.53倍的识别准确率，还提供清晰的自然语言解释，为可穿戴设备和健康监护等应用领域带来了突破性进展。

至顶网科技行者 2025-08-27 15:22:41

京东金融对话语音识别大赛启动选手可获OFFER、50万元GPU使用权

8月16日，由京东集团与京东金融联合打造的国内首个距离产业界最近的数字探索者社区 “JDD空间站”(https://jdder.jd.com/)上线

至顶网业界供稿 2018-08-17 09:58:56