搜索准确率最高的计划软件【罔芷:——88pk·ee—

当AI学会"看懂"视频后，我们离真正的机器人管家还有多远？——香港大学团队揭秘视频理解新突破

这项由香港大学和腾讯团队完成的研究创建了SEED-Bench-R1视频理解测试平台，发现强化学习方法在训练AI理解视频方面比传统方法更有效，特别是在面对陌生环境时表现更佳。研究揭示了AI视觉感知能力的提升机制，但也发现了推理逻辑一致性等待改进的问题，为未来智能系统发展提供了重要参考。

至顶网科技行者 2025-07-14 09:50:01

机器人大脑中的"想象力"：让AI学会预测复杂运动的新技术突破

加州大学伯克利分校研究团队开发出"分层运动预测网络"，让AI通过观看视频学会预测复杂物体运动，无需精确物理计算。系统在简单运动预测中达91%准确率，复杂场景78%，某些情况下超越人类判断。技术有望应用于机器人、自动驾驶、家庭服务等领域，为AI理解物理世界开辟新路径。

至顶网科技行者 2025-07-25 11:46:11

北大物理学院推出首个物理推理基准测试：AI模型在复杂物理问题面前还是个"学渣"

北京大学物理学院团队开发了首个专门评估AI大语言模型物理推理能力的基准测试PHYBench，包含500道原创物理题目。测试发现即使最先进的AI模型准确率也仅有36.9%，远低于人类专家的61.9%，揭示了AI在复杂物理推理中的显著局限性。

至顶网科技行者 2025-07-14 09:48:14

别只在需要时思考，这些混合推理大模型让思维更高效

微软研究院与北京大学的团队开发出全新的大型混合推理模型（LHRMs），解决了大型推理模型的过度思考问题。这种创新模型能够像人类一样，根据问题复杂度自动决定是否需要深入思考。研究团队设计了两阶段训练方法，包括混合微调和混合群体策略优化，使模型学会智能切换思考模式。实验证明，LHRMs不仅在数学、编程等推理任务上表现出色，还避免了对简单问题的过度思考，大幅提升了响应效率和用户体验。这项研究为构建更接近人类认知模式的AI系统提供了新思路。

至顶网科技行者 2025-05-26 08:11:51

斯坦福大学等多校联手：首个多语言视觉检索基准VisR-Bench，让AI真正"看懂"全球文档

斯坦福大学等研究机构联合发布首个多语言视觉检索基准VisR-Bench，系统评估AI在16种语言、1286份真实文档上的检索能力。研究发现现有AI系统在表格理解和低资源语言处理方面存在显著局限，最先进模型准确率仅75%，阿拉伯语等语言表现更差。该基准为改进多语言文档AI提供重要参考。

至顶网科技行者 2025-08-14 10:27:49

AI"法官"新突破：Meta团队让机器无师自通判别图像安全问题

Meta团队开发出CLUE系统，这是一种无需人工标注数据就能判断图像安全问题的AI方法。该系统通过将主观安全规则客观化、智能筛选相关规则、分解复杂条件、消除判断偏见等创新技术，在测试中达到95.9%召回率和94.8%准确率，显著超越传统方法。这项突破为内容平台提供了高效灵活的安全检测工具，有望改变网络内容审核的现状。

至顶网科技行者 2025-09-15 10:39:54

打破传统模式极限，探路人工智能让数据“自我学习”

在3秒钟的时间内，要将成百上千条数据，从一个业务系统录入到另外10个业务系统，还要确保100%的准确率,辰宜科技（第四届中国（广东）国际“互联网+”博览会展位号：1号馆1A089）是怎么做到的？这得从当下的一个时髦词语——“搬砖”说起。

至顶网业界供稿 2018-10-09 18:09:42

PrefPalette：Meta和华盛顿大学联手打造会"读心术"的AI偏好预测系统

Meta和华盛顿大学研究团队开发出PrefPalette系统，首次将认知科学的多属性决策理论引入AI偏好预测。该系统通过分析19个属性维度理解用户偏好形成过程，在Reddit 45个社区测试中准确率比GPT-4o提高46.6%。系统不仅能预测用户喜好，还能解释预测原因，为构建透明可解释的个性化AI奠定基础。

至顶网科技行者 2025-07-28 11:50:10

阿里云混合云这一年：服务18个省级政务云

1月27日,阿里云发布2020混合云年度回顾,在技术创新、战略投入与生态战略三大优势加持下,服务了18家省级和100多家市级政务云及数百家银行。

至顶网业界供稿 2021-02-08 11:48:43

谷歌DeepMind首次实现AI"闻香识分子"：用机器学习破解人类嗅觉奥秘

谷歌DeepMind开发出革命性AI系统，首次实现通过分子结构预测气味特征。该系统使用图神经网络技术，在包含5000个分子的数据库上训练，能够准确预测未知分子的气味。这项突破性研究解决了困扰科学界几十年的嗅觉机理问题，为香水、食品、医学等领域开辟新的应用前景，标志着人工智能在感官科学领域的重大进展。

至顶网科技行者 2025-08-14 12:48:32

上海交通大学团队破解图表理解难题：让AI学会选择最合适的推理方式

上海交通大学团队通过引入"视觉可编程性"概念，成功让AI学会根据图表特征自主选择代码分析或直接观察的推理方式。该自适应框架在四个基准数据集上平均准确率达62.8%，显著超越固定策略方法。研究采用双重奖励机制训练，确保AI既追求准确性又具备策略选择智慧，为构建更灵活可靠的人工智能系统提供了新思路。

至顶网科技行者 2025-09-12 16:47:25

Micro-Act：用自主推理解决问答中的知识冲突

这篇研究介绍了Micro-Act，一种创新框架，旨在解决问答系统中的知识冲突问题。由香港大学等机构研发的这一方法能够自动感知上下文复杂度，并将知识源分解成一系列细粒度比较，有效克服了传统方法在处理复杂冲突时的局限性。实验表明，Micro-Act在五个基准数据集上显著超越了现有技术，并在无冲突场景中保持稳健性能，为构建更可靠的检索增强生成系统提供了新思路。

至顶网科技行者 2025-06-09 11:15:40

AI挑战多步推理的秘密：MBZUAI团队揭示大模型"思考深度"的突破之路

MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制：固定深度模型在单步预测上表现优异，但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效，自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导，强调了真正推理与简单记忆的本质区别。

至顶网科技行者 2025-09-01 15:55:10

推理链如何压缩AI的学习空间：UNC与谷歌DeepMind发现有效推理的核心秘密

UNC与谷歌DeepMind合作研究发现，有效的AI推理策略能够显著降低模型学习的内在维度，即完成任务所需的最少参数数量。通过对14种推理方法的测试，研究团队发现内在维度与泛化能力呈强负相关（相关系数0.93），其中程序执行推理表现最佳。这一发现为AI训练策略优化提供了新思路，表明推理质量比复杂度更重要。

至顶网科技行者 2026-02-12 13:28:19

我们为什么要采用AI数字化技术？

无论是疫情与否，人工智能发展的进程都不会停止。根据某知名风险投资机构预测，AI将很快成为常规技术，超过50%的企业主认为，人工智能将在三年内被整合到企业应用中。

至顶网至顶网软件与服务频道 2020-07-13 15:59:14

香港科技大学研究突破：AI智能助手如何在超长对话中保持"记忆力"不衰退

香港科技大学研究团队发布LOCA-bench测试平台，专门评估AI助手在长时间复杂任务中的表现。研究发现AI存在"上下文腐烂"问题，随着信息量增加，准确率从70%急剧下降至20%以下。研究识别出AI的四大"职场病"并提出多种"记忆增强"技术，其中程序化工具调用法效果最佳，可将准确率提升25%以上。

至顶网科技行者 2026-02-10 15:34:49

推理模型存在崩溃缺陷？Open Philanthropy研究人员提出AI推理能力评估的改进方法

至顶网至顶AI实验室 2025-06-19 14:48:25

AI模型"千里之堤毁于蚁穴"：剑桥大学团队揭示大语言模型长期任务执行的致命缺陷

剑桥大学等机构研究发现，AI模型在长期任务执行中存在致命缺陷：微小的单步改进会带来指数级的长期能力提升，但传统模型会被自己的历史错误"带偏"，出现自我设限效应。思考型模型如GPT-5能执行超过1000步任务，打破了这一限制。研究重新定义了AI价值评估标准，认为长期执行能力比单次交互表现更重要。

至顶网科技行者 2025-09-25 14:42:22

图表博物馆：测试大型视觉-语言模型的视觉推理能力——德克萨斯大学奥斯汀分校团队开创性研究

德克萨斯大学奥斯汀分校的研究团队开发了一个名为CHARTMUSEUM的全新基准测试，专门评估大型视觉-语言模型理解图表的能力。研究表明，即使最先进的AI模型在图表视觉推理任务上远远落后于人类表现——虽然人类能达到93%的准确率，但最佳模型Gemini-2.5-Pro仅达到63%，开源模型表现更差。研究揭示模型在处理视觉推理问题时比文本推理问题表现低35%-55%，并通过错误分析确定了当前模型在符号选择、视觉比较、轨迹跟踪和数值识别等方面的关键挑战，为未来模型改进提供了明确方向。

至顶网科技行者 2025-05-22 08:16:20

AI被最新"空间推理"题目难倒了！EPFL和ETH科学家打造地狱级多模态测试，所有顶级模型全军覆没

瑞士EPFL和ETH研究团队发布MARBLE基准测试，专门评估AI的复杂空间推理能力。测试包含Portal游戏启发的M-Portal和3D拼图M-Cube两大任务，要求AI进行多步骤规划和3D空间组装。结果显示包括GPT-4o在内的12个顶级多模态AI模型几乎全部失败，在最难任务上准确率接近0%，暴露了当前AI在真正智能推理方面的重大缺陷。

至顶网科技行者 2025-07-03 10:00:33