用了 0.045184秒,为您找到准确率 最高 计划 软件 罔芷 88pkee 驻测相关内容2311 条
  • 当AI学会"看懂"视频后,我们离真正的机器人管家还有多远?——香港大学团队揭秘视频理解新突破

    这项由香港大学和腾讯团队完成的研究创建了SEED-Bench-R1视频理解测试平台,发现强化学习方法在训练AI理解视频方面比传统方法更有效,特别是在面对陌生环境时表现更佳。研究揭示了AI视觉感知能力的提升机制,但也发现了推理逻辑一致性等待改进的问题,为未来智能系统发展提供了重要参考。
    至顶网  科技行者  2025-07-14 09:50:01  
  • 机器人大脑中的"想象力":让AI学会预测复杂运动的新技术突破

    加州大学伯克利分校研究团队开发出"分层运动预测网络",让AI通过观看视频学会预测复杂物体运动,无需精确物理计算。系统在简单运动预测中达91%准确率,复杂场景78%,某些情况下超越人类判断。技术有望应用于机器人、自动驾驶、家庭服务等领域,为AI理解物理世界开辟新路径。
    至顶网  科技行者  2025-07-25 11:46:11  
  • 北大物理学院推出首个物理推理基准测试:AI模型在复杂物理问题面前还是个"学渣"

    北京大学物理学院团队开发了首个专门评估AI大语言模型物理推理能力的基准测试PHYBench,包含500道原创物理题目。测试发现即使最先进的AI模型准确率也仅有36.9%,远低于人类专家的61.9%,揭示了AI在复杂物理推理中的显著局限性。
    至顶网  科技行者  2025-07-14 09:48:14  
  • 别只在需要时思考,这些混合推理大模型让思维更高效

    微软研究院与北京大学的团队开发出全新的大型混合推理模型(LHRMs),解决了大型推理模型的过度思考问题。这种创新模型能够像人类一样,根据问题复杂度自动决定是否需要深入思考。研究团队设计了两阶段训练方法,包括混合微调和混合群体策略优化,使模型学会智能切换思考模式。实验证明,LHRMs不仅在数学、编程等推理任务上表现出色,还避免了对简单问题的过度思考,大幅提升了响应效率和用户体验。这项研究为构建更接近人类认知模式的AI系统提供了新思路。
    至顶网  科技行者  2025-05-26 08:11:51  
  • 斯坦福大学等多校联手:首个多语言视觉检索基准VisR-Bench,让AI真正"看懂"全球文档

    斯坦福大学等研究机构联合发布首个多语言视觉检索基准VisR-Bench,系统评估AI在16种语言、1286份真实文档上的检索能力。研究发现现有AI系统在表格理解和低资源语言处理方面存在显著局限,最先进模型准确率仅75%,阿拉伯语等语言表现更差。该基准为改进多语言文档AI提供重要参考。
    至顶网  科技行者  2025-08-14 10:27:49  
  • AI"法官"新突破:Meta团队让机器无师自通判别图像安全问题

    Meta团队开发出CLUE系统,这是一种无需人工标注数据就能判断图像安全问题的AI方法。该系统通过将主观安全规则客观化、智能筛选相关规则、分解复杂条件、消除判断偏见等创新技术,在测试中达到95.9%召回率和94.8%准确率,显著超越传统方法。这项突破为内容平台提供了高效灵活的安全检测工具,有望改变网络内容审核的现状。
    至顶网  科技行者  2025-09-15 10:39:54  
  • 打破传统模式极限,探路人工智能让数据“自我学习”

    在3秒钟的时间内,要将成百上千条数据,从一个业务系统录入到另外10个业务系统,还要确保100%的准确率,辰宜科技(第四届中国(广东)国际“互联网+”博览会展位号:1号馆1A089)是怎么做到的?这得从当下的一个时髦词语——“搬砖”说起。
    至顶网  业界供稿  2018-10-09 18:09:42  
  • PrefPalette:Meta和华盛顿大学联手打造会"读心术"的AI偏好预测系统

    Meta和华盛顿大学研究团队开发出PrefPalette系统,首次将认知科学的多属性决策理论引入AI偏好预测。该系统通过分析19个属性维度理解用户偏好形成过程,在Reddit 45个社区测试中准确率比GPT-4o提高46.6%。系统不仅能预测用户喜好,还能解释预测原因,为构建透明可解释的个性化AI奠定基础。
    至顶网  科技行者  2025-07-28 11:50:10  
  • 阿里云混合云这一年:服务18个省级政务云

    1月27日,阿里云发布2020混合云年度回顾,在技术创新、战略投入与生态战略三大优势加持下,服务了18家省级和100多家市级政务云及数百家银行。
    至顶网  业界供稿  2021-02-08 11:48:43  
  • 谷歌DeepMind首次实现AI"闻香识分子":用机器学习破解人类嗅觉奥秘

    谷歌DeepMind开发出革命性AI系统,首次实现通过分子结构预测气味特征。该系统使用图神经网络技术,在包含5000个分子的数据库上训练,能够准确预测未知分子的气味。这项突破性研究解决了困扰科学界几十年的嗅觉机理问题,为香水、食品、医学等领域开辟新的应用前景,标志着人工智能在感官科学领域的重大进展。
    至顶网  科技行者  2025-08-14 12:48:32  
  • 上海交通大学团队破解图表理解难题:让AI学会选择最合适的推理方式

    上海交通大学团队通过引入"视觉可编程性"概念,成功让AI学会根据图表特征自主选择代码分析或直接观察的推理方式。该自适应框架在四个基准数据集上平均准确率达62.8%,显著超越固定策略方法。研究采用双重奖励机制训练,确保AI既追求准确性又具备策略选择智慧,为构建更灵活可靠的人工智能系统提供了新思路。
    至顶网  科技行者  2025-09-12 16:47:25  
  • Micro-Act:用自主推理解决问答中的知识冲突

    这篇研究介绍了Micro-Act,一种创新框架,旨在解决问答系统中的知识冲突问题。由香港大学等机构研发的这一方法能够自动感知上下文复杂度,并将知识源分解成一系列细粒度比较,有效克服了传统方法在处理复杂冲突时的局限性。实验表明,Micro-Act在五个基准数据集上显著超越了现有技术,并在无冲突场景中保持稳健性能,为构建更可靠的检索增强生成系统提供了新思路。
    至顶网  科技行者  2025-06-09 11:15:40  
  • AI挑战多步推理的秘密:MBZUAI团队揭示大模型"思考深度"的突破之路

    MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。
    至顶网  科技行者  2025-09-01 15:55:10  
  • 推理链如何压缩AI的学习空间:UNC与谷歌DeepMind发现有效推理的核心秘密

    UNC与谷歌DeepMind合作研究发现,有效的AI推理策略能够显著降低模型学习的内在维度,即完成任务所需的最少参数数量。通过对14种推理方法的测试,研究团队发现内在维度与泛化能力呈强负相关(相关系数0.93),其中程序执行推理表现最佳。这一发现为AI训练策略优化提供了新思路,表明推理质量比复杂度更重要。
    至顶网  科技行者  2026-02-12 13:28:19  
  • 我们为什么要采用AI数字化技术?

    无论是疫情与否,人工智能发展的进程都不会停止。根据某知名风险投资机构预测,AI将很快成为常规技术,超过50%的企业主认为,人工智能将在三年内被整合到企业应用中。
    至顶网  至顶网软件与服务频道  2020-07-13 15:59:14  
  • 香港科技大学研究突破:AI智能助手如何在超长对话中保持"记忆力"不衰退

    香港科技大学研究团队发布LOCA-bench测试平台,专门评估AI助手在长时间复杂任务中的表现。研究发现AI存在"上下文腐烂"问题,随着信息量增加,准确率从70%急剧下降至20%以下。研究识别出AI的四大"职场病"并提出多种"记忆增强"技术,其中程序化工具调用法效果最佳,可将准确率提升25%以上。
    至顶网  科技行者  2026-02-10 15:34:49  
  • 推理模型存在崩溃缺陷?Open Philanthropy研究人员提出AI推理能力评估的改进方法

    推理模型存在崩溃缺陷?Open Philanthropy研究人员提出AI推理能力评估的改进方法
    至顶网  至顶AI实验室  2025-06-19 14:48:25  
  • AI模型"千里之堤毁于蚁穴":剑桥大学团队揭示大语言模型长期任务执行的致命缺陷

    剑桥大学等机构研究发现,AI模型在长期任务执行中存在致命缺陷:微小的单步改进会带来指数级的长期能力提升,但传统模型会被自己的历史错误"带偏",出现自我设限效应。思考型模型如GPT-5能执行超过1000步任务,打破了这一限制。研究重新定义了AI价值评估标准,认为长期执行能力比单次交互表现更重要。
    至顶网  科技行者  2025-09-25 14:42:22  
  • 图表博物馆:测试大型视觉-语言模型的视觉推理能力——德克萨斯大学奥斯汀分校团队开创性研究

    德克萨斯大学奥斯汀分校的研究团队开发了一个名为CHARTMUSEUM的全新基准测试,专门评估大型视觉-语言模型理解图表的能力。研究表明,即使最先进的AI模型在图表视觉推理任务上远远落后于人类表现——虽然人类能达到93%的准确率,但最佳模型Gemini-2.5-Pro仅达到63%,开源模型表现更差。研究揭示模型在处理视觉推理问题时比文本推理问题表现低35%-55%,并通过错误分析确定了当前模型在符号选择、视觉比较、轨迹跟踪和数值识别等方面的关键挑战,为未来模型改进提供了明确方向。
    至顶网  科技行者  2025-05-22 08:16:20  
  • AI被最新"空间推理"题目难倒了!EPFL和ETH科学家打造地狱级多模态测试,所有顶级模型全军覆没

    瑞士EPFL和ETH研究团队发布MARBLE基准测试,专门评估AI的复杂空间推理能力。测试包含Portal游戏启发的M-Portal和3D拼图M-Cube两大任务,要求AI进行多步骤规划和3D空间组装。结果显示包括GPT-4o在内的12个顶级多模态AI模型几乎全部失败,在最难任务上准确率接近0%,暴露了当前AI在真正智能推理方面的重大缺陷。
    至顶网  科技行者  2025-07-03 10:00:33  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号