用了 0.037286秒,为您找到准确率 最高 计划 软件 罔芷 88pkee 驻测相关内容2181 条
  • ViPlan:视觉语言模型如何从图像中理解世界并制定行动计划

    这项研究首次提出了ViPlan基准测试,系统评估视觉语言模型在视觉规划任务中的表现。研究对比了"VLM作为规划器"和"VLM作为接地器"两种方法,发现在抽象的积木世界中接地器方法更优,而在模拟家庭环境中规划器方法表现更佳。研究还发现链式思考提示对大多数模型并无显著改善效果,表明当前视觉语言模型在视觉推理方面仍存在局限性。
    至顶网  科技行者  2025-05-23 07:45:30  
  • 英特尔人工智能助力乳腺癌早筛及诊治

    金秋十月,2018年《时尚健康》“粉红丝带运动”国际乳腺癌防治月来临了,英特尔公司本着“爱护乳腺,AI不宜迟”的理念,携手国家级医学影像人工智能高新技术企业-汇医慧影公司,共同开发“人工智能乳腺全周期健康管理系统”, 助力乳腺癌早期筛查以及诊治
    至顶网  业界供稿  2018-09-29 14:56:19  
  • 别只看一眼就走:揭秘耶鲁大学研究团队让AI通过视觉回顾实现交互式推理的突破性方法

    这项研究展示了多模态AI推理的突破性进展。耶鲁大学团队开发的v1系统使AI能够像人类一样在推理过程中有选择地"再看一眼"图像。通过简单的"指向并复制"机制,AI可以动态检索关键视觉区域,而非仅依赖初始输入的记忆。实验证明,这种能力显著提升了模型在多模态数学推理任务上的表现。研究团队构建了包含30万个带视觉定位标注的推理路径数据集,为这一创新技术提供了坚实基础。这一轻量级设计为未来视觉-语言模型的交互式推理能力开辟了新方向。
    至顶网  科技行者  2025-06-04 15:37:15  
  • 当AI学会"看懂"视频后,我们离真正的机器人管家还有多远?——香港大学团队揭秘视频理解新突破

    这项由香港大学和腾讯团队完成的研究创建了SEED-Bench-R1视频理解测试平台,发现强化学习方法在训练AI理解视频方面比传统方法更有效,特别是在面对陌生环境时表现更佳。研究揭示了AI视觉感知能力的提升机制,但也发现了推理逻辑一致性等待改进的问题,为未来智能系统发展提供了重要参考。
    至顶网  科技行者  2025-07-14 09:50:01  
  • 机器人大脑中的"想象力":让AI学会预测复杂运动的新技术突破

    加州大学伯克利分校研究团队开发出"分层运动预测网络",让AI通过观看视频学会预测复杂物体运动,无需精确物理计算。系统在简单运动预测中达91%准确率,复杂场景78%,某些情况下超越人类判断。技术有望应用于机器人、自动驾驶、家庭服务等领域,为AI理解物理世界开辟新路径。
    至顶网  科技行者  2025-07-25 11:46:11  
  • 北大物理学院推出首个物理推理基准测试:AI模型在复杂物理问题面前还是个"学渣"

    北京大学物理学院团队开发了首个专门评估AI大语言模型物理推理能力的基准测试PHYBench,包含500道原创物理题目。测试发现即使最先进的AI模型准确率也仅有36.9%,远低于人类专家的61.9%,揭示了AI在复杂物理推理中的显著局限性。
    至顶网  科技行者  2025-07-14 09:48:14  
  • 别只在需要时思考,这些混合推理大模型让思维更高效

    微软研究院与北京大学的团队开发出全新的大型混合推理模型(LHRMs),解决了大型推理模型的过度思考问题。这种创新模型能够像人类一样,根据问题复杂度自动决定是否需要深入思考。研究团队设计了两阶段训练方法,包括混合微调和混合群体策略优化,使模型学会智能切换思考模式。实验证明,LHRMs不仅在数学、编程等推理任务上表现出色,还避免了对简单问题的过度思考,大幅提升了响应效率和用户体验。这项研究为构建更接近人类认知模式的AI系统提供了新思路。
    至顶网  科技行者  2025-05-26 08:11:51  
  • 斯坦福大学等多校联手:首个多语言视觉检索基准VisR-Bench,让AI真正"看懂"全球文档

    斯坦福大学等研究机构联合发布首个多语言视觉检索基准VisR-Bench,系统评估AI在16种语言、1286份真实文档上的检索能力。研究发现现有AI系统在表格理解和低资源语言处理方面存在显著局限,最先进模型准确率仅75%,阿拉伯语等语言表现更差。该基准为改进多语言文档AI提供重要参考。
    至顶网  科技行者  2025-08-14 10:27:49  
  • AI"法官"新突破:Meta团队让机器无师自通判别图像安全问题

    Meta团队开发出CLUE系统,这是一种无需人工标注数据就能判断图像安全问题的AI方法。该系统通过将主观安全规则客观化、智能筛选相关规则、分解复杂条件、消除判断偏见等创新技术,在测试中达到95.9%召回率和94.8%准确率,显著超越传统方法。这项突破为内容平台提供了高效灵活的安全检测工具,有望改变网络内容审核的现状。
    至顶网  科技行者  2025-09-15 10:39:54  
  • 打破传统模式极限,探路人工智能让数据“自我学习”

    在3秒钟的时间内,要将成百上千条数据,从一个业务系统录入到另外10个业务系统,还要确保100%的准确率,辰宜科技(第四届中国(广东)国际“互联网+”博览会展位号:1号馆1A089)是怎么做到的?这得从当下的一个时髦词语——“搬砖”说起。
    至顶网  业界供稿  2018-10-09 18:09:42  
  • PrefPalette:Meta和华盛顿大学联手打造会"读心术"的AI偏好预测系统

    Meta和华盛顿大学研究团队开发出PrefPalette系统,首次将认知科学的多属性决策理论引入AI偏好预测。该系统通过分析19个属性维度理解用户偏好形成过程,在Reddit 45个社区测试中准确率比GPT-4o提高46.6%。系统不仅能预测用户喜好,还能解释预测原因,为构建透明可解释的个性化AI奠定基础。
    至顶网  科技行者  2025-07-28 11:50:10  
  • 阿里云混合云这一年:服务18个省级政务云

    1月27日,阿里云发布2020混合云年度回顾,在技术创新、战略投入与生态战略三大优势加持下,服务了18家省级和100多家市级政务云及数百家银行。
    至顶网  业界供稿  2021-02-08 11:48:43  
  • 谷歌DeepMind首次实现AI"闻香识分子":用机器学习破解人类嗅觉奥秘

    谷歌DeepMind开发出革命性AI系统,首次实现通过分子结构预测气味特征。该系统使用图神经网络技术,在包含5000个分子的数据库上训练,能够准确预测未知分子的气味。这项突破性研究解决了困扰科学界几十年的嗅觉机理问题,为香水、食品、医学等领域开辟新的应用前景,标志着人工智能在感官科学领域的重大进展。
    至顶网  科技行者  2025-08-14 12:48:32  
  • 上海交通大学团队破解图表理解难题:让AI学会选择最合适的推理方式

    上海交通大学团队通过引入"视觉可编程性"概念,成功让AI学会根据图表特征自主选择代码分析或直接观察的推理方式。该自适应框架在四个基准数据集上平均准确率达62.8%,显著超越固定策略方法。研究采用双重奖励机制训练,确保AI既追求准确性又具备策略选择智慧,为构建更灵活可靠的人工智能系统提供了新思路。
    至顶网  科技行者  2025-09-12 16:47:25  
  • Micro-Act:用自主推理解决问答中的知识冲突

    这篇研究介绍了Micro-Act,一种创新框架,旨在解决问答系统中的知识冲突问题。由香港大学等机构研发的这一方法能够自动感知上下文复杂度,并将知识源分解成一系列细粒度比较,有效克服了传统方法在处理复杂冲突时的局限性。实验表明,Micro-Act在五个基准数据集上显著超越了现有技术,并在无冲突场景中保持稳健性能,为构建更可靠的检索增强生成系统提供了新思路。
    至顶网  科技行者  2025-06-09 11:15:40  
  • AI挑战多步推理的秘密:MBZUAI团队揭示大模型"思考深度"的突破之路

    MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。
    至顶网  科技行者  2025-09-01 15:55:10  
  • 我们为什么要采用AI数字化技术?

    无论是疫情与否,人工智能发展的进程都不会停止。根据某知名风险投资机构预测,AI将很快成为常规技术,超过50%的企业主认为,人工智能将在三年内被整合到企业应用中。
    至顶网  至顶网软件与服务频道  2020-07-13 15:59:14  
  • 推理模型存在崩溃缺陷?Open Philanthropy研究人员提出AI推理能力评估的改进方法

    推理模型存在崩溃缺陷?Open Philanthropy研究人员提出AI推理能力评估的改进方法
    至顶网  至顶AI实验室  2025-06-19 14:48:25  
  • AI模型"千里之堤毁于蚁穴":剑桥大学团队揭示大语言模型长期任务执行的致命缺陷

    剑桥大学等机构研究发现,AI模型在长期任务执行中存在致命缺陷:微小的单步改进会带来指数级的长期能力提升,但传统模型会被自己的历史错误"带偏",出现自我设限效应。思考型模型如GPT-5能执行超过1000步任务,打破了这一限制。研究重新定义了AI价值评估标准,认为长期执行能力比单次交互表现更重要。
    至顶网  科技行者  2025-09-25 14:42:22  
  • 图表博物馆:测试大型视觉-语言模型的视觉推理能力——德克萨斯大学奥斯汀分校团队开创性研究

    德克萨斯大学奥斯汀分校的研究团队开发了一个名为CHARTMUSEUM的全新基准测试,专门评估大型视觉-语言模型理解图表的能力。研究表明,即使最先进的AI模型在图表视觉推理任务上远远落后于人类表现——虽然人类能达到93%的准确率,但最佳模型Gemini-2.5-Pro仅达到63%,开源模型表现更差。研究揭示模型在处理视觉推理问题时比文本推理问题表现低35%-55%,并通过错误分析确定了当前模型在符号选择、视觉比较、轨迹跟踪和数值识别等方面的关键挑战,为未来模型改进提供了明确方向。
    至顶网  科技行者  2025-05-22 08:16:20  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号