用了 0.028245秒,为您找到准确率 最高 计划 软件 罔芷 88pkee 驻测相关内容1389 条
  • SAKURA:探索大型音频语言模型如何"听懂"并"思考"——首个评估音频多跳推理能力的基准测试

    台湾国立大学研究团队开发了SAKURA,首个专门评估大型音频语言模型多跳推理能力的基准测试。研究发现,即使最先进的模型也面临两大挑战:一是在识别某些音频属性(如情绪)时准确率不高;二是即使能正确识别音频信息,也难以基于这些信息进行多步推理。对比实验显示,当同样的信息以文本形式提供时,模型推理能力显著提升,表明当前模型未能有效整合音频表征进入推理过程,这为未来开发真正能"听懂并思考"的AI系统提供了重要方向。
    至顶网  科技行者  2025-05-28 18:37:30  
  • 视角正确吗?用多维精细感知任务解析多模态大语言模型的方向理解能力

    波士顿大学研究团队开发的DORI基准测试从四个维度评估多模态大语言模型的物体方向理解能力:正面对齐、旋转变换、相对方向和规范方向感知。研究评估了15个最先进模型,发现即使最佳模型在粗粒度任务上的准确率也仅为54.2%,在细粒度方向判断上更低至33.0%,与人类表现相差近30%。结果表明当前模型在精确角度估计、多视角追踪和理解复合旋转方面存在系统性缺陷,反映了它们内部3D空间表示的根本局限,为未来模型设计提供了明确方向。
    至顶网  科技行者  2025-06-03 09:49:32  
  • 香港中文大学突破性成果:让相机像人眼一样精准"测距",AI终于学会了准确判断物体远近

    香港中文大学团队开发的TR2M系统突破性地解决了计算机视觉中的距离测量难题,通过结合图像和文字信息,让AI既能在各种环境中通用工作,又能给出精确的距离数字。该技术参数量小、效果好,在室内外及医疗场景测试中均表现优异,为自动驾驶、机器人导航、增强现实等应用提供了重要技术支撑,代表了多模态AI融合的重要进展。
    至顶网  科技行者  2025-06-23 11:46:03  
  • 华为周跃峰:数据觉醒时代,共创数据存储产业新未来

    3月14日至15日,以“因聚而生 数智有为”为主题的“华为中国合作伙伴大会2024” 在深圳隆重举行。华为数据存储产品线总裁周跃峰发表“数据觉醒时代,共创数据存储产业新未来”主题演讲。
    至顶网  至顶网存储频道  2024-03-18 11:16:51  
  • 澳鹏Appen(中国)精彩亮相2024世界人工智能大会(WAIC2024)

    高质量的训练数据始终是人工智能产业链上的重要一环。自2019年始,澳鹏Appen(中国)已连续6届参与这一人工智能产业盛会,与产业链各环节领袖共商人工智能领域前沿技术、产业动向、向善治理。
    至顶网  业界供稿  2024-07-12 11:57:16  
  • 图灵奖得主Yoshua Bengio:深度学习当务之急,是理解因果关系

    深度学习擅长在大量数据中发现模式,但无法解释它们之间的联系,而图灵奖获得者Yoshua Bengio想要改变这一点。
    至顶网  科技行者  2019-10-11 16:17:46  
  • 2018年亚太CDN峰会,华为云荣获业务创新杰出企业奖

    2018年11月13日,由 AsiaOTT 主办的“GFIC2018——亚太CDN峰会年度盛典”在上海盛大召开。作为领先的云服务厂商,华为云凭借CDN业务在业务模式上的创新,荣获 “业务创新杰出企业"奖项。
    至顶网  业界供稿  2018-11-19 12:07:11  
  • 价值引导搜索:提升推理模型思维链的高效指南——康奈尔大学研究团队的突破性成果

    康奈尔大学研究团队提出了"价值引导搜索"方法,通过训练标记级价值模型来优化大型语言模型的推理过程。他们收集了250万个数学推理轨迹,训练了15亿参数的评估模型,实现了基于块的高效搜索。这种方法不需要预定义"步骤"概念,也无需昂贵的每步标注。在四个数学竞赛基准测试中,该方法使DeepSeek-1.5B模型达到了45.7%的平均准确率,与更大模型相当,同时显著减少了计算资源需求。研究团队开源了数据集、模型和代码,为高效人工智能推理提供了新范式。
    至顶网  科技行者  2025-05-29 12:03:07  
  • 业余爱好者的杰作:AI系统能够准确分辨真假伦勃朗画作

    利用业余时间,来自马萨诸塞州的一对夫妇编写出一套系统,据称其能够在高达90%的准确率从图片中识别出伦勃朗的画作。
    至顶网  科技行者  2019-04-30 11:25:20  
  • 深潜大语言模型的"真空地带":不是所有层都在全力工作,偷懒的层竟然越过越好?

    这项研究揭示了大语言模型中存在"空域"——在推理过程中几乎不活跃的神经网络层。研究者开发了L2自适应计算方法,无需额外训练即可准确识别这些空域。惊人的是,在Qwen2.5-7B模型上,跳过70%的层后性能反而从69.24%提升到71.29%;Mistral-7B在GPQA测试中跳过约30%的层后,准确率提高了4.48%。这表明不同模型层的贡献极不均衡,有选择地跳过"懒惰层"不仅能保持性能,有时甚至能提升结果,为未来模型优化提供了新思路。
    至顶网  科技行者  2025-05-27 10:14:04  
  • MLLMs能帮我找到回家的路吗?——新加坡国立大学等机构发布基于交通地图的细粒度视觉推理基准研究

    这项来自新加坡国立大学等机构的研究引入了REASONMAP,一个用于评估多模态大语言模型细粒度视觉理解能力的基准测试。研究团队使用来自13个国家30个城市的高分辨率交通地图,构建了1,008个问答对,设计了两级评估框架测量答案的正确性和质量。对15个流行模型的评估揭示了一个意外发现:开源领域的基础模型表现优于推理型模型,而闭源模型则相反。研究还表明,当视觉输入被遮盖时,模型性能普遍下降,证明真正的细粒度视觉推理任务仍需要有效整合多模态信息。
    至顶网  科技行者  2025-05-29 20:44:14  
  • B-score:利用响应历史检测大语言模型中的偏见

    这项研究提出了"B-score",一种新指标用于检测大语言模型中的偏见。研究人员发现,当模型能看到自己之前对同一问题的回答时(多轮对话),它能够减少偏见并给出更平衡的答案。B-score计算单轮与多轮对话中答案概率的差异,无需外部标注即可识别有偏见的回答。实验证明,将B-score用于回答验证可显著提高准确率,在标准基准测试上平均提升2.9个百分点。这一发现不仅提供了实用工具,还表明大语言模型具有自我纠正能力。
    至顶网  科技行者  2025-05-29 17:21:17  
  • Tiny QA Benchmark++:LLMOps持续评估的轻量级多语言基准测试套件

    Tiny QA Benchmark++(TQB++)是一个超轻量级的大型语言模型(LLM)评估工具,由Comet ML公司的Vincent Koc开发。这套工具仅需几秒钟即可检测LLM系统中的关键故障,与大型基准测试形成鲜明对比。其核心是一个不到20KB的52个精心制作的英语问答集,非常适合快速CI/CD检查和提示工程。TQB++的主要创新在于提供了一个合成数据生成工具包,能够按需产生任何语言、领域或难度的微型基准测试,并预先构建了11种语言的测试包。
    至顶网  科技行者  2025-05-23 07:40:18  
  • 人工智能应用:预测疾病、改善治疗的三种全新方式

    AI在医学领域的一种有趣应用,就是帮助预测某种诊疗方式在患者身上的潜在效果。以下三种,代表着AI医学应用中颇具前景的重要方向。
    至顶网  至顶网人工智能频道  2023-11-01 19:19:52  
  • 突破数学题的天花板:通用推理大模型如何实现全领域思维能力提升

    这项研究突破了大语言模型推理能力主要局限于数学和编程领域的限制,提出了"General-Reasoner"训练方法,使模型能够在物理、化学、金融等多领域展现高水平推理能力。研究团队构建了包含23万个跨学科问题的高质量数据集,并开发了基于生成式模型的答案验证器,取代传统规则验证方法。实验证明,该方法在MMLU-Pro等12个基准测试中表现优异,成功实现了全领域的推理能力提升,同时保持了在数学任务上的卓越表现。
    至顶网  科技行者  2025-05-26 08:18:31  
  • rStar-Coder:微软亚洲研究院打造大规模验证数据集,小模型也能实现卓越代码推理能力

    微软亚洲研究院研究团队开发的rStar-Coder通过构建大规模验证数据集,显著提升了语言模型的代码推理能力。该数据集包含418K个竞赛级代码问题和580K个长推理解决方案,每个都经过多样化测试案例验证。关键创新在于三步测试输入生成方法和相互验证机制,确保了数据的高质量和可靠性。实验表明,即使是小型模型也能达到卓越性能——Qwen2.5-7B从17.4%提升至57.3%,甚至在USACO奥林匹克竞赛中超越了规模更大的模型,证明了高质量训练数据比模型规模更重要。
    至顶网  科技行者  2025-05-31 11:40:42  
  • VerifyBench:为大语言模型的基于参考的奖励系统搭建基准测试

    VerifyBench是首个专门评估大语言模型基于参考的奖励系统的基准测试,填补了现有奖励评估基准的关键空白。由浙江大学、美团等机构联合开发,包含VerifyBench和更具挑战性的VerifyBench-Hard两个数据集。研究发现虽然大型模型在标准案例上表现出色,但在复杂案例上仍有显著改进空间。该基准测试通过精心构建的数据集和评估框架,为提升大模型推理能力提供了标准化评估工具,对强化学习训练具有重要意义。
    至顶网  科技行者  2025-05-27 17:11:24  
  • 不孕不育的新曙光:AI

    科学家们正在使用计算机算法进行胚胎分析,帮助育龄父母们建立自己的幸福家族。
    至顶网  科技行者  2021-01-12 14:36:28  
  • 实现具身智能 NVIDIA在COMPUTEX 2023上展示工业数字化最佳实践

    在生成式AI、3D协作、仿真模拟和自主机器技术的驱动下,制造业原有的工作流程正在改变,而NVIDIA提供全栈架构帮助制造业企业拥抱新革新,推动数字化转型。
    至顶网  李祥敬  2023-05-30 10:12:09  
  • 牧联链系统——北京牧国科技有限公司、北京理工大学

    基于隐私计算技术,系统整合肉牛数据,在保证数据隐私安全的基础上将数据开放给相应金融机构,为其更好地进行产品设计和决策进行赋能。
    至顶网  至顶网CIO与CTO频道  2024-03-27 12:12:59  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号