用了 0.028563秒,为您找到准确率 最高 计划 软件 罔芷 88pkee 驻测相关内容1873 条
  • 图灵奖得主Yoshua Bengio:深度学习当务之急,是理解因果关系

    深度学习擅长在大量数据中发现模式,但无法解释它们之间的联系,而图灵奖获得者Yoshua Bengio想要改变这一点。
    至顶网  科技行者  2019-10-11 16:17:46  
  • 2018年亚太CDN峰会,华为云荣获业务创新杰出企业奖

    2018年11月13日,由 AsiaOTT 主办的“GFIC2018——亚太CDN峰会年度盛典”在上海盛大召开。作为领先的云服务厂商,华为云凭借CDN业务在业务模式上的创新,荣获 “业务创新杰出企业"奖项。
    至顶网  业界供稿  2018-11-19 12:07:11  
  • 价值引导搜索:提升推理模型思维链的高效指南——康奈尔大学研究团队的突破性成果

    康奈尔大学研究团队提出了"价值引导搜索"方法,通过训练标记级价值模型来优化大型语言模型的推理过程。他们收集了250万个数学推理轨迹,训练了15亿参数的评估模型,实现了基于块的高效搜索。这种方法不需要预定义"步骤"概念,也无需昂贵的每步标注。在四个数学竞赛基准测试中,该方法使DeepSeek-1.5B模型达到了45.7%的平均准确率,与更大模型相当,同时显著减少了计算资源需求。研究团队开源了数据集、模型和代码,为高效人工智能推理提供了新范式。
    至顶网  科技行者  2025-05-29 12:03:07  
  • 滑铁卢大学研究团队突破性发明:让AI像真正的学者一样写论文和找文献

    滑铁卢大学研究团队开发出ScholarCopilot,一个革命性的AI学术写作助手。该系统突破传统"先检索后生成"模式,实现写作过程中的动态文献检索和精确引用。基于50万篇arXiv论文训练,引用准确率达40.1%,大幅超越现有方法。在人类专家评估中,引用质量获100%好评,整体表现优于ChatGPT。这项创新为AI辅助学术写作开辟新道路。
    至顶网  科技行者  2025-07-14 14:39:45  
  • 业余爱好者的杰作:AI系统能够准确分辨真假伦勃朗画作

    利用业余时间,来自马萨诸塞州的一对夫妇编写出一套系统,据称其能够在高达90%的准确率从图片中识别出伦勃朗的画作。
    至顶网  科技行者  2019-04-30 11:25:20  
  • 深潜大语言模型的"真空地带":不是所有层都在全力工作,偷懒的层竟然越过越好?

    这项研究揭示了大语言模型中存在"空域"——在推理过程中几乎不活跃的神经网络层。研究者开发了L2自适应计算方法,无需额外训练即可准确识别这些空域。惊人的是,在Qwen2.5-7B模型上,跳过70%的层后性能反而从69.24%提升到71.29%;Mistral-7B在GPQA测试中跳过约30%的层后,准确率提高了4.48%。这表明不同模型层的贡献极不均衡,有选择地跳过"懒惰层"不仅能保持性能,有时甚至能提升结果,为未来模型优化提供了新思路。
    至顶网  科技行者  2025-05-27 10:14:04  
  • MLLMs能帮我找到回家的路吗?——新加坡国立大学等机构发布基于交通地图的细粒度视觉推理基准研究

    这项来自新加坡国立大学等机构的研究引入了REASONMAP,一个用于评估多模态大语言模型细粒度视觉理解能力的基准测试。研究团队使用来自13个国家30个城市的高分辨率交通地图,构建了1,008个问答对,设计了两级评估框架测量答案的正确性和质量。对15个流行模型的评估揭示了一个意外发现:开源领域的基础模型表现优于推理型模型,而闭源模型则相反。研究还表明,当视觉输入被遮盖时,模型性能普遍下降,证明真正的细粒度视觉推理任务仍需要有效整合多模态信息。
    至顶网  科技行者  2025-05-29 20:44:14  
  • Patronus AI突破性发现:大模型在复杂任务中的真实弱点,错误率竟高达89%

    Patronus AI发布突破性研究,构建了首个系统性AI代理错误评估体系TRAIL,涵盖148个真实案例和21种错误类型。研究发现即使最先进的AI模型在复杂任务错误识别上准确率仅11%,揭示了当前AI代理系统在长文本处理、推理能力和自我监控方面的重大局限,为构建更可靠的AI系统指明方向。
    至顶网  科技行者  2025-07-09 11:59:36  
  • 阿里巴巴等机构提出SingLoRA:用一个矩阵就能让AI模型学会新技能的神奇方法

    这项由以色列理工学院等机构完成的研究提出了SingLoRA方法,用单一矩阵替代传统LoRA的双矩阵设计,解决了AI模型微调中的稳定性问题。该方法在保持性能的同时将参数量减少一半,在语言理解和图像生成任务中都表现出色,为大模型的高效适应提供了新的解决思路。
    至顶网  科技行者  2025-07-18 09:34:36  
  • B-score:利用响应历史检测大语言模型中的偏见

    这项研究提出了"B-score",一种新指标用于检测大语言模型中的偏见。研究人员发现,当模型能看到自己之前对同一问题的回答时(多轮对话),它能够减少偏见并给出更平衡的答案。B-score计算单轮与多轮对话中答案概率的差异,无需外部标注即可识别有偏见的回答。实验证明,将B-score用于回答验证可显著提高准确率,在标准基准测试上平均提升2.9个百分点。这一发现不仅提供了实用工具,还表明大语言模型具有自我纠正能力。
    至顶网  科技行者  2025-05-29 17:21:17  
  • AI视觉智能的色彩感知大考:大学马里兰分校团队揭示多模态模型的"色盲"真相

    这项由马里兰大学团队进行的研究首次系统评估了32个主流AI模型的色彩理解能力,发现即使最先进的模型在基础色彩认知上也存在明显不足。研究通过COLORBENCH测试系统,从色彩感知、推理和稳定性三个维度进行评估,揭示了AI在颜色计数、精确提取等任务上的严重缺陷,为改善AI基础认知能力提供了重要参考。
    至顶网  科技行者  2025-07-15 10:09:00  
  • Tiny QA Benchmark++:LLMOps持续评估的轻量级多语言基准测试套件

    Tiny QA Benchmark++(TQB++)是一个超轻量级的大型语言模型(LLM)评估工具,由Comet ML公司的Vincent Koc开发。这套工具仅需几秒钟即可检测LLM系统中的关键故障,与大型基准测试形成鲜明对比。其核心是一个不到20KB的52个精心制作的英语问答集,非常适合快速CI/CD检查和提示工程。TQB++的主要创新在于提供了一个合成数据生成工具包,能够按需产生任何语言、领域或难度的微型基准测试,并预先构建了11种语言的测试包。
    至顶网  科技行者  2025-05-23 07:40:18  
  • 人工智能应用:预测疾病、改善治疗的三种全新方式

    AI在医学领域的一种有趣应用,就是帮助预测某种诊疗方式在患者身上的潜在效果。以下三种,代表着AI医学应用中颇具前景的重要方向。
    至顶网  至顶网人工智能频道  2023-11-01 19:19:52  
  • 华为极简全闪数据中心Pro+发布,智能艺术教育空间样板点正式揭幕

    随着AI赋能深入行业场景,数据基础设施的重要性愈发凸显。
    至顶网  至顶网存储频道  2025-07-01 09:26:12  
  • 斯坦福大学推出SMMILE:首个医学AI在情境学习能力评估基准,揭示现有AI在医疗诊断中的致命弱点

    这项研究汇集了来自斯坦福大学、苏黎世联邦理工学院、隆德大学、加州大学旧金山分校等多所世界顶尖学府的11位医学专家,共同构建了医学AI领域的首个多模态情境学习评估标准。
    至顶网  科技行者  2025-07-02 10:59:36  
  • 突破数学题的天花板:通用推理大模型如何实现全领域思维能力提升

    这项研究突破了大语言模型推理能力主要局限于数学和编程领域的限制,提出了"General-Reasoner"训练方法,使模型能够在物理、化学、金融等多领域展现高水平推理能力。研究团队构建了包含23万个跨学科问题的高质量数据集,并开发了基于生成式模型的答案验证器,取代传统规则验证方法。实验证明,该方法在MMLU-Pro等12个基准测试中表现优异,成功实现了全领域的推理能力提升,同时保持了在数学任务上的卓越表现。
    至顶网  科技行者  2025-05-26 08:18:31  
  • rStar-Coder:微软亚洲研究院打造大规模验证数据集,小模型也能实现卓越代码推理能力

    微软亚洲研究院研究团队开发的rStar-Coder通过构建大规模验证数据集,显著提升了语言模型的代码推理能力。该数据集包含418K个竞赛级代码问题和580K个长推理解决方案,每个都经过多样化测试案例验证。关键创新在于三步测试输入生成方法和相互验证机制,确保了数据的高质量和可靠性。实验表明,即使是小型模型也能达到卓越性能——Qwen2.5-7B从17.4%提升至57.3%,甚至在USACO奥林匹克竞赛中超越了规模更大的模型,证明了高质量训练数据比模型规模更重要。
    至顶网  科技行者  2025-05-31 11:40:42  
  • VerifyBench:为大语言模型的基于参考的奖励系统搭建基准测试

    VerifyBench是首个专门评估大语言模型基于参考的奖励系统的基准测试,填补了现有奖励评估基准的关键空白。由浙江大学、美团等机构联合开发,包含VerifyBench和更具挑战性的VerifyBench-Hard两个数据集。研究发现虽然大型模型在标准案例上表现出色,但在复杂案例上仍有显著改进空间。该基准测试通过精心构建的数据集和评估框架,为提升大模型推理能力提供了标准化评估工具,对强化学习训练具有重要意义。
    至顶网  科技行者  2025-05-27 17:11:24  
  • 不孕不育的新曙光:AI

    科学家们正在使用计算机算法进行胚胎分析,帮助育龄父母们建立自己的幸福家族。
    至顶网  科技行者  2021-01-12 14:36:28  
  • TUM团队突破性发现:AI模型竟能用"错误"数据学会完美推理!

    慕尼黑工业大学研究团队首次将"grokking"现象成功应用于真实世界的复杂推理任务,通过巧妙的数据增强策略,让仅有1.24亿参数的小型AI模型在多步推理任务上达到95-100%准确率,超越了GPT-4o等大型模型。更令人惊讶的是,即使训练数据中包含错误信息,也能增强而非削弱模型的推理能力。
    至顶网  科技行者  2025-07-11 09:47:23  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号