用了 0.088371秒,为您找到准确率 最高 计划 软件 罔芷 88pkee 驻测相关内容1870 条
  • 买不到N卡,不如入手英特尔Gaudi2和至强CPU

    就在今天MLCommons刚刚公布的MLPerf推理v3.1性能基准测试结果显示,英特尔Habana Gaudi2加速器、第四代英特尔至强可扩展处理器,以及英特尔至强CPU Max在AI推理方面表现出色。
    至顶网  至顶网计算频道  2023-09-12 16:28:51  
  • 有大学老师正用ChatGPT批改论文,让同学也这么做!

    4月7日,CNN消息,美国伊萨卡学院-战略传播学教授Diane Gayeski,正在使用ChatGPT批改学生的论文。
    至顶网  AIGC开放社区  2024-04-09 17:04:25  
  • 谁在给新闻媒体打分?ChatGPT竟成了最佳"真相侦探"——阿联酋人工智能大学最新研究揭秘

    阿联酋人工智能大学研究团队开发出创新方法,让GPT-3.5等大型语言模型学会像专业事实核查员一样评估新闻媒体。通过模仿专家标准设计问题体系,该方法在政治偏向预测上达到93.5%准确率,在事实准确性预测上达到80.6%准确率,为媒体素养教育和信息筛选提供了新工具。
    至顶网  科技行者  2025-06-20 14:17:16  
  • 斯坦福大学突破:AI能否像人类一样判断创意写作的好坏?

    斯坦福大学研究团队创建了全球首个创意写作评估基准LitBench,通过分析Reddit写作社区的4万多对故事比较数据,训练AI模型判断创意写作质量。研究发现专门训练的小型奖励模型(78%准确率)能超越大型语言模型评委(73%),但添加推理链反而降低了表现,揭示了创意评判需要直觉性判断的特点。
    至顶网  科技行者  2025-07-11 09:48:53  
  • Anthropic 的 Claude 3.7 Sonnet 瞄准 OpenAI 和 DeepSeek,开启 AI 新一轮较量

    Anthropic 推出 Claude 3.7 Sonnet 模型,为用户提供前所未有的 AI 思考时间控制能力,并发布 Claude Code 命令行编码助手。这标志着 Anthropic 积极进军企业 AI 市场,可能重塑企业软件开发和工作自动化方式。新模型在延长思考模式下在研究生级推理任务上达到 78.2% 的准确率,挑战 OpenAI 最新模型并超越 DeepSeek-R1,展现出强大的竞争力。
    至顶网  VentureBeat  2025-02-25 16:56:07  
  • 市场份额第一!阿里云WAAP安全产品能力获IDC评测七项满分

    近日,全球领先的IT市场研究和咨询公司IDC发布《中国WAAP厂商技术能力评估,2024》和《中国云Web应用防火墙市场份额,2023》报告发布
    至顶网  业界供稿  2024-07-11 17:28:30  
  • SAP实验室重磅突破:让AI助手告别"糊里糊涂",精准识别企业工具的革命性方法

    SAP实验室研究团队开发了DIAFORGE系统,通过三阶段训练显著提升AI助手在企业环境中的工具调用准确性。该方法专门解决AI助手面对相似工具时的选择困难,通过模拟真实企业场景训练AI主动澄清用户需求。实验结果显示,经过训练的模型比GPT-4o和Claude-3.5-Sonnet分别高出27和49个百分点,为企业AI助手的实际应用提供了重要突破。
    至顶网  科技行者  2025-07-11 09:52:09  
  • RICO:通过视觉重建提升图像描述的准确性和完整性 - 北京大学最新研究成果

    北京大学多媒体信息处理国家重点实验室的研究团队提出了RICO方法,通过视觉重建机制显著提升图像描述的准确性和完整性。传统描述方法常面临"幻觉"和细节缺失问题,RICO通过文本-图像转换和反馈循环解决这些挑战。研究证明,该方法在多个基准测试中均优于现有技术,包括超越GPT-4o和人类编辑的表现。团队还开发了高效版本RICO-Flash,将这一方法应用于实际场景。这一创新不仅推动了多模态学习技术发展,还为改善人工智能系统的视觉理解能力提供了新思路。
    至顶网  科技行者  2025-06-02 16:30:38  
  • 大型语言模型的可信评估新方法:揭秘"捷径神经元"如何影响AI真实能力测评

    这项研究首次从神经元层面揭示了大型语言模型(LLM)评估中的"数据污染"机制。研究团队发现当模型在训练中接触过测试数据时,会形成特定的"捷径神经元",使模型无需真正理解问题就能给出正确答案。他们提出了一种新方法,通过识别并抑制这些神经元(仅占模型总神经元的约1%),成功恢复了模型的真实能力表现。实验证明,该方法与权威可信基准测试结果高度一致(相关系数>0.95),并在不同基准和参数设置下都表现出色,为解决LLM评估可信度问题提供了低成本且有效的解决方案。
    至顶网  科技行者  2025-06-07 16:00:14  
  • 解锁通用AI新境界:华为云开年采购季让智能技术触手可及

    通用AI是一种能够像人类一样进行思考、学习和推理的人工智能系统。
    至顶网  业界供稿  2024-03-21 16:10:24  
  • MM-PRM:通过可扩展的步骤级监督提升多模态数学推理能力

    这篇研究论文介绍了MM-PRM,一种用于增强多模态数学推理能力的过程奖励模型。研究团队首先构建了一个强大的多模态策略模型MM-Policy,然后创建了包含10,000个多模态数学问题的数据集MM-K12。利用蒙特卡洛树搜索(MCTS)框架,他们自动生成了超过70万个步骤级别的标注,无需人工参与。最终的奖励模型在Best-of-N推理设置中显著提升了多个基准测试的性能,包括MM-K12、OlympiadBench和MathVista等。研究还发现软标签、较小的学习率和路径多样性是优化PRM性能的关键因素。
    至顶网  科技行者  2025-05-22 13:57:25  
  • UniGeo:利用视频扩散模型实现一致性几何信息估计的突破性研究

    UniGeo是一项开创性研究,它利用视频扩散模型来一致性地估计视频中的几何信息(如表面法线和坐标)。与传统方法不同,UniGeo在全局参考坐标系中进行预测,而非每帧的局部相机坐标系,从而有效利用视频模型中的帧间对应关系。研究团队提出了共享位置编码策略,并采用多任务联合训练方法,显著提高了几何属性预测的准确性和一致性。实验表明,即使只在静态视频数据上训练,UniGeo也能泛化到动态场景,为VR/AR、机器人技术和自动驾驶等领域提供了可靠的几何信息估计解决方案。
    至顶网  科技行者  2025-06-04 13:33:15  
  • 强化微调的幻觉税:如何通过合成不可回答数据解决大语言模型的过度自信问题

    这项研究揭示了强化微调(RFT)在提升大语言模型推理能力的同时,会产生一种意外副作用——"幻觉税":模型拒绝回答不可回答问题的能力显著下降,导致提供虚构答案的倾向增强。南加州大学的研究者通过创建"合成不可回答数学"(SUM)数据集,系统研究了这一现象,并发现在RFT过程中加入仅10%的SUM数据即可大幅改善模型的拒绝行为,且几乎不影响其解题精度。这一简单有效的方法不仅适用于数学推理,还能泛化到事实性问答等领域,教会模型在面对无法回答的问题时诚实地承认自己的知识边界。
    至顶网  科技行者  2025-05-27 11:05:56  
  • 高通与腾讯混元合作 基于骁龙8至尊版共同推动腾讯混元大模型终端侧部署

    骁龙峰会期间,高通技术公司宣布与腾讯混元合作,基于骁龙8至尊版移动平台,共同推动了腾讯混元大模型7B和3B版本的终端侧部署,展示了此合作实现出色的运行表现。
    至顶网  科技行者  2024-10-22 06:18:51  
  • 双向语言模型是更好的知识记忆者?WikiDYK成为大语言模型知识注入的全新标准

    这项研究介绍了WikiDYK基准测试,利用维基百科"你知道吗"板块的实时更新内容评估大语言模型的知识注入能力。研究发现,双向语言模型(BiLMs)在记忆知识方面显著优于因果语言模型(CLMs),准确率高出约23%。基于此,研究团队提出了一个模块化框架,将BiLMs作为知识库集成到LLMs中,进一步提升了29.1%的可靠性。这一发现挑战了当前主流LLM架构的优势假设,为AI系统的知识更新提供了新方向。
    至顶网  科技行者  2025-05-23 15:32:10  
  • 百度等机构联合推出MathReal:真实世界里的AI数学能力究竟如何?

    百度等机构联合推出MATHREAL数据集,首次系统评估AI模型在真实K-12教育场景中的数学推理能力。通过2000道真实拍摄的数学题目,研究发现即使是最先进的AI模型在面对模糊、倾斜等真实条件时准确率也只有53.9%,远低于标准测试表现,揭示了当前AI教育应用的重大局限性。
    至顶网  科技行者  2025-08-18 10:18:35  
  • 智能"放大镜":NVIDIA与UC Berkeley联手打造的图像视频精准描述新技术

    想象一下,你正在浏览一张复杂的家庭聚会照片,想向视力障碍的朋友描述照片中特定人物的表情和姿态,或者你需要从监控视频中准确描述某个可疑物体的细节。在这些场景中,我们不仅需要描述整张图片或整段视频,更需要聚焦于特定区域,提供精确而详细的描述。
    至顶网  科技行者  2025-04-24 14:23:27  
  • 搜狗开放听写服务 录音笔迎来AI升级

    28日,搜狗在京举办了开放听写服务暨AI创新联盟发布会。发布会现场,搜狗官宣开放“搜狗听写”服务,让更多的录音笔厂商享受AI红利,并与爱国者,索尼,纽曼,万城集团四大头部录音笔厂商成立AI创新联盟。
    至顶网  科技行者  2019-08-30 14:23:26  
  • 德比软件:生成式AI让每个人都是数据高手

    生成式AI可以极大降低大模型的开发成本,让技术人员可以有更多时间与精力着重在上层的行业应用与功能调优上,大幅提高生产效率。
    至顶网  王聪彬  2024-05-28 08:11:15  
  • 无需验证师:如何让大型语言模型在没有答案检查者的情况下进行更好的推理

    这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。
    至顶网  科技行者  2025-06-01 16:36:22  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号