用了 0.032824秒,为您找到准确率 最高 计划 软件 罔芷 88pkee 驻测相关内容2181 条
  • Anthropic 的 Claude 3.7 Sonnet 瞄准 OpenAI 和 DeepSeek,开启 AI 新一轮较量

    Anthropic 推出 Claude 3.7 Sonnet 模型,为用户提供前所未有的 AI 思考时间控制能力,并发布 Claude Code 命令行编码助手。这标志着 Anthropic 积极进军企业 AI 市场,可能重塑企业软件开发和工作自动化方式。新模型在延长思考模式下在研究生级推理任务上达到 78.2% 的准确率,挑战 OpenAI 最新模型并超越 DeepSeek-R1,展现出强大的竞争力。
    至顶网  VentureBeat  2025-02-25 16:56:07  
  • 市场份额第一!阿里云WAAP安全产品能力获IDC评测七项满分

    近日,全球领先的IT市场研究和咨询公司IDC发布《中国WAAP厂商技术能力评估,2024》和《中国云Web应用防火墙市场份额,2023》报告发布
    至顶网  业界供稿  2024-07-11 17:28:30  
  • SAP实验室重磅突破:让AI助手告别"糊里糊涂",精准识别企业工具的革命性方法

    SAP实验室研究团队开发了DIAFORGE系统,通过三阶段训练显著提升AI助手在企业环境中的工具调用准确性。该方法专门解决AI助手面对相似工具时的选择困难,通过模拟真实企业场景训练AI主动澄清用户需求。实验结果显示,经过训练的模型比GPT-4o和Claude-3.5-Sonnet分别高出27和49个百分点,为企业AI助手的实际应用提供了重要突破。
    至顶网  科技行者  2025-07-11 09:52:09  
  • RICO:通过视觉重建提升图像描述的准确性和完整性 - 北京大学最新研究成果

    北京大学多媒体信息处理国家重点实验室的研究团队提出了RICO方法,通过视觉重建机制显著提升图像描述的准确性和完整性。传统描述方法常面临"幻觉"和细节缺失问题,RICO通过文本-图像转换和反馈循环解决这些挑战。研究证明,该方法在多个基准测试中均优于现有技术,包括超越GPT-4o和人类编辑的表现。团队还开发了高效版本RICO-Flash,将这一方法应用于实际场景。这一创新不仅推动了多模态学习技术发展,还为改善人工智能系统的视觉理解能力提供了新思路。
    至顶网  科技行者  2025-06-02 16:30:38  
  • 百川智能发布全能AI助手:一个模型同时理解文字、图片、视频和语音的技术突破

    百川智能发布突破性AI模型Baichuan-Omni-1.5,实现文字、图像、视频、音频的统一理解与生成。该7B参数模型在多项测试中超越同类产品,特别在医疗图像理解方面达到83.8%准确率,超过72B参数竞争模型。研究团队使用500亿高质量多模态数据,创新的四阶段训练策略,以及独创的音频处理技术,解决了多模态AI的关键技术难题,为人机交互开辟新方向。
    至顶网  科技行者  2025-09-17 13:33:02  
  • 大型语言模型的可信评估新方法:揭秘"捷径神经元"如何影响AI真实能力测评

    这项研究首次从神经元层面揭示了大型语言模型(LLM)评估中的"数据污染"机制。研究团队发现当模型在训练中接触过测试数据时,会形成特定的"捷径神经元",使模型无需真正理解问题就能给出正确答案。他们提出了一种新方法,通过识别并抑制这些神经元(仅占模型总神经元的约1%),成功恢复了模型的真实能力表现。实验证明,该方法与权威可信基准测试结果高度一致(相关系数>0.95),并在不同基准和参数设置下都表现出色,为解决LLM评估可信度问题提供了低成本且有效的解决方案。
    至顶网  科技行者  2025-06-07 16:00:14  
  • 解锁通用AI新境界:华为云开年采购季让智能技术触手可及

    通用AI是一种能够像人类一样进行思考、学习和推理的人工智能系统。
    至顶网  业界供稿  2024-03-21 16:10:24  
  • MM-PRM:通过可扩展的步骤级监督提升多模态数学推理能力

    这篇研究论文介绍了MM-PRM,一种用于增强多模态数学推理能力的过程奖励模型。研究团队首先构建了一个强大的多模态策略模型MM-Policy,然后创建了包含10,000个多模态数学问题的数据集MM-K12。利用蒙特卡洛树搜索(MCTS)框架,他们自动生成了超过70万个步骤级别的标注,无需人工参与。最终的奖励模型在Best-of-N推理设置中显著提升了多个基准测试的性能,包括MM-K12、OlympiadBench和MathVista等。研究还发现软标签、较小的学习率和路径多样性是优化PRM性能的关键因素。
    至顶网  科技行者  2025-05-22 13:57:25  
  • UniGeo:利用视频扩散模型实现一致性几何信息估计的突破性研究

    UniGeo是一项开创性研究,它利用视频扩散模型来一致性地估计视频中的几何信息(如表面法线和坐标)。与传统方法不同,UniGeo在全局参考坐标系中进行预测,而非每帧的局部相机坐标系,从而有效利用视频模型中的帧间对应关系。研究团队提出了共享位置编码策略,并采用多任务联合训练方法,显著提高了几何属性预测的准确性和一致性。实验表明,即使只在静态视频数据上训练,UniGeo也能泛化到动态场景,为VR/AR、机器人技术和自动驾驶等领域提供了可靠的几何信息估计解决方案。
    至顶网  科技行者  2025-06-04 13:33:15  
  • 强化微调的幻觉税:如何通过合成不可回答数据解决大语言模型的过度自信问题

    这项研究揭示了强化微调(RFT)在提升大语言模型推理能力的同时,会产生一种意外副作用——"幻觉税":模型拒绝回答不可回答问题的能力显著下降,导致提供虚构答案的倾向增强。南加州大学的研究者通过创建"合成不可回答数学"(SUM)数据集,系统研究了这一现象,并发现在RFT过程中加入仅10%的SUM数据即可大幅改善模型的拒绝行为,且几乎不影响其解题精度。这一简单有效的方法不仅适用于数学推理,还能泛化到事实性问答等领域,教会模型在面对无法回答的问题时诚实地承认自己的知识边界。
    至顶网  科技行者  2025-05-27 11:05:56  
  • 高通与腾讯混元合作 基于骁龙8至尊版共同推动腾讯混元大模型终端侧部署

    骁龙峰会期间,高通技术公司宣布与腾讯混元合作,基于骁龙8至尊版移动平台,共同推动了腾讯混元大模型7B和3B版本的终端侧部署,展示了此合作实现出色的运行表现。
    至顶网  科技行者  2024-10-22 06:18:51  
  • 双向语言模型是更好的知识记忆者?WikiDYK成为大语言模型知识注入的全新标准

    这项研究介绍了WikiDYK基准测试,利用维基百科"你知道吗"板块的实时更新内容评估大语言模型的知识注入能力。研究发现,双向语言模型(BiLMs)在记忆知识方面显著优于因果语言模型(CLMs),准确率高出约23%。基于此,研究团队提出了一个模块化框架,将BiLMs作为知识库集成到LLMs中,进一步提升了29.1%的可靠性。这一发现挑战了当前主流LLM架构的优势假设,为AI系统的知识更新提供了新方向。
    至顶网  科技行者  2025-05-23 15:32:10  
  • 百度等机构联合推出MathReal:真实世界里的AI数学能力究竟如何?

    百度等机构联合推出MATHREAL数据集,首次系统评估AI模型在真实K-12教育场景中的数学推理能力。通过2000道真实拍摄的数学题目,研究发现即使是最先进的AI模型在面对模糊、倾斜等真实条件时准确率也只有53.9%,远低于标准测试表现,揭示了当前AI教育应用的重大局限性。
    至顶网  科技行者  2025-08-18 10:18:35  
  • 智能"放大镜":NVIDIA与UC Berkeley联手打造的图像视频精准描述新技术

    想象一下,你正在浏览一张复杂的家庭聚会照片,想向视力障碍的朋友描述照片中特定人物的表情和姿态,或者你需要从监控视频中准确描述某个可疑物体的细节。在这些场景中,我们不仅需要描述整张图片或整段视频,更需要聚焦于特定区域,提供精确而详细的描述。
    至顶网  科技行者  2025-04-24 14:23:27  
  • 搜狗开放听写服务 录音笔迎来AI升级

    28日,搜狗在京举办了开放听写服务暨AI创新联盟发布会。发布会现场,搜狗官宣开放“搜狗听写”服务,让更多的录音笔厂商享受AI红利,并与爱国者,索尼,纽曼,万城集团四大头部录音笔厂商成立AI创新联盟。
    至顶网  科技行者  2019-08-30 14:23:26  
  • 德比软件:生成式AI让每个人都是数据高手

    生成式AI可以极大降低大模型的开发成本,让技术人员可以有更多时间与精力着重在上层的行业应用与功能调优上,大幅提高生产效率。
    至顶网  王聪彬  2024-05-28 08:11:15  
  • 无需验证师:如何让大型语言模型在没有答案检查者的情况下进行更好的推理

    这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。
    至顶网  科技行者  2025-06-01 16:36:22  
  • 深思考联合昇腾推出AI智慧病理“慧眼”计划

    近日,2023中关村论坛首场系列活动——北京人工智能产业创新发展大会·智慧病理分论坛在中关村展示中心成功举办。
    至顶网  至顶网人工智能频道  2023-02-15 17:17:51  
  • 时间就是九分:复旦大学、上海人工智能教育研究所团队首次让AI学会边生成边反思

    复旦大学团队提出PASR技术,首次让AI具备在生成过程中主动反思和修正的能力,改变了传统AI只能事后修改的局限。该方法在10个任务上显著提升了准确率,同时降低了41.6%的计算消耗,代表了AI从被动执行向主动思考的重要转变。
    至顶网  科技行者  2025-09-09 10:54:57  
  • 品牌LOGO由蓝变为粉,英特尔AI技术呵护女性乳腺健康

    是什么能让50年历史的英特尔标准蓝色Logo一夜之间变粉?
    至顶网  业界供稿  2018-09-29 14:55:02  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号