用了 0.033322秒,为您找到准确率 最高 计划 软件 罔芷 88pkee 驻测相关内容2181 条
  • BenchHub:一站式自定义评估大语言模型的统一基准平台 - KAIST和Yonsei大学科研团队让模型评估更智能灵活

    BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。
    至顶网  科技行者  2025-06-08 16:44:13  
  • G1项目:Moonshot AI通过强化学习提升视觉语言模型的感知与推理能力

    这篇研究介绍了Moonshot AI团队开发的G1模型,该模型通过强化学习显著提升了视觉语言模型在游戏环境中的决策能力。研究团队首创了VLM-Gym训练环境,包含多种视觉游戏与统一接口,并开发了两代模型:G0通过纯强化学习实现自我进化,G1则结合感知增强冷启动与强化学习,在所有游戏中超越教师模型。最关键的发现是感知和推理能力在学习过程中相互促进,为解决视觉语言模型的"知道-行动"差距提供了新方向。
    至顶网  科技行者  2025-05-29 13:18:22  
  • 字节跳动突破AI训练效率瓶颈:TreePO让强化学习"长脑子"了

    字节跳动团队开发的TreePO技术通过树状结构重新组织AI推理过程,让多个推理路径共享相同前缀,避免重复计算。该技术在保持准确率的同时将训练效率提升22%-43%,在数学推理任务上表现优异,准确率从46.63%提升至58.21%。这项创新不仅能让AI助手响应更快更准,还可应用于教育、科研等多个领域,代表了从追求模型规模向追求算法效率的重要转变。
    至顶网  科技行者  2025-09-03 11:37:09  
  • 最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质

    超分,即“超分辨率”,是指通过深度学习方式将低分辨率图片或视频的清晰度提高,获得更高分辨率
    至顶网  业界供稿  2022-09-29 09:36:16  
  • 思考快与慢的大融合:香港中文大学团队打造高效推理验证框架,让AI灵活验证自身思维过程

    这篇论文介绍了香港中文大学研究团队开发的创新框架"Solve-Detect-Verify"和灵活验证器"FlexiVe"。该系统模拟人类"快思考"和"慢思考"的双重认知模式,能根据问题复杂度智能调配计算资源。验证器首先采用轻量级"快思考"并行评估整个推理过程,仅在结果不确定时才启动详细的"慢思考"分析。结合主动识别解决方案完成点的机制,该系统在AIME和CNMO等数学推理基准测试中表现出色,使用约四分之一的计算资源即可达到甚至超越传统方法的准确率,为AI推理效率与准确性的平衡提供了新范式。
    至顶网  科技行者  2025-05-26 08:07:23  
  • MegaMath:MBZUAI研究团队打造出史上最大开源数学训练数据集,3700亿Token让AI数学能力飞跃

    MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
    至顶网  科技行者  2025-07-17 13:58:58  
  • 全国“互联网+医疗健康”优秀案例评选结果揭晓

    5月21至23日,腾讯全球数字生态大会在昆明举办。22日,以“智医疗 至健康”为主题的智慧医疗专场正式开启,由人民日报全国党媒信息公共平台、健康时报联合腾讯公司联合开展的2018年度中国“互联网+医疗健康”优秀案例评选结果也正式揭晓。
    至顶网  业界供稿  2019-05-24 11:45:07  
  • MiCRo:一种利用混合建模和情境感知路由的个性化偏好学习框架

    伊利诺伊大学香槟分校等机构的研究团队提出MiCRo框架,创新性地解决了大语言模型偏好学习的多样性问题。该框架采用两阶段方法:先通过混合建模从二元偏好数据中提取多种潜在偏好模式,再利用情境感知路由根据用户具体需求动态调整偏好权重。实验证明,MiCRo不仅能有效捕捉多样化人类偏好,且仅需少量标注数据即可实现个性化适应,在多个数据集上显著优于现有方法,为构建更具个性化的AI系统提供了新思路。
    至顶网  科技行者  2025-06-05 15:18:44  
  • 中国移动与英特尔联合发布智能视频边缘计算解决方案 推动智能互联世界构建

    在2018中国移动全球合作伙伴大会上,中国移动联合英特尔公司共同发布了一套基于Intel Movidius视频处理单元(VPU)、面向智慧园区的智能视频边缘计算解决方案,并推出一款基于该VPU芯片、前端一体化方案的人脸识别智能终端。
    至顶网  业界供稿  2018-12-10 21:55:54  
  • 富士胶片商业创新承诺成为企业信赖的业务创新伙伴

    富士胶片商业创新(中国)宣布将以“3+1”体系为企业提供数字化创新解决方案与服务,加速推进全行业的数字化转型进程。
    至顶网  至顶网软件与服务频道  2022-09-22 18:33:43  
  • 大语言模型看图思考:华盛顿大学推出VisualSphinx,一个660K规模的视觉逻辑训练数据集

    华盛顿大学与西华盛顿大学的研究团队合作开发了VisualSphinx——一个包含66万个合成视觉逻辑谜题的大规模数据集,用于提升视觉语言模型的逻辑推理能力。通过四阶段流程:种子问题收集、规则遗传算法扩展、程序化图像合成和谜题组装,团队以不到1000美元的成本创建了这一资源。实验证明,使用该数据集进行强化学习的模型在逻辑推理任务上的表现显著提升,甚至超越了多款封闭源模型,且这种能力可迁移至其他视觉推理任务。
    至顶网  科技行者  2025-06-05 13:31:54  
  • 顶级学府Meta AI团队重磅发布:让AI模型学会"反省"自己的推理过程,准确度飙升60%

    Meta AI团队开发出STEPWISER系统,让AI模型学会像资深评委一样分析和评判推理步骤质量。该方法通过强化学习训练,让AI先进行深度分析再给出判断,在ProcessBench测试中准确率相比传统方法提升32-56%。STEPWISER还能通过"块重置推理"策略实时纠错,提高推理准确率10-18%,为构建更可靠的AI推理系统提供了重要突破。
    至顶网  科技行者  2025-09-03 14:11:07  
  • 2022杭州智博会热点展品盘点

    2022年 12月11日,中国(杭州)国际智能产品博览会如期开幕。在西子湖畔的杭州国际博览中心1B数字消费馆,数百家智能科技产业厂商展示了最新的产品和技术,未来智能科技产业的热点在这里一网打尽。
    至顶网  业界供稿  2022-12-13 17:33:44  
  • 上海交大团队首次证实:AI思考时间越长,医学诊断越精准

    上海交通大学团队通过"推理时间扩展"技术让AI学会深度思考,在医学诊断中取得突破。研究发现AI思考时间越长诊断越准确,仅用500个样本就实现6%-11%准确率提升。AI模型展现出类似医生的临床推理能力,能进行差异诊断和证据权衡,特别在复杂罕见疾病诊断方面表现出色,为AI医学应用开辟新方向。
    至顶网  科技行者  2025-09-15 10:40:25  
  • 句子级预测:让大语言模型在高层抽象概念上进行推理

    这项研究探索了让大语言模型从词级预测转向句子级预测的可能性。研究团队构建了一个框架,使预训练语言模型能在句子嵌入空间中进行推理,探索了语义嵌入和上下文嵌入两种范式。实验结果表明,上下文嵌入在连续推理模式下的表现与传统思维链方法相当,同时将推理时计算成本平均降低了一半。研究还开发了SentenceLens工具可视化内部推理过程,并展示了这种方法在模型规模扩展和模块化适应方面的潜力。这一突破性研究证明预训练语言模型可以有效过渡到更高层次的抽象推理。
    至顶网  科技行者  2025-06-02 12:19:49  
  • 拼图解密:KU Leuven团队探索视觉拼图的强化学习之旅

    这项来自KU Leuven、中科大和上海Memory Tensor公司的研究探索了如何利用拼图游戏训练多模态大型语言模型的视觉推理能力。研究发现,现有模型在未经训练时表现近似随机猜测,但通过强化学习能达到近乎完美的准确率并泛化到更复杂的拼图配置。有趣的是,模型能否有效学习与是否包含明确推理过程无关,且复杂推理模式是预先存在而非突然出现的。此外,研究证明强化学习在泛化能力上优于监督微调,挑战了传统的模型训练范式。这些发现不仅揭示了AI视觉理解的机制,还为未来多模态模型研发提供了重要参考。
    至顶网  科技行者  2025-06-05 11:05:15  
  • 爱丁堡大学突破性成果:让AI像人类一样"思考"并解释视觉问题的推理过程

    爱丁堡大学联合英伟达开发的VISTAR系统首次让AI能够像人类一样展示视觉问答的完整推理过程。该系统通过创新的"子任务思维链"方法,将复杂问题分解为多个简单步骤,不仅提供准确答案,还能在图片上精确标注相关物体位置,让AI推理过程变得透明可解释,为构建更可信的AI系统奠定重要基础。
    至顶网  科技行者  2025-07-10 09:30:14  
  • Menlo Research新突破:4B参数的Jan-nano如何用"搜索能力"击败671B参数巨无霸模型

    Menlo Research推出革命性AI模型Jan-nano,仅用4B参数就在SimpleQA测试中达到83.2%准确率,超越了6710亿参数的DeepSeek模型。该模型采用创新的"搜索优先"策略,通过多阶段RLVR训练系统,让AI学会高效使用工具而非死记硬背知识。研究发现大模型存在"过度思考"问题,反而影响性能。Jan-nano证明了在AI发展中,聪明的策略比单纯的规模扩张更重要,为资源受限的AI应用开发提供了新思路。
    至顶网  科技行者  2025-07-02 11:02:49  
  • 2025年世界移动通信大会:NTT Docomo为超越5G的未来做准备

    日本领先的运营商 NTT Docomo 在 MWC 2025 会议上展示了下一代通信技术和服务的“基础性进展”,这些技术和服务将支持未来十年对网络基础设施的前所未有的需求。NTT Docomo 与 Toppan 签署协议,共同开发即将到来的 6G 时代的通信服务,Toppan 将其信息处理和计算机图形的专业知识应用于多种元宇宙服务。
    至顶网  Computer Weekly  2025-03-04 11:46:48  
  • MMSI-Bench:上海人工智能实验室打造的多图像空间智能新基准,揭示AI与人类空间认知的巨大差距

    上海人工智能实验室研究团队开发了MMSI-Bench,这是首个专注于多图像空间智能评估的全面基准。研究人员花费300多小时,从12万张图像中精心构建了1000道问题,涵盖了位置关系、属性和运动等多种空间推理任务。评测结果显示,即使最先进的AI模型也仅达到41%的准确率,远低于人类的97%,揭示了AI空间认知能力的重大缺陷。研究还识别了四类主要错误:物体识别错误、场景重建错误、情境转换错误和空间逻辑错误,为未来改进提供了明确方向。
    至顶网  科技行者  2025-06-04 10:15:03  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号