用了 0.032151秒,为您找到准确率 最高 计划 软件 罔芷 88pkee 驻测相关内容2181 条
  • Testin 云测引领AI测试变革:从工具辅助到智能主导的代际升级

    软件定义世界的今天,AI 与软件工程的融合正重塑测试行业格局。中国人工智能产业发展联盟发布的《AI4SE 行业现状调查报告(2024 年度)》显示,65.75% 的企业软件研发智能化成熟度已达 L2 及以上水平,标志着 AI 技术在软件工程领域从概念验证迈向规模化落地。
    至顶网  至顶网软件与服务频道  2025-08-01 11:56:35  
  • 助力伙伴数字化升级,麒麟软件CentOS迁移方案实践分享

    在11月7日-9日举办的华为全联接大会2022上,作为华为2022 年度优秀合作伙伴之“openEuler最佳实践伙伴”,麒麟软件受邀参加此次大会,并在会上分享了麒麟软件在CentOS迁移方案方面的实践成果。
    至顶网  业界供稿  2022-11-11 18:10:55  
  • 三个可能会被计算机视觉技术改变的行业

    计算机视觉最主要的应用是面部识别,这种技术经常被用于安全和执法领域。但是,在本文中,我想介绍一些计算机视觉技术不太明显的用途。特别是以下的三个行业,可能会从这种技术趋势的发展中受益匪浅。
    至顶网  科技行者  2020-06-18 14:59:04  
  • Meta发布J1:通过强化学习激励LLM思考和做出更好的判断

    这篇研究介绍了Meta公司开发的J1系统,这是一种通过强化学习训练大语言模型进行评判的创新方法。J1将可验证和不可验证的提示转换为具有可验证奖励的判断任务,从而鼓励模型在做出决策前先进行思考。研究表明,J1在8B和70B参数规模下都超越了同等规模的现有模型,甚至在某些测试中超过了更大的模型如o1-mini和DeepSeek-R1。这种方法的核心创新在于不仅优化最终判断,还优化思考过程本身,使模型学会制定评估标准、生成参考答案并重新评估回答的正确性。
    至顶网  Hugging Face  2025-05-16 17:09:21  
  • 俄勒冈大学研究团队推出mSCoRe:让AI学会全球常识推理的"多语言考场"

    俄勒冈大学和Adobe研究团队开发了mSCoRe基准系统,专门测评AI在多语言环境下的常识推理能力。该系统首次将推理过程细分为十种基本技能,涵盖逻辑、情境和社会伦理三大类别,并创新性地引入动态复杂度扩展机制。通过对八个顶级大语言模型的全面测试,研究发现现有AI系统过度依赖单一推理模式,在文化敏感的社会常识判断上仍有显著不足。
    至顶网  科技行者  2025-09-09 10:12:38  
  • 拆解视频大语言模型评测基准:知识、空间感知还是真正的时序理解?苹果公司研究团队带来新分析框架

    这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
    至顶网  科技行者  2025-06-03 20:42:21  
  • 华中科技大学团队发明AI"视觉工具使用专家",让计算机像人类一样调用外部工具解决复杂视觉问题

    华中科技大学团队开发的ReVPT系统首次让AI学会像人类一样主动选择和使用视觉分析工具解决复杂问题。通过创新的两阶段强化学习训练,该系统能根据任务需求灵活调用物体检测、深度估计等专业工具,在多项国际测试中显著超越基础模型,部分指标甚至超越商业化产品,为AI视觉推理能力提升开辟了新路径。
    至顶网  科技行者  2025-09-23 11:05:31  
  • 联通数科李广聚:三年耕耘拉开5G+工业互联网序幕,未来前景可期

    8月31日-9月2日,2021世界5G大会在北京亦创国际会展中心举行。
    至顶网  业界供稿  2021-09-02 17:38:47  
  • 复杂场景下的AI视觉难题:清华、牛津联合发布史上最困难的视频分割挑战MOSEv2

    复旦大学联合牛津大学等机构发布MOSEv2数据集,这是目前最具挑战性的视频目标分割基准。数据集包含5024个复杂场景视频,涵盖恶劣天气、密集人群、目标消失重现等真实世界挑战。测试结果显示,包括SAM2在内的先进AI模型性能大幅下降,从理想数据集的90%+准确率降至50%左右,揭示了AI技术与实际应用需求的巨大差距。
    至顶网  科技行者  2025-08-12 14:15:25  
  • MatTools:香港大学研究团队打造全新材料科学大模型基准测试工具

    香港大学研究团队开发的MatTools是首个全面评估大语言模型在材料科学工具应用能力的基准测试框架。研究发现通用型大模型(如GPT-4o)显著优于专业材料科学模型;AI生成的文档作为检索源比原始代码或官方文档更有效;简单的自反思系统反而优于复杂的多代理架构。这项研究为AI辅助科学工具的设计提供了全新思路,强调"通才胜于专才"、"AI懂AI"和"简单更好"的原则,有望加速材料科学研究和技术创新。
    至顶网  科技行者  2025-05-21 14:28:51  
  • MIT和IBM联手创新:TANGO框架通过互促进方式强化大语言模型的推理能力

    麻省理工学院与IBM研究团队共同开发的TANGO框架通过强化学习同时训练大语言模型的生成器和验证器,实现双向互促进的能力提升。不同于传统方法使用固定验证器,TANGO的验证器随生成器共同演进,提供精确的步骤级反馈。实验证明,这种"探戈式"协作方式使模型在数学竞赛问题上平均提升25.5%,特别是在最具挑战性的AIME 2025竞赛上准确率翻倍。TANGO还将训练效率提高3.3倍,验证器在无需步骤级标注的情况下也达到了业界领先水平,为大语言模型的推理能力增强开辟了新思路。
    至顶网  科技行者  2025-05-27 15:32:45  
  • 阿里巴巴推出Visual-CoG:AI绘画终于学会"分步思考"了

    阿里巴巴推出Visual-CoG技术,首次让AI绘画学会"分步思考"。该技术通过语义推理、过程优化和结果评估三个阶段,显著提升了AI处理复杂描述的能力。测试显示,在计数、位置、颜色等关键指标上提升15-48%,特别是推理任务成功率达77.5%,为AI绘画的智能化发展开辟了新方向。
    至顶网  科技行者  2025-09-01 15:52:55  
  • 让AI文本生成像翻书一样快:香港理工大学等机构揭秘扩散语言模型的"未卜先知"能力

    香港理工大学等机构研究团队发现扩散语言模型存在"早期答案收敛"现象:高达99%的问题在推理中途就已得出正确答案,却仍继续无效推理。基于此发现,团队开发了Prophet方法,通过监控AI推理信心动态决定提前停止时机,实现3.4倍推理加速且几乎不损失准确性,为AI文本生成效率优化开辟新方向。
    至顶网  科技行者  2025-09-03 14:11:21  
  • 让计算机学会"量身定制"的思考:KAIST开发的智能递归深度调节系统

    KAIST研究团队开发了名为MoR的智能递归深度调节系统,该系统能够根据词语复杂程度自动分配计算资源,实现了参数共享、自适应计算和智能缓存的统一。实验显示,MoR在使用更少参数的情况下仍能提升准确率1-2个百分点,处理速度提升20-100%。这项技术为AI发展提供了新的高效计算模式。
    至顶网  科技行者  2025-07-22 09:24:58  
  • Dell PowerProtect全面升级,助力企业强化网络韧性与恢复能力

    Dell PowerProtect以持续创新助力企业提升网络韧性、简化恢复流程,在持续演进的网络威胁环境中筑牢数据安全防线
    至顶网  业界供稿  2025-08-13 10:47:25  
  • 摩根士丹利开放源码:Q语言编程新突破,让AI掌握金融界专用代码语言

    摩根士丹利研究团队开发了专门掌握Q编程语言的AI模型QQwen,通过创新的三阶段训练方法(预训练、监督学习、强化学习),让开源AI模型在Q语言编程测试中达到59%准确率,超越GPT-4.1等商业模型。研究团队完全开源了模型、数据和训练代码,为AI专业化训练提供了可复制的成功范式,证明了中等规模开源模型通过针对性训练可以在特定领域超越大型商业模型的表现。
    至顶网  科技行者  2025-08-15 09:06:51  
  • 上海AI实验室突破自回归图像生成瓶颈:ST-AR让AI"先理解再创造"

    上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。
    至顶网  科技行者  2025-09-30 14:59:08  
  • 医疗AI规模化部署的新标准:AI评估与KPI体系为何不可或缺

    医疗AI的前景不再是理论,但大多数试点项目无法规模化。在Epic和Cerner等EMR平台中,AI要实现企业级应用,必须证明技术可靠性和可衡量价值。严格的AI评估(evals)和明确的关键绩效指标(KPIs)是成功的必要支柱。评估确保系统准确性和安全性,KPIs量化临床价值和投资回报率。
    至顶网  Forbes  2025-09-29 08:19:39  
  • 微软发布Project Ire智能体,可大规模自动识别恶意软件

    微软推出名为Project Ire的人工智能代理,能够大规模自动分析和分类恶意软件。该AI模型可对可疑软件文件进行逆向工程,使用反编译器等取证工具分析代码以判断文件安全性。在公共数据集测试中,准确率达98%,召回率为83%。在涉及4000个"高难度目标"文件的实际测试中,准确率为89%,误报率仅4%。Project Ire将集成到Defender平台中,用于威胁检测和软件分类。
    至顶网  SiliconANGLE  2025-08-07 07:45:35  
  • 华为科技的AI新突破:电脑也能像人一样"看脸识年龄"!COMSATS大学团队让广告投放更精准

    巴基斯坦拉合尔COMSATS大学研究团队开发出同时识别人脸年龄和性别的AI系统,专门针对精准广告投放优化。该系统性别识别准确率达95%,年龄估算平均误差仅5.77年。与传统分别处理两项任务的方法不同,研究采用统一框架学习共享特征表示,显著提升了整体性能。系统基于20000张人脸图像训练,为商业广告和智能监控等领域提供了新的技术解决方案。
    至顶网  科技行者  2025-07-29 12:02:34  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号