用了 0.126085秒,为您找到mg 性价比 最高 高达 網纸 YB233相关内容9826 条
  • MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

    MUG-Eval是KAIST和Trillion Labs联合开发的创新多语言评估框架,通过让语言模型在目标语言中进行自我对话来评估其生成能力。该方法独特之处在于不依赖语言特定工具或人工标注数据,而是通过任务完成率间接衡量语言能力。研究团队测试了8种顶级语言模型在30种语言上的表现,发现其结果与传统评估方法高度一致(相关系数>0.75)。MUG-Eval揭示了模型在低资源语言上表现显著落后,并发现英语并非评估低资源语言的最佳替代。该框架理论上支持2,102种语言,为真正包容的AI评估提供了新途径。
    至顶网  科技行者  2025-05-28 08:12:00  
  • 北森发布iTalentX7.0:业人一体,为员工而设计

    5月25日,“HR SaaS未来势”2023北森春季产品发布会上,北森提出人力资源软件的未来十年,将从“为HR而设计”走向“为员工而设计”,北森正式发布iTalentX7.0—业人一体,为员工而设计。
    至顶网  业界供稿  2023-05-26 18:06:49  
  • 从理论到实践:阿拉伯语言模型评估的新范式

    这篇研究从王子苏丹大学的学者团队提出了阿拉伯语言模型评估的新范式,首先建立了全面的理论指南,然后分析了现有评估数据集的不足,并引入了阿拉伯深度迷你数据集(ADMD)作为解决方案。ADMD包含490个涵盖10个领域的挑战性问题,用于评估五大顶级语言模型。结果显示Claude 3.5 Sonnet表现最佳(30%准确率),而所有模型在需要深度文化理解的领域表现欠佳。研究强调了将文化能力与技术精确性结合的重要性,为阿拉伯语NLP提供了新方向。
    至顶网  科技行者  2025-06-05 15:24:40  
  • 五大机器人团队谈:人形机器人的卡点和破局之道

    面对商业落地,人形机器人遇到了哪些难题?又将如何破壁?
    至顶网  金旺  2025-05-30 14:19:44  
  • 五大机器人团队谈:人形机器人的卡点和破局之道

    面对商业落地,人形机器人遇到了哪些难题?又将如何破壁?
    至顶网  至顶网机器人频道  2025-05-30 13:35:10  
  • 2018 OpenPOWER中国高峰论坛召开

    2018年12月12日,由OpenPOWER基金会主办的2018 OpenPOWER中国高峰论坛在北京举行。
    至顶网  业界供稿  2018-12-14 10:55:13  
  • 难以挽回的的品牌坍塌 苹果“禁售令”强制执行势在必行

    尽管通过升级iOS系统、提出复议等方式作为回应,但是苹果公司从未停止过市场上任何一款iPhone的销售。在法院裁定的执行陷入僵局的同时,人们不禁好奇,在苹果公司眼中“诉中临时禁令”是什么?
    至顶网  环球网  2019-01-14 16:06:24  
  • ZDNS完成B轮融资,加速下一代域名系统升级

    日前,互联网域名系统国家地方联合工程研究中心(以下简称“ZDNS”)宣布完成亿元B轮融资,本轮融资由深创投领投,老股东盈富泰克等跟投。
    至顶网  至顶网网络与安全频道  2021-09-16 17:27:01  
  • 谨防恶意DNS流量 Akamai公布2022 Q2 DNS报告

    在全球范围内,Akamai为不同规模的企业和互联网服务提供商(ISP)提供了递归DNS服务和DNS防火墙服务。通过对全球运营商和不同行业与地区企业客户DNS流量的分析洞察,Akamai总结出2022年第二季度的关键结论。
    至顶网  至顶网网络与安全频道  2022-11-16 14:51:26  
  • 任正非在中央研究院创新先锋座谈会上与部分科学家、专家、实习生的讲话

    任正非在中央研究院创新先锋座谈会上与部分科学家、专家、实习生的讲话,认为还是要和大家勇敢地沟通,一起前进,战胜困难,我们要敢于走在时代前沿。
    至顶网  至顶网数字化转型频道  2021-09-14 22:08:40  
  • 游戏测试揭秘:大语言模型玩游戏到底有多厉害?——加州大学圣地亚哥分校研究团队带你了解LMGAME-BENCH

    LMGAME-BENCH是一项创新研究,通过六款经典游戏评估大语言模型的游戏能力。研究发现直接让模型玩游戏效果不佳,因此团队设计了感知、记忆和推理支架来解决视觉识别弱、提示敏感和数据污染等问题。测试13款顶级模型显示,o3和o1表现最佳,且不同游戏考验不同能力组合。有趣的是,在某一游戏上训练模型不仅提升该游戏表现,还能增强其在规划和决策任务上的能力,证明游戏环境既是有效的评估工具,也是有价值的训练场景。
    至顶网  科技行者  2025-05-27 14:37:03  
  • 2022年度“智造中国”高峰论坛顺利举行,同期发布“年度商业领袖”获奖名单

    2022年12月15日,由数商传媒《数字商业时代》举办的2022年度“智造中国高峰论坛”以在线直播的方式召开。
    至顶网  业界供稿  2022-12-15 17:52:04  
  • StructEval: 全面评测大型语言模型生成结构化输出的能力

    这项研究提出了STRUCTEVAL,一个全面评估大语言模型生成结构化输出能力的基准测试。研究涵盖18种格式和44种任务类型,分为不可渲染(JSON、YAML)和可渲染(HTML、React)两大类。评测揭示即使最先进模型如GPT-4o也仅达到76.02%平均分,开源模型落后约10个百分点。研究发现,生成任务比转换任务更具挑战性,可视内容生成比纯文本结构更难掌握。某些任务(如Text→Markdown)已被很好解决,而另一些(如Text→Mermaid)仍然困难。这一基准为未来语言模型在处理结构化数据方面的进步提供了重要指导。
    至顶网  科技行者  2025-05-30 09:45:48  
  • HiScene:用等轴视图打造具有层次结构的3D场景

    想象一下,你想要为游戏、虚拟现实体验或室内设计应用创建一个逼真的3D客厅。传统上,这需要专业的3D设计师花费数小时甚至数天的时间来建模、调整和布置每个物体。而现在,人工智能领域已经取得了令人瞩目的进展,尤其是在2D图像生成和单个3D物体生成方面。只需输入一段文字描述,AI就能创建出令人惊叹的图像或复杂的3D物体。
    至顶网  科技行者  2025-04-21 15:21:01  
  • 房地产巨头融创“转型”记

    在整个房地产行业从高速增长进入稳定增长的大背景下,融创以新一代核心业务系统上线为契机,践行“地产+”,探索多元化之路。
    至顶网  邹大斌  2019-12-06 09:34:38  
  • 安全智联 超越无限——H3C F5000-AK515防火墙功能评测

    利用防火墙建立起一条条与分支机构可靠互联的安全通道,自如沟通是当前防火墙产品所需要担负起的另一个重要使命。紫光旗下新华三集团最新推出的支持双主控,具备电信级高可靠性的H3C F5000-AK515防火墙就是这样的一款产品。
    至顶网  董培欣  2018-07-06 15:19:27  
  • 物联网面临不断升级的网络威胁

    本文概述了物联网设备安全面临的不断升级的网络攻击风险,讨论了因设备普及和互联带来的漏洞、AI驱动的恶意软件威胁以及供应链风险,并提出了通过风险管理、标准制定和先进防护措施来应对这些挑战的重要性。
    至顶网  Forbes  2025-05-21 11:23:06  
  • 我们为什么需要“科技向善”?——让光照进缝隙里

    有一些“善”,能穿透阻隔,照进“黑暗角落”。
    至顶网  高玉娴  2022-02-22 11:29:33  
  • Prot2Token:通过下一个标记预测统一蛋白质建模的全新框架

    Prot2Token是密苏里大学研究团队开发的一种突破性蛋白质建模框架,它通过将各种蛋白质预测任务转化为统一的下一个标记预测问题,解决了传统方法需要为不同任务开发专门模型的限制。这个框架以自回归解码器为核心,配合预训练蛋白质编码器和任务标记引导,实现了从蛋白质序列到结构、功能和相互作用的多样化预测。实验证明其性能媲美甚至超越专门方法,并在结构预测上比AlphaFold2快1000倍。Prot2Token通过多任务学习促进了不同预测任务间的协同效应,为蛋白质研究提供了高效、通用的计算范式。
    至顶网  科技行者  2025-06-03 09:46:56  
  • 这些代码"变色龙"能适应不同版本的代码库吗?瑞士科学家们的惊人发现

    瑞士和德国研究团队通过创建GitChameleon测试平台,发现当前最先进的AI编程助手在处理特定版本代码库时成功率仅48-51%。研究揭示了AI系统的"版本困惑症"问题,即难以准确区分不同版本库的用法差异。通过自我调试和文档检索等方法可显著改善AI表现,为未来开发更可靠的版本感知AI编程助手提供了重要参考。
    至顶网  科技行者  2025-07-23 19:03:54  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号