用了 0.354909秒,为您找到mg 娱乐 公司 什么 網纸 YB233相关内容20983 条
  • AI视觉推理新突破:中国团队让机器像人一样"慢思考",仅用5千个文本案例就追平顶级商业系统

    这项由中国人民大学等机构合作完成的研究提出了Virgo系统,发现仅用5000个纯文本推理案例训练就能让AI在视觉推理任务上达到顶级商业系统水平。研究证实推理能力具有跨模态通用性,为更经济高效地开发多模态AI系统指明了新方向,同时也揭示了AI感知反思能力不足的局限性。
    至顶网  科技行者  2025-09-15 11:06:51  
  • 马普所科学家创造神奇训练法:让AI大脑既省钱又聪明的革命性突破

    马普所团队提出POET训练法,通过正交变换重新参数化神经网络权重,在保持频谱特性稳定的同时实现高效训练。该方法仅用传统方法十分之一的参数就能获得更好性能,在13亿参数模型上验证困惑度从14.73降至13.70。POET展现独特的三阶段学习动态,并提供了坚实的理论保证,为大模型训练的参数效率和稳定性带来突破性进展。
    至顶网  科技行者  2025-06-16 16:16:37  
  • Mistral AI首次推出推理模型Magistral:纯强化学习训练让AI学会"深度思考"

    Mistral AI首次推出推理模型Magistral,采用纯强化学习训练让AI学会深度思考。该模型在数学推理能力上提升近50%,能够展示完整思考过程,并意外获得多模态推理能力提升。研究团队开源了Magistral Small模型,为AI推理能力发展开辟新路径,证明了强化学习在培养AI思维能力方面的巨大潜力。
    至顶网  科技行者  2025-06-18 09:20:58  
  • Meta开源世界模型V-JEPA 2:能看懂视频、预测未来、控制机器人的超级AI

    Meta开源世界模型V-JEPA 2:能看懂视频、预测未来、控制机器人的超级AI
    至顶网  至顶AI实验室  2025-06-16 17:03:47  
  • 美团研究院打造超级GUI助手:让电脑和手机像人类一样"看懂"屏幕并自动操作

    美团研究团队推出突破性GUI操作AI系统UItron,能够像人类一样理解屏幕内容并自动执行复杂操作任务。该系统采用三段式训练方法,在多项标准测试中表现卓越,特别是在中文应用场景下达到54.1%的任务成功率,显著超越其他同类系统。研究团队收集了超过一百万步中文应用操作数据,为GUI代理在中文环境的实际应用奠定了基础。
    至顶网  科技行者  2025-09-05 10:13:57  
  • 德州农工大学最新突破:让电脑真正"看懂"人类在街头的一举一动

    德州农工大学等多所高校联合发布MMHU数据集,专门针对自动驾驶场景的人类行为理解。该数据集包含57,000个人类行为实例和173万视频帧,覆盖过马路、打电话、骑车等13种关键行为,并提供详细的文字描述和行为标注。实验显示,基于该数据集训练的模型在行为识别准确率上有显著提升,将推动自动驾驶系统更好理解人类行为和意图,提升道路安全。
    至顶网  科技行者  2025-07-23 09:14:50  
  • KAIST团队突破性视频检索技术:让AI在视频海洋中精准找到你想要的答案

    KAIST研究团队开发的VideoRAG系统实现了人工智能在视频内容理解上的重大突破。该系统能够直接从海量视频中检索相关内容并生成准确答案,解决了传统方法只能处理文字和图片信息的局限。通过智能帧选择和多模态信息融合技术,VideoRAG在问答准确性上显著超越现有方法,为教育培训、技能学习等领域提供了全新的智能问答解决方案。
    至顶网  科技行者  2025-09-18 11:06:33  
  • Meta发布Llama3.1,OpenAI推出AI搜索SearchGPT,Deepmind获得奥数银牌,这就是这周的AI大新闻。

    Llama3.1 版本模型提供了更好的推理能力、更大的 128K token 上下文窗口,并改进了对8种语言的支持。
    至顶网  数字生命卡兹克  2024-07-30 13:04:30  
  • Tiny QA Benchmark++:LLMOps持续评估的轻量级多语言基准测试套件

    Tiny QA Benchmark++(TQB++)是一个超轻量级的大型语言模型(LLM)评估工具,由Comet ML公司的Vincent Koc开发。这套工具仅需几秒钟即可检测LLM系统中的关键故障,与大型基准测试形成鲜明对比。其核心是一个不到20KB的52个精心制作的英语问答集,非常适合快速CI/CD检查和提示工程。TQB++的主要创新在于提供了一个合成数据生成工具包,能够按需产生任何语言、领域或难度的微型基准测试,并预先构建了11种语言的测试包。
    至顶网  科技行者  2025-05-23 07:40:18  
  • Meta发布J1:通过强化学习激励LLM思考和做出更好的判断

    这篇研究介绍了Meta公司开发的J1系统,这是一种通过强化学习训练大语言模型进行评判的创新方法。J1将可验证和不可验证的提示转换为具有可验证奖励的判断任务,从而鼓励模型在做出决策前先进行思考。研究表明,J1在8B和70B参数规模下都超越了同等规模的现有模型,甚至在某些测试中超过了更大的模型如o1-mini和DeepSeek-R1。这种方法的核心创新在于不仅优化最终判断,还优化思考过程本身,使模型学会制定评估标准、生成参考答案并重新评估回答的正确性。
    至顶网  Hugging Face  2025-05-16 17:09:21  
  • 蒙特利尔理工大学重磅推出:让AI也能像人类一样"看懂"复杂表格的神奇数据集

    蒙特利尔理工大学研究团队开发了Visual-TableQA数据集,通过多AI协作生成2500个复杂表格和6000个推理问答对,仅成本不到100美元。该数据集专门训练AI理解表格图像的视觉布局和复杂推理,实验显示微调后的模型在多个基准测试中超越专有模型,为AI视觉推理能力带来重大突破。
    至顶网  科技行者  2025-09-26 13:55:11  
  • 滑铁卢大学科学家发明神奇AI:仅凭声音就能生成开口说话的逼真视频

    这项研究展示了一种革命性的AI技术,能够仅通过音频生成高度逼真的说话视频。滑铁卢大学研究团队开发的Audio2Photoreal系统巧妙结合了深度学习、扩散模型等先进技术,实现了声音到面部动作的精准转换。该技术在影视制作、在线教育、新闻媒体等领域具有广阔应用前景,将大幅降低视频制作成本和门槛。虽然仍面临计算资源需求高、隐私安全等挑战,但其突破性创新为未来视频内容创作开辟了全新路径。
    至顶网  科技行者  2025-08-27 10:31:20  
  • Google DeepMind推出Gemma 3:轻量级多模态AI模型的革命性突破

    Google DeepMind发布Gemma 3多模态AI模型家族,参数量从1B到27B,支持文字、图片理解和多语言处理,可在普通设备运行。创新的5:1注意力架构将内存消耗降低75%,支持128K长文档处理。在多项测试中表现优异,27B版本在聊天机器人竞技场排名第9,超越了许多更大规模的模型,实现了AI技术的真正民主化。
    至顶网  科技行者  2025-08-01 10:13:44  
  • NVIDIA推出颠覆性研究工具:让任何人都能定制自己的AI研究助手

    NVIDIA Research推出了革命性的UDR系统,让用户可以完全自定义AI研究助手的工作策略。该系统解决了传统研究工具固化、难以专业化定制的问题,支持任意语言模型,用户可用自然语言编写研究策略,系统自动转换为可执行代码。提供三种示例策略和直观界面,实现了AI工具的民主化定制,为专业研究和个人调研提供了前所未有的灵活性。
    至顶网  科技行者  2025-09-19 11:08:03  
  • 香港中文大学推出Dispider:让视频AI像人一样"边看边聊"的革命性突破

    香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
    至顶网  科技行者  2025-09-15 14:44:25  
  • 从一个工具到多个专家助手:字节跳动和浙江大学团队如何让AI创作图文内容变得"身怀绝技"

    这项由浙江大学和字节跳动联合完成的研究提出了LLM-Interleaved(LLM-I)框架,突破了现有AI图文创作系统的"单工具"瓶颈。该系统让大语言模型充当智能指挥官,根据需求调用在线搜索、图像生成、代码执行、图像编辑四种专业工具。通过创新的三重强化学习奖励机制训练,LLM-I在四个基准测试中均取得显著超越现有方法的表现,特别是在自建的LLMI-Bench基准上比GPT-4o高出25个百分点,工具调用成功率达到100%。
    至顶网  科技行者  2025-09-30 10:50:59  
  • 800个书呆子(Nerd),如何在邮轮上办一场亚文化的趴体?

    这是我跟“书呆子”们共度的一段旅程,这场游轮探险不只是对极客文化的致敬,更是对经典社会等级的彻底颠覆。
    至顶网  海外来电  2022-12-11 16:24:48  
  • 韩国KAIST团队首次解决文字图像修复难题,让老照片上的模糊文字重获新生

    韩国KAIST团队首次提出文字感知图像修复技术,解决了传统图像修复无法准确恢复文字内容的难题。研究构建了包含10万张图像的SA-Text数据集,开发了TeReDiff模型,通过三阶段训练和智能提示机制,实现图像修复与文字识别的协同工作。实验显示该技术在文字识别准确率上比传统方法提升15-20%,为历史文献保护、档案数字化等领域提供了重要解决方案。
    至顶网  科技行者  2025-06-17 13:13:40  
  • 苹果研究院首创AI音频技术:让声音拥有记忆力,语音助手即将迎来智能化革命

    苹果公司研究团队开发出革命性语音AI技术RealTimeVoice,首次实现语音助手的完美记忆力和实时对话能力。该技术通过流式音频处理和创新的记忆缓存机制,让AI能够记住完整对话历史的同时保持快速响应,反应速度比传统系统提升一倍。这项突破将彻底改变人机语音交互体验,让数字助手真正成为理解用户的智能伙伴。
    至顶网  科技行者  2025-08-20 18:04:48  
  • 《数字经济洞察周报》2023年第18期 |全球生成式AI产业图谱及报告在第七届世界智能大会发布

    第七届世界智能大会成功召开,全球生成式AI产业图谱及报告发布。
    至顶网  孙硕,吕敬儒  2023-05-26 17:10:33  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号