用了 0.058047秒,为您找到大小 单双 技巧 集锦 罔芷 88pkee 驻测相关内容1228 条
  • AI推理能力再次升级!新加坡国立大学团队发布多模态思维链推理全面调研报告

    这份由新加坡国立大学等顶尖学府研究团队发布的调研报告,系统梳理了多模态思维链推理这一前沿AI技术的发展现状。该技术让AI具备了同时处理文字、图像、音频等多种信息并进行逐步推理的能力,在医疗诊断、自动驾驶、智能机器人等领域展现出巨大应用潜力,代表了AI从简单工具向真正智能伙伴进化的重要一步。
    至顶网  科技行者  2025-07-30 10:00:17  
  • ImgEdit:北京大学与兔小贝AI联合推出的统一图像编辑数据集与基准测试

    ImgEdit是北京大学与兔小贝AI联合推出的图像编辑框架,解决了开源编辑模型落后于商业产品的问题。该框架包含120万对高质量编辑图像对,涵盖13种编辑类型和11万个多轮交互样本。通过融合视觉语言模型、检测模型和分割模型的多阶段流程,ImgEdit确保了数据的高质量性。研究团队基于此数据集训练了ImgEdit-E1模型,并提出ImgEdit-Bench评估基准,从指令遵循、编辑质量和细节保留三个维度全面评估模型性能。实验结果显示,ImgEdit-E1在多个任务上超越现有开源模型,推动了图像编辑技术的进步。
    至顶网  科技行者  2025-05-31 10:05:02  
  • 腾讯混元团队重磅发现:训练AI大模型时,浮点数的"配方"原来大有讲究!

    腾讯混元团队通过366组实验发现了AI大模型低精度训练的关键规律,提出Capybara缩放定律。研究揭示指数位比尾数位更重要,存在训练数据临界值现象,4-8位精度具有最佳成本效益。该成果为AI训练提供精确预测工具,有助于降低训练成本、提升效率,推动AI技术普及化发展。
    至顶网  科技行者  2025-09-12 19:47:23  
  • Gradient团队突破分布式训练瓶颈:ECHO-2让AI训练成本骤降35%!

    Gradient公司联合多所知名学府开发的ECHO-2框架通过分布式架构突破了传统AI训练的成本瓶颈。该系统巧妙地将训练过程分解为三个独立车间,让便宜设备承担数据生成任务,昂贵设备专注核心学习,并允许适度的数据延迟来换取更高的资源利用效率。实验证明在保持模型质量的同时成功降低训练成本35%以上,为AI技术普及奠定了重要基础。
    至顶网  科技行者  2026-02-13 08:32:06  
  • 阿里巴巴推出START:让AI也能像人一样用工具解题的突破性进展

    阿里巴巴研究团队开发出START系统,首次让AI能像人类一样在推理过程中主动使用编程工具。通过创新的"提示注入"和自学习技术,START在数学竞赛和编程测试中表现显著提升,在AIME24达到66.7%准确率,比基础模型提升16.7%。这项突破性研究为AI推理能力带来质的飞跃,大幅减少计算错误和"幻觉"现象。
    至顶网  科技行者  2025-08-04 11:15:05  
  • 2018戴尔易安信服务器年度总结

    我们在年中发布了“17个服务器发展趋势”,半年后的2018年底,您可以在10分钟内阅读一年的服务器故事。
    至顶网  至顶网云计算频道  2019-01-02 11:24:46  
  • 中国电信人工智能研究院首发T2R-bench基准:让AI从表格数据生成专业报告有多难?

    中国电信人工智能研究院联合重庆大学、北航发布T2R-bench基准,首次系统评估AI从工业表格生成专业报告的能力。研究涵盖457个真实工业表格,测试25个主流AI模型,发现最强模型得分仅62.71%,远低于人类专家96.52%。揭示AI在处理复杂结构表格、超大规模数据时存在数字计算错误、信息遗漏等关键缺陷,为AI数据分析技术改进指明方向。
    至顶网  科技行者  2025-09-08 14:13:51  
  • 交织式思考与应答:让大语言模型通过强化学习实现更快响应和更准确推理

    这项研究提出了"交织式推理"方法,通过强化学习训练大语言模型在复杂推理过程中穿插输出中间答案。与传统的"先思考后回答"模式不同,这种方式让模型像人类一样边思考边给出阶段性结论,不仅将首词响应时间平均减少80%以上,还在某些任务上将准确率提升高达19.3%。研究表明,模型本身就具备交织推理的潜力,通过适当的奖励机制可以显著增强这一能力,并泛化到未见过的复杂推理任务中。
    至顶网  科技行者  2025-05-29 13:20:36  
  • Muddit: 突破文生图限制,统一图文生成的离散扩散模型

    Muddit是一种创新的统一生成框架,它使用离散扩散技术同时处理文本和图像生成。由北京大学等机构联合开发,该模型整合了预训练文生图模型的强大视觉先验,使其能高效并行地处理多模态内容。尽管仅有1B参数,Muddit在GenEval、MS-COCO和VQAv2等多项基准测试中表现卓越,推理速度比主流模型快4-11倍。其核心创新在于采用单一架构处理跨模态任务,证明了离散扩散方法在统一多模态生成中的巨大潜力。
    至顶网  科技行者  2025-06-03 17:01:15  
  • 约翰霍普金斯大学推出MMBERT:一个会说1800多种语言的AI模型

    约翰霍普金斯大学研究团队开发了MMBERT多语言AI模型,采用渐进式学习策略训练超过1800种语言。该模型通过逆向掩码调度和温度采样等创新技术,在多项基准测试中超越XLM-R等现有模型,甚至在部分小语种任务上超过OpenAI o3和Google Gemini。模型运行速度比同类产品快2-4倍,已开源发布。
    至顶网  科技行者  2025-09-25 14:40:36  
  • AI助手学会了看一周的视频并推理:新加坡南洋理工让机器拥有"超长记忆"和"工具思维"

    新加坡南洋理工大学联合多个国际研究机构开发出突破性AI系统Ego-R1,首次实现对一周超长视频的智能理解和推理。该系统采用独创的"工具链思维"方法,让AI像侦探一样使用不同工具分步解决问题,在44.3小时视频理解任务中达到46%准确率,显著超越现有技术,为未来个人AI助手的发展开辟新道路。
    至顶网  科技行者  2025-06-20 10:27:10  
  • 复旦大学联合团队发布GeometryZero:让小尺寸AI模型也能像数学天才一样解决几何难题

    复旦大学联合多所知名院校开发了GeometryZero模型,通过创新的群体对比策略优化(GCPO)方法,让小尺寸AI模型具备了类似数学专家的几何推理能力。该模型能智能判断何时使用辅助构造工具,在多个几何基准测试中表现优异,为AI教育应用的普及化奠定了基础,展现了专门化训练的巨大潜力。
    至顶网  科技行者  2025-06-12 09:55:13  
  • 物理模拟也能"压缩"?Flatiron研究院探索AI模型如何在虚拟世界中偷懒却不失精度

    Flatiron研究院团队探索了在压缩的"潜在空间"中进行物理模拟的新方法,发现即使压缩1000倍,AI模型仍能准确预测复杂物理现象如流体流动和湍流。研究对比了扩散模型和神经求解器两种方法,发现扩散模型不仅更准确,还能处理系统的不确定性。这项技术将物理模拟速度提升数十倍,为天气预报、工程设计等领域带来革命性改进。
    至顶网  科技行者  2025-07-11 09:49:32  
  • 伊利诺伊大学团队突破:让AI同时看懂和画出图像,速度提升6倍的革命性架构

    伊利诺伊大学研究团队提出LaTtE-Flow架构,创新性地将多模态理解和图像生成统一在单一模型中。通过层级时间步专家和时间步条件残差注意力两大技术突破,实现6倍推理加速和4倍参数效率提升,同时保持高质量的图像生成和理解性能,为高效多模态AI应用奠定基础。
    至顶网  科技行者  2025-06-19 10:46:22  
  • TalkingMachines:Character AI打造的实时音频驱动视频会话系统,让虚拟形象自然对话成为现实

    Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
    至顶网  科技行者  2025-06-07 17:02:35  
  • 转弯级助攻:明尼苏达大学团队用回合级信誉分配增强大语言模型智能体的多回合推理能力

    明尼苏达大学研究团队提出了一种创新方法,通过回合级信誉分配显著提升大语言模型(LLM)智能体的多回合推理能力。传统方法只对整个过程进行评价,而他们的MT-GRPO算法能够精确评估每个决策步骤的价值,就像为每一步提供具体反馈。在维基百科搜索工具使用场景中,该方法实现了100%的工具执行成功率和50%的答案精确匹配率,远超传统方法。这一突破不仅提高了AI在多步骤任务中的表现,也为开发更复杂的AI系统提供了重要思路。
    至顶网  科技行者  2025-06-03 11:43:52  
  • LayerFlow:香港大学和阿里巴巴共同打造的层级视频生成技术,让你轻松创建前景、背景可分离的视频

    香港大学与阿里巴巴达摩院合作开发的LayerFlow是一种突破性的层级视频生成技术,能同时生成透明前景、完整背景和混合场景视频。该技术通过创新的框架设计将不同视频层级作为子片段连接,并引入层级嵌入使模型区分各层级。面对高质量训练数据稀缺的挑战,研究团队设计了三阶段训练策略,结合Motion LoRA和Content LoRA,实现了图像和视频数据的联合训练。LayerFlow不仅支持多层视频生成,还能实现视频分解和条件层生成,为视频创作领域带来革命性变革。
    至顶网  科技行者  2025-06-08 09:31:57  
  • SkyReels-Audio:让肖像"动"起来 - Skywork AI开创全能音频驱动的人像视频生成技术

    SkyReels-Audio是Skywork AI团队开发的全能音频驱动人像视频生成框架,能将静态图像或视频与语音输入结合,生成高度逼真、唇形同步的说话人像视频。基于预训练的视频扩散变换器构建,该技术支持无限长度视频生成和编辑,提供多模态控制能力。通过混合课程学习策略和双向潜在融合技术,该模型在身份一致性、面部表情自然度和唇形同步精度上取得了突破性进展,为数字内容创作、教育和娱乐领域带来革命性可能。
    至顶网  科技行者  2025-06-11 07:51:43  
  • 让语言模型思考更聪明:通过强化学习实现混合隐式推理

    这项研究提出了一种名为混合推理策略优化(HRPO)的新方法,通过强化学习使大型语言模型能够结合离散标记和连续隐藏表示进行推理。HRPO设计了创新的门控机制,初始时以标记嵌入为主,逐渐增加隐藏状态的比例,并通过强化学习优化这一混合策略。实验表明,HRPO在知识和推理任务上显著优于现有方法,甚至使小型模型达到大型模型的性能,同时展现出跨语言推理等有趣特性。
    至顶网  科技行者  2025-05-30 14:40:24  
  • 跨越“Prompt”浅滩,航向“Context”深海

    在“PEC 2025 AI创新者大会暨第二届提示工程峰会”的“从提示工程到上下文工程 AI落地范式升级”分论坛上,多位一线实践者与意见领袖,就如何构建高效上下文、激活企业级Agent、赋能个体创造等核心议题,展开了深度剖析。
    至顶网  毛烁  2025-09-16 19:09:46  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号