用了 0.412364秒,为您找到宝宝 计划 手机 软件 網纸 YB233相关内容27718 条
  • 微软推出RealPlay:用AI把游戏世界变成现实世界的神奇技术

    微软等机构联合推出的RealPlay系统首次实现了用游戏控制指令生成现实视频的突破。该系统仅使用赛车游戏数据训练,却能控制现实中的汽车、自行车和行人运动,控制成功率达90%。RealPlay支持交互式视频生成,用户可像玩游戏般逐步指导视频发展,生成质量接近真实拍摄,为AI视频生成和未来游戏引擎开发开辟了新方向。
    至顶网  科技行者  2025-06-27 10:27:10  
  • 世界模型的全新架构:卡内基梅隆大学团队提出PAN模型,让AI拥有"大脑中的虚拟世界"

    卡内基梅隆大学研究团队深入分析了当前世界模型的根本缺陷,提出了PAN架构。该研究发现现有系统过分关注视觉效果而忽略智能推理,提出混合表示和多尺度推理的解决方案。PAN采用离散标记和连续嵌入的组合,通过增强的大语言模型和扩散预测器实现真正的"思想实验"能力,为AI从内容生成器向智能推理系统的转变提供了新路径。
    至顶网  科技行者  2025-07-18 09:35:00  
  • 斯坦福大学新发现:大语言模型居然能自己学会当"翻译官"

    斯坦福大学研究发现,主要用英语训练的大型语言模型竟能自发学会处理其他语言任务,无需明确教学。这种跨语言迁移能力随模型规模增大而显著提升,通过形成"通用语义空间"实现不同语言间的知识迁移。研究为降低多语言AI开发成本、支持资源稀缺语言提供了新途径,但仍面临性能不均衡、文化适应性等挑战。
    至顶网  科技行者  2025-08-21 12:25:17  
  • 波士顿大学揭秘:只听声音就能"看见"说话者,AI如何读懂声音里的视觉密码

    波士顿大学研究团队开发出Audio2Face人工智能系统,能够仅通过音频信号生成对应的面部动画。该技术通过深度学习分析声音中的细微特征,准确率达87.3%,可应用于视频通话、影视制作、教育康复等领域。研究揭示了声音与视觉之间的深层联系,为跨模态人工智能开辟新方向,但也带来隐私保护和技术滥用等挑战。
    至顶网  科技行者  2025-08-29 12:03:48  
  • 大模型的"认知僵化"问题:ByteDance团队揭示AI为何总是"按套路出牌"

    ByteDance团队发现大语言模型存在"认知僵化"问题:当用户要求执行与训练习惯冲突的指令时,AI往往难以遵从。研究团队开发了Inverse IFEval测试体系,包含8种反常规指令类型和1012个测试样本,发现即使最先进的模型在此类任务上表现也不理想。研究揭示了过度标准化训练导致模型缺乏灵活性的根本原因,为开发更适应用户真实需求的AI系统提供了重要指导。
    至顶网  科技行者  2025-09-24 10:27:35  
  • 新加坡国大突破3D补全难题:让残缺物体"重获新生"的AI魔法师

    新加坡国立大学等机构联合开发了LaS-Comp,一种突破性的3D形状补全AI系统。该系统无需配对训练数据,能智能补全残缺的三维物体,处理多种复杂缺失模式。通过显性替换和隐性对齐的双重策略,LaS-Comp在保持输入忠实性的同时确保补全结果的自然连贯,补全速度比现有方法快3倍以上,在多项评估指标上显著优于传统方法。
    至顶网  科技行者  2026-03-02 11:30:02  
  • 给我FP32,否则免谈!Rice大学团队揭秘大模型推理中的致命精度陷阱

    这项研究揭示了大语言模型推理中的一个重要问题:数值精度会显著影响结果的可重现性。研究团队发现,即使使用相同设置,不同硬件配置下模型输出可能截然不同,准确率差异可达9%。他们提出了LayerCast解决方案,在保持内存效率的同时提供高精度计算,为AI研究的可重现性提供了实用工具。
    至顶网  科技行者  2025-06-17 10:44:16  
  • 百川智能发布全能AI助手:一个模型同时理解文字、图片、视频和语音的技术突破

    百川智能发布突破性AI模型Baichuan-Omni-1.5,实现文字、图像、视频、音频的统一理解与生成。该7B参数模型在多项测试中超越同类产品,特别在医疗图像理解方面达到83.8%准确率,超过72B参数竞争模型。研究团队使用500亿高质量多模态数据,创新的四阶段训练策略,以及独创的音频处理技术,解决了多模态AI的关键技术难题,为人机交互开辟新方向。
    至顶网  科技行者  2025-09-17 13:33:02  
  • 埃因霍芬理工大学团队用AI"擦拭"心脏超声影像的技术突破

    荷兰埃因霍芬理工大学研究团队开发出一种智能心脏超声除雾技术,能够自动识别图像中被"雾霾"污染的区域并进行有针对性清理。该技术结合语义分割和扩散模型,首先让AI识别心脏各部分结构,然后根据不同区域特点采用不同强度的除雾处理,在国际挑战赛中表现优异,为解决心脏超声图像质量问题提供了新思路。
    至顶网  科技行者  2025-09-02 09:33:02  
  • 低资源语言的AI也要会"看图说话":上海AI实验室破解多语言视觉AI文化盲区难题

    上海AI实验室等机构联合发布MELLA项目,通过创新的"双源数据策略"解决了多语言视觉AI的文化理解难题。该研究构建了包含680万样本的大规模数据集,涵盖8种低资源语言,让AI既能流利表达又能理解文化内涵。实验显示文化理解能力提升150%以上,为全球数十亿非英语用户带来更优质的AI服务体验。
    至顶网  科技行者  2025-08-13 10:55:51  
  • 快手科技重磅发布:让AI看懂复杂视频的"慢-快"双眼系统

    快手科技发布Keye-VL 1.5多模态AI系统,创新性地引入"慢-快"双眼视频编码策略,能够智能分配计算资源处理视频内容。系统通过四阶段渐进式训练,将上下文理解能力从8K扩展至128K tokens,显著提升长视频理解能力。在多项国际基准测试中表现卓越,特别是视频理解任务上超越同类产品,为内容创作、教育、医疗等领域的智能化应用奠定技术基础。
    至顶网  科技行者  2025-09-23 13:36:05  
  • 北大港科大联手突破:让AI学会"看图说话"编辑视频,无需训练就能插入删除替换任何物体

    这项由北京大学和香港科技大学联合完成的研究开发了ContextFlow系统,实现了无需训练的高质量视频物体编辑。该系统通过RF-Solver高精度反演和自适应上下文丰富机制,能够精确插入、替换或删除视频中的物体,同时保持背景完整和时间连续性,在多项指标上超越现有方法,为视频编辑技术带来重大突破。
    至顶网  科技行者  2025-09-29 08:57:26  
  • 物声相应:交互式感知物体的图像到音频生成技术——加州大学伯克利分校与字节跳动联合研究突破

    这项研究提出了一种交互式物体感知的图像到音频生成模型,让用户能够针对图像中选定的特定物体生成相应声音。研究团队将物体中心学习整合到条件潜在扩散模型中,通过多模态注意力机制学习图像区域与声音的对应关系。用户可通过分割蒙版选择目标物体,系统会精确生成相关音频。理论分析证明其注意力机制在功能上等同于测试时的分割蒙版,确保了生成音频与选定物体的准确对应。实验表明该模型在声音-物体对齐方面显著优于现有技术,为内容创作、虚拟现实和辅助技术等领域开辟了新可能。
    至顶网  科技行者  2025-07-07 17:33:28  
  • 卡内基梅隆大学突破性技术:让3D物体在任意光线下完美重现,就像换个房间换种效果

    卡内基梅隆大学开发的LightSwitch技术能让3D物体在任意光照环境下呈现真实外观,解决了传统重光照方法速度慢、效果不真实的问题。该技术采用材质感知和多视角一致性机制,将计算时间从数小时压缩至几分钟,在电影制作、游戏开发、虚拟现实等领域具有广阔应用前景。
    至顶网  科技行者  2025-08-13 10:58:14  
  • 上海AI实验室团队提出LEGO-Puzzles:揭露多模态大模型在空间推理上的惊人短板

    上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
    至顶网  科技行者  2025-07-30 10:00:55  
  • 厦门大学最新研究:让AI推荐系统像侦探一样思考,不再乱猜你想要什么

    厦门大学联合Shopee公司提出ManCAR推荐系统,通过"协作流形约束"让AI在商品关系网络中进行多步推理,配备智能导师引导和自适应停止机制,避免传统推荐系统的"潜在漂移"问题,在七个数据集上最高提升46.88%准确性,实现了从"机械推荐"到"智慧推荐"的突破性进展。
    至顶网  科技行者  2026-03-02 11:34:18  
  • 十年回首,“左手代码,右手诗”的理想主义者

    现实中的理想主义者是痛苦的,还是幸福的?工程师在工作中追寻的是什么?这是一个资深工程师,一个数次创业的理想主义者的故事。
    至顶网  尼酱  2022-06-16 15:38:15  
  • 伦敦玛丽女王大学:用牛顿数学法让数字音响完美复制经典模拟压缩器

    伦敦玛丽女王大学研究团队开发出创新的数字音频技术,使用牛顿-拉夫逊数学方法成功复制经典Teletronix LA-2A模拟压缩器。该方法仅需五个参数和20分钟训练时间,大幅超越传统深度学习效率,并制作成开源VST插件4A-2A供音乐制作者免费使用,为虚拟模拟建模领域提供了高效可解释的新方案。
    至顶网  科技行者  2025-09-29 10:07:51  
  • 复旦大学团队革命性突破:用代码教AI推理,让机器学会"举一反三"的思考艺术

    这项由复旦大学等机构合作完成的研究提出了CodeI/O方法,通过让AI学习预测代码的输入输出来提升通用推理能力。该方法将45万个代码文件转化为350万个训练样本,让AI用自然语言推理代码逻辑,从而掌握逻辑规划、状态搜索等推理技能。实验显示,在14个评测基准上,CodeI/O训练的模型在符号、科学、逻辑、数学等推理任务上都实现了均衡显著的性能提升。
    至顶网  科技行者  2025-10-11 09:56:35  
  • 人工智能如何像人类交流一样理解图像?伯尔尼大学团队突破性研究揭示视觉智能新范式

    COMiT是伯尔尼大学团队开发的革命性图像理解系统,首次成功模仿人类交流和观察模式。该系统不再一次性处理整张图片,而是像侦探破案一样逐步观察局部区域,将信息存储在256个记忆槽位中。通过语义对齐技术向DINOv2学习常识,使用统一网络同时完成观察和重建任务。在多项测试中显著超越现有方法,特别在组合泛化和关系推理方面表现卓越,为人工智能视觉理解指出了新方向。
    至顶网  科技行者  2026-03-02 10:47:42  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号