搜一下
用了 0.044645秒,为您找到
北京
pk
精准
人工
计划
软件
網纸
YB233
相关内容3248 条
阿里巴巴推出ThinkSound:让AI像音效师一样"思考"创造声音
阿里巴巴联合香港科技大学和浙江大学开发的ThinkSound系统,通过引入思维链推理让AI学会像专业音效师一样思考和创作。该系统采用三步式交互流程,支持基础音景生成、物体定制和语言编辑,在多项评测中表现优异,有望降低音效制作门槛并提升创作效率。
至顶网
科技行者 2025-07-02 11:24:54
MIT实验室打造音频界"翻译官":一个模型搞定语音、音乐和环境声
这篇论文介绍了MIT开发的USAD技术,这是一种能够同时理解语音、音乐和环境声音的通用音频AI模型。通过创新的知识蒸馏方法,USAD在多个音频处理任务上都达到了接近专门模型的性能水平,为构建更智能的音频理解系统奠定了基础。该技术在智能助手、多媒体处理、教育等领域具有广阔的应用前景。
至顶网
科技行者 2025-06-27 16:59:36
网易有道团队发布Confucius3-Math:让消费级GPU也能跑出顶级数学推理能力的14B参数模型
网易有道研究团队开发了Confucius3-Math,这是一个专门针对中国K-12数学教育的14B参数AI模型。该模型在多项数学推理测试中表现出色,超越了许多规模更大的竞争对手,训练成本仅需2.6万美元,推理速度比DeepSeek-R1快15倍,能在消费级GPU上高效运行,旨在通过降低AI教育成本来促进教育公平。
至顶网
科技行者 2025-07-02 09:09:50
地平线余凯:科学家创业得出两个心法,智能驾驶的本质不是学习人类经验,而是逼近世界真相
不过,虽然这是一场地平线的产品发布会,但在整场演讲当中,我们听到最多的反而是余凯的产业理念。从当年在百度参与过辛顿深度学习公司竞拍的科学家,到现在的港交所上市公司,余凯自己完成了一个科学家到企业家的完美转身。这次发布会上,他也对芯片公司的创业之路做了一个相当完整的梳理。某种程度上,我们甚至可以将这场发布会当作一个商学院创业课来听。
至顶网
高飞 2025-04-21 16:42:43
当大语言模型遇上环保意识:西班牙研究团队首次揭示能耗信息如何改变AI选择
西班牙马德里理工大学研究团队开发了全球首个融入能耗意识的AI评估平台——生成式能源竞技场(GEA),通过对694个评估样本的分析发现,当用户了解AI模型能耗信息后,46%的用户会改变原始选择,更节能小模型的获胜率从50%跃升至75%以上,揭示了能耗意识对AI选择的显著影响,为构建可持续AI生态系统提供重要科学依据。
至顶网
科技行者 2025-07-24 16:21:25
当AI拥有了永久记忆:上海交通大学团队打造的MemOS让大模型告别"健忘症"
上海交通大学团队开发了MemOS记忆操作系统,让AI拥有真正的长期记忆能力。该系统统一管理参数记忆、激活记忆和明文记忆三种类型,通过MemCube智能单元实现记忆的生命周期管理和跨类型转换。在LOCOMO基准测试中,MemOS在所有推理任务上均获得最佳成绩,特别在多跳推理和时间推理中表现突出。
至顶网
科技行者 2025-07-11 15:22:44
香港科技大学团队让电脑听音识画面:仅凭声音就能生成逼真视频
香港科技大学研究团队开发出SpA2V框架,这是首个能够从音频中提取空间信息并生成对应视频的AI系统。该技术不仅能识别声音类型,还能准确判断声源位置、移动方向和距离,通过两阶段生成过程实现"听音生画"。实验结果显示SpA2V在空间对应性和视频质量方面显著超越现有方法,为音频可视化、影视制作、教育应用等领域开辟了新的可能性。
至顶网
科技行者 2025-08-07 10:21:55
微软让AI模型解码效率狂飙9倍:华丽变身"注意力侦探"的逻辑推理大脑
微软研究院联合多所知名高校开发出SeerAttention-R稀疏注意力框架,专门优化AI推理模型的长序列解码效率。该技术通过自蒸馏学习让AI学会智能筛选重要信息,在保持近乎无损推理准确性的同时,实现了高达9倍的计算加速。系统采用轻量级插件设计,无需重训原模型即可集成,为长文本AI推理应用的普及铺平道路。
至顶网
科技行者 2025-06-16 16:18:00
微软让AI学会"画像"用户:推荐系统变身贴心管家的秘密武器
微软研究团队开发了LettinGo框架,通过让AI用自然语言生成用户画像来改进推荐系统。该方法分三步:多模型探索生成多样化用户档案,通过实际推荐效果评估档案质量,最后用偏好对齐技术训练专门的档案生成器。在三个主要数据集上的实验显示,相比传统方法平均准确率提升20个百分点,且生成的档案更灵活、可解释性更强。
至顶网
科技行者 2025-06-26 10:12:25
激光雷达进入战国时代:速腾、禾赛双寡头与门外的野蛮人 | 芯流长文
理想MEGA车型上,公司与大疆本来作为供应商的A、B两点,双方共同竞争。在最终拍板之前,CEO专程找了一趟理想,答应能把价格给得更低,最终如愿以偿。
至顶网
芯流汽车 2024-10-30 11:04:32
字节跳动发布全球最快代码生成AI:2146倍速度碾压传统模型的秘密武器
字节跳动与清华大学联合发布的Seed Diffusion Preview是首个基于离散状态扩散的大规模代码生成模型,在H20 GPU上实现每秒2146标记的惊人生成速度,比同类模型快数倍。该模型通过创新的两阶段课程学习、在线策略优化和块级并行推理等技术,在保持高质量代码生成的同时大幅提升了推理速度,在多个代码评估基准上表现优异,为AI代码生成领域建立了新的性能标杆。
至顶网
科技行者 2025-08-08 11:53:55
加州理工学院全新突破:让AI同时"看懂"文字、图片和3D世界的革命性技术
加州理工学院研究团队开发出名为Kyvo的突破性AI系统,首次实现文字、图像和3D空间信息的统一处理。该系统通过创新的"结构化3D表示法"和"统一token空间"技术,让AI能够同时理解和生成三种不同类型的信息。在四大核心任务(3D渲染、识别、指令跟随、问答)中表现出色,为设计、机器人、AR/VR等领域带来重要应用前景。
至顶网
科技行者 2025-06-16 09:43:01
当AI代理不再是纸上谈兵:斯坦福MIT等顶尖院校联合推出xbench,让AI真正走进职场的革命性测试平台
这项由18所顶尖高校联合开展的研究推出了革命性的AI代理评估平台xbench,彻底改变了传统以技术能力为中心的评测方式,转而采用真实职业场景的实战检验。研究团队在招聘和营销两个专业领域构建了完整的评估体系,让AI代理像实习生一样直接承担真实工作任务,用实际成果证明商业价值。通过对九个主流AI代理的全面测试,发现不同模型在专业任务中的表现差异显著,技术评测高分未必转化为实用价值。
至顶网
科技行者 2025-06-24 10:11:42
AGI万字长文(上) | 2023回顾与反思
2023年大众对AI的看法从怀疑到认可,AGI(通用
人工
智能)的发展迅速,大模型展现出惊人的想象力和取悦能力。应用层尚未出现独角兽,创业者面临官方技术迭代的挑战。
至顶网
AIGC开放社区 2024-03-14 15:04:20
人大研究团队颠覆传统:不用巨型AI模型,也能轻松理解超长视频内容
这项由中国人民大学团队主导的研究提出了VideoDeepResearch框架,颠覆了长视频理解的传统方法。该系统采用文本推理模型配合多模态工具箱的设计,通过智能搜索策略实现对超长视频的
精准
理解,在多个权威测试中超越GPT-4o等顶级模型,同时显著降低计算成本,为视频AI应用开辟了新路径。
至顶网
科技行者 2025-06-18 09:54:28
当所有AI都败下阵来:剑桥大学团队推出史上最难视觉推理测试ZeroBench
剑桥大学研究团队创建了史上最难的AI视觉测试ZeroBench,包含100道精心设计的视觉推理题目。在这项测试中,包括GPT-4o、Claude、Gemini在内的20个全球最先进AI模型全部得了0分,暴露了当前AI在基础视觉理解上的严重缺陷。研究发现AI主要在计数、空间推理等基础任务上失败,而非逻辑推理能力不足。
至顶网
科技行者 2025-08-21 16:41:35
慕尼黑工业大学重磅发现:AI隐私保护与解释性能否双全?
慕尼黑工业大学研究团队首次系统性探讨了AI系统中隐私保护与解释性之间的关系,发现两者并非完全对立。通过对三种差分隐私方法和四种解释技术的大规模实验,研究证明在特定条件下适度隐私保护可提升解释质量,并提出了实用的平衡策略和"甜蜜点"配置方案。
至顶网
科技行者 2025-08-19 10:19:47
AI教父弗里·辛顿学术讲座:AI正在以我们想象不到的方式变得比人类更聪明
辛顿首度访华,揭秘AI超越人类的必然性:数字智能将接管一切,神经网络已彻底颠覆传统逻辑范式。
至顶网
至顶AI实验室 2025-07-29 14:26:43
AI人体运动生成技术新突破:澳洲国立大学团队让机器从零开始学会"随音起舞"与"看文生动"
澳洲国立大学团队开发的Motion Anything系统实现了AI动作生成的重大突破,能够根据文字、音乐或两者组合自动生成逼真的人体动作。该系统采用创新的注意力引导遮罩策略和双重变换器架构,在多个基准测试中显著超越现有方法,并创建了包含2153组数据的TMD数据集。这项技术为影视制作、游戏开发和虚拟现实等领域带来新的可能性。
至顶网
科技行者 2025-07-30 09:50:54
任何条件都能变成视频:国立新加坡大学联合快手发布Any2Caption,让AI视频生成更懂你的心思
这项研究首次提出了"任意条件到文字描述"的视频生成新模式,通过多模态大语言模型将用户的各种创意输入转化为结构化描述,再驱动现有视频生成系统。研究团队构建了包含33.7万实例的大规模数据集,并设计了创新的渐进式训练策略,实现了对图像、人体姿态、摄像机轨迹等多种条件的统一理解,显著提升了视频生成的可控性和质量。
至顶网
科技行者 2025-07-16 09:59:35
<
上一页
156
157
158
159
160
161
162
163
下一页
>
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7
京ICP证161336号 京公网安备11010802021500号