搜一下
用了 0.048486秒,为您找到
北京
pk
精准
人工
计划
软件
網纸
YB233
相关内容3540 条
港大团队首次提出推理能力评估基准,让AI画图不再"按字面意思理解"
香港大学联合香港中文大学研究团队首次提出T2I-ReasonBench基准,系统评估AI绘图模型的推理能力。研究发现当前开源模型在处理习语理解、设计规划、知识推理和科学常识等需要深度思考的任务时表现严重不足,平均得分不到50分,而商业模型如GPT-Image-1表现相对较好但仍有提升空间。该研究揭示了AI绘图技术从"按字面理解"向"智能推理"发展的迫切需要。
至顶网
科技行者 2025-09-01 15:52:18
直击CoRL| 跨越“Sim-to-Real”天堑 NVIDIA解锁物理AI“全景图”
NVIDIA推出全新开源模型、仿真库、工作流,加速机器人研发进程。
至顶网
毛烁 2025-09-30 12:13:55
浙江大学重磅发布KnowRL:让AI大模型拥有"知识边界"意识,告别胡编乱造时代
浙江大学联合腾讯AI实验室提出KnowRL方法,通过在强化学习中集成事实性奖励机制,有效解决慢思维AI模型在推理过程中的幻觉问题。该方法在保持原有推理能力的同时,显著提升了模型的事实准确性,为构建更可靠的AI系统提供了新思路。
至顶网
科技行者 2025-06-27 11:44:59
Meta实验室重磅发现:AI模型可以不用数据自我训练!语言模型的"自我对决"时代来临
Meta超级智能实验室研究团队提出了"语言自我对弈"训练方法,让AI模型通过内部竞争机制实现无数据自我训练。该方法将单个模型分为挑战者和解决者两个角色,通过互相博弈提升性能。实验显示,这种方法在不使用任何外部数据的情况下,达到了与传统数据驱动方法相当的效果,为解决AI训练数据稀缺问题提供了创新解决方案。
至顶网
科技行者 2025-09-22 14:54:10
Sber AI团队突破视频生成瓶颈:让超高清视频制作快2.7倍的神奇算法
俄罗斯Sber AI团队开发出NABLA算法,通过邻域自适应块级注意力机制实现AI视频生成2.7倍加速。该算法采用三步优化:降维侦察、智能筛选和精确映射,动态识别重要注意力区域,在保持视频质量的同时大幅减少计算开销,为高效AI视频生成提供新解决方案。
至顶网
科技行者 2025-07-29 17:15:17
美国能源部是这样拥抱AI技术的
凭借一系列研究、计算与资金实力,美国能源部正在率先推动对AI及其应用在各个行业中的相关研究。
至顶网
科技行者 2020-08-19 18:47:11
未来预测:从AI到AGI路径上的大规模智能爆发
本文深入分析了从传统AI发展到AGI过程中可能出现的智能爆发现象。基于AI专家共识的2040年AGI实现预期,文章探讨了七种主要发展路径,重点关注突破性的"登月路径"。智能爆发理论认为,智能可以像原子链式反应一样相互促进,快速产生大量新智能。文章预测2038-2039年可能发生智能爆发,随后在2040年实现AGI,但也指出了关于智能爆发的启动、控制和潜在风险等争议问题。
至顶网
Forbes 2025-07-01 23:02:07
香港大学团队开源全球首个完整电脑操作AI框架:让机器像人一样使用电脑的时代来了
香港大学XLANG实验室联合多所知名院校开发的OPENCUA,是全球首个完整开源的电脑操作AI框架。该系统通过2.2万个真实操作录像训练,具备三层推理能力,能像人一样使用电脑完成复杂任务。在权威测试中超越OpenAI同类产品,为电脑自动化技术树立了新标杆。
至顶网
科技行者 2025-08-15 08:26:56
Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。
至顶网
科技行者 2025-05-07 10:29:16
解锁通用AI新境界:华为云开年采购季让智能技术触手可及
通用AI是一种能够像人类一样进行思考、学习和推理的
人工
智能系统。
至顶网
业界供稿 2024-03-21 16:10:24
镜中陷阱:AI 伦理与人类想象力的崩溃
本文警示:AI仅复制人类表象,非真正创新;不断抹平人性瑕疵,削弱创新活力,迫切需要激发挑战与思辨的系统设计。
至顶网
Forbes 2025-04-28 14:19:24
FlowReasoner:新加坡Sea AI Lab团队让AI智能体系统实现"一人一策"的突破性研究
这是由新加坡Sea AI Lab等机构联合完成的突破性研究,提出了FlowReasoner查询级元智能体系统。该系统能为每个用户查询定制专门的多智能体解决方案,突破了传统"一套方案解决一类问题"的局限。通过推理能力结合外部执行反馈的强化学习,在多个代码生成基准上综合准确率达81.89%,相比o1-mini提升10.52%,代表了AI系统从标准化向个性化发展的重要转折。
至顶网
科技行者 2025-07-15 10:02:07
特斯拉首席AI科学家解释:自动驾驶汽车为何不需要激光雷达
特斯拉的选择是,不在自动驾驶堆栈当中使用激光雷达与高清地图。
至顶网
科技行者 2021-07-08 15:05:33
全球首个开源音视频同步生成模型!StepFun团队让AI直接创造带声音的视频
由StepFun等机构开发的UniVerse-1是全球首个开源音视频同步生成模型,采用创新的"专家缝合"技术融合视频和音频生成专家,配合在线标注流水线解决数据对齐问题,在7600小时训练数据上实现了协调的音视频内容生成,为开源社区提供了完整的技术方案和评估基准。
至顶网
科技行者 2025-09-22 10:25:59
谷歌研究院推出REFVNLI:AI生成图像的"火眼金睛"评判系统
谷歌研究院推出了名为REFVNLI的创新AI图像评估系统,专门解决主体驱动图像生成的质量评判难题。该系统能同时评估生成图像的文本对齐和主体保持两个关键维度,在多个基准测试中超越现有方法,特别是在物体识别方面领先6.3个百分点。通过巧妙的视频数据训练策略和先进的多模态架构,REFVNLI提供了成本效益高、准确性强的评估解决方案。
至顶网
科技行者 2025-07-15 11:36:43
AnyCap项目:清华大学团队打造的多模态字幕生成"魔法师",让AI
精准
理解你的个性化需求
清华大学团队推出AnyCap项目,通过轻量级"即插即用"框架解决多模态AI字幕生成缺乏个性化控制的问题。该项目包含模型、数据集和评估基准,能让现有AI系统根据用户需求生成定制化字幕,在不重训基础模型的情况下显著提升控制能力,为AI内容创作的个性化发展奠定基础。
至顶网
科技行者 2025-07-23 19:07:16
微软研究院突破:能看能编程的AI"达芬奇",让机器同时拥有眼睛和程序员的大脑
微软研究院开发的VisCodex实现了多模态AI的重要突破,通过创新的模型融合技术让AI同时具备视觉理解和编程能力。该系统采用任务向量融合方法,将视觉语言模型与编程模型巧妙结合,并构建了包含59.8万样本的多模态编程数据集。测试显示其性能已接近GPT-4o水平,为未来的智能编程辅助和低代码开发提供了新的可能性。
至顶网
科技行者 2025-08-18 13:56:13
BinauralFlow:元(Meta)团队开发的超高质量空间音频技术,让虚拟声音像真实世界一样环绕你的耳朵
Meta和罗切斯特大学研究团队开发的BinauralFlow是一种突破性双耳语音合成框架,通过流匹配模型实现高质量空间音频生成。该技术将双耳渲染视为生成任务而非传统回归问题,并创新性地设计了因果U-Net架构与连续推理管道,实现了流式推理能力。感知测试显示,生成的音频与真实录音几乎无法区分(42%混淆率)。这项技术为VR/AR、游戏和影视等领域提供了更沉浸式的音频体验解决方案。
至顶网
科技行者 2025-07-07 17:36:44
智能制造产业升级三大核心技术了解一下
何为智能制造行业的核心技术呢?又改怎样改善核心技术的硬实力,助推核心技术升级呢,我们今天就来分析一下。
至顶网
至顶网商用办公频道 2018-08-10 09:38:35
智能"放大镜":NVIDIA与UC Berkeley联手打造的图像视频
精准
描述新技术
想象一下,你正在浏览一张复杂的家庭聚会照片,想向视力障碍的朋友描述照片中特定人物的表情和姿态,或者你需要从监控视频中准确描述某个可疑物体的细节。在这些场景中,我们不仅需要描述整张图片或整段视频,更需要聚焦于特定区域,提供精确而详细的描述。
至顶网
科技行者 2025-04-24 14:23:27
<
上一页
149
150
151
152
153
154
155
156
157
158
下一页
>
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7
京ICP证161336号 京公网安备11010802021500号