搜索准确率最高的计划软件【罔芷:——88pk·ee—

上海人工智能实验室发布OmniWorld：首个专为4D世界建模打造的大规模多领域数据集

上海人工智能实验室发布OmniWorld，这是首个专为4D世界建模设计的大规模多领域数据集。该数据集包含超过3亿帧数据，涵盖游戏、机器人、人类活动等多个领域，配备深度、相机位置、文本等多种标注。研究证明现有AI模型在复杂时空理解方面存在局限，而使用OmniWorld微调后性能显著提升，为自动驾驶、机器人、虚拟现实等应用发展奠定基础。

至顶网科技行者 2025-09-28 11:00:31

纽约大学团队重新定义机器人学习：用"接触点"替代语言指令，让机器人更懂物理世界

纽约大学等多家机构联合研究提出了接触锚定策略，用物理接触点替代语言指令来训练机器人。该方法仅用23小时演示数据就实现了抓取、开启和关闭三种基本操作，在零样本评估中比现有方法性能高出56%。研究团队还开发了轻量级仿真环境EgoGym加速模型迭代，并在多个机器人平台上验证了跨平台兼容性。这项工作为资源受限环境下的机器人学习提供了高效解决方案。

至顶网科技行者 2026-02-12 13:27:39

香港科技大学重磅发布Audio-FLAN：全球首个音频版"GPT"，让AI既能听又能创造

香港科技大学研究团队发布了Audio-FLAN，这是全球首个大规模音频指令训练数据集。该数据集涵盖语音、音乐、声音三大领域的80个任务，包含超过1亿个训练样本，首次实现了音频领域的统一指令学习。通过类似ChatGPT的训练方法，Audio-FLAN能够训练出既能理解又能生成音频的通用AI模型，有望推动音频人工智能从专业化工具向通用助手的转变。

至顶网科技行者 2025-08-20 18:06:21

北航大学团队推出Easy Dataset：让普通人也能制作AI训练数据的神奇工具

北航团队推出Easy Dataset框架，通过直观的图形界面和角色驱动的生成方法，让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能，在金融领域实验中显著提升了AI模型的专业表现，同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。

至顶网科技行者 2025-07-16 10:01:52

斯坦福大学和字节跳动联手打造：让AI生成超长视频不再是梦想

斯坦福大学和字节跳动联合研究团队开发出混合上下文（MoC）技术，革命性地解决了AI长视频生成中的记忆与计算难题。该技术将视频生成重新定义为信息检索问题，通过智能选择最相关历史信息，实现了85%稀疏化率，计算效率提升7倍，生成速度提升2.2倍，能稳定生成分钟级高质量连贯视频，为视频创作民主化开辟新路径。

至顶网科技行者 2025-09-04 09:59:17

TransPixeler：让透明视频生成变成现实，Adobe研究院破解RGBA视频生成难题

TransPixeler是由香港科技大学和Adobe研究院联合开发的AI视频生成技术，专门解决生成带透明效果（RGBA）视频的难题。该技术巧妙扩展现有视频生成模型，让AI能同时生成RGB颜色和Alpha透明度信息，避免了传统"先生成后提取"方法的缺陷。通过精心设计的注意力机制和训练策略，TransPixeler在有限数据下实现了高质量透明视频生成，为电影特效、游戏开发、VR/AR等领域提供了强大工具。

至顶网科技行者 2025-09-12 19:47:39

清华大学团队革命性突破：让AI模型运行速度提升3.67倍的"积木式"智能系统

清华大学团队推出BlockFFN架构，通过创新的稀疏激活技术和块级优化训练，实现了AI模型在端侧设备上3.67倍的加速效果。该技术采用ReLU路由器和RMSNorm设计，结合激活稀疏性和推测解码，在保持模型性能的同时大幅提升运行效率，为AI技术在移动设备上的普及应用开辟了新路径。

至顶网科技行者 2025-07-21 11:30:07

物理模拟也能"压缩"？Flatiron研究院探索AI模型如何在虚拟世界中偷懒却不失精度

Flatiron研究院团队探索了在压缩的"潜在空间"中进行物理模拟的新方法，发现即使压缩1000倍，AI模型仍能准确预测复杂物理现象如流体流动和湍流。研究对比了扩散模型和神经求解器两种方法，发现扩散模型不仅更准确，还能处理系统的不确定性。这项技术将物理模拟速度提升数十倍，为天气预报、工程设计等领域带来革命性改进。

至顶网科技行者 2025-07-11 09:49:32

医生的AI助手：CRISP-SAM2如何让CT扫描精准识别人体器官

杭州电子科技大学研究团队开发出CRISP-SAM2智能医学影像分析系统，能够结合文字描述和CT图像同时进行器官识别。该系统通过跨模态语义交互技术，无需医生手动提示即可精准分割18种人体器官，在七个数据集测试中表现优异，为医学影像诊断提供了新的AI解决方案。

至顶网科技行者 2025-07-07 12:16:40

谷歌DeepMind发布AlphaEvolve：会自己编程进化的AI智能体，破解56年未解数学难题

至顶网至顶AI实验室 2025-06-25 16:46:50

南洋理工大学重磅突破：让AI同时"造梦"第一视角视频和人体动作

新加坡南洋理工大学研究团队开发出EgoTwin系统，这是首个能够根据文字描述同时生成第一人称视频和匹配人体动作的AI框架。该系统通过创新的头部中心动作表示方法和因果交互机制，解决了视角对齐和动作画面同步的核心难题，在17万样本的真实数据集上实现了显著性能提升，为VR内容创作、影视制作等领域提供了新的技术可能。

至顶网科技行者 2025-08-29 14:08:39

电影产业的颠覆时刻：新加坡国立大学推出首个完全自动化的AI电影制作系统

新加坡国立大学研究团队开发出首个完全自动化的AI电影制作系统MovieAgent，能将简单剧本概要在2-10分钟内转换成完整多场景电影。系统采用三个AI智能体协作和内在思维链推理机制，成本几乎为零，在角色一致性、叙事连贯性等关键指标上达到业界领先水平，预示电影制作行业的革命性变革。

至顶网科技行者 2025-07-31 09:58:16

阿里巴巴推出ThinkSound：让AI像音效师一样"思考"创造声音

阿里巴巴联合香港科技大学和浙江大学开发的ThinkSound系统，通过引入思维链推理让AI学会像专业音效师一样思考和创作。该系统采用三步式交互流程，支持基础音景生成、物体定制和语言编辑，在多项评测中表现优异，有望降低音效制作门槛并提升创作效率。

至顶网科技行者 2025-07-02 11:24:54

加州大学伯克利分校的革命性突破：告别机器人昂贵示教，智能手机就能训练专业机器人

加州大学伯克利分校研究团队开发出革命性的R2R2R系统，仅需智能手机拍摄和一段演示视频，就能自动生成大量机器人训练数据。该系统绕过了传统昂贵的远程操作和复杂物理仿真，通过3D重建和智能轨迹生成技术，让机器人训练效率提升27倍，成本大幅降低，有望让高质量机器人技能变得像安装手机应用一样普及。

至顶网科技行者 2025-07-10 09:39:18

ByteDance智能创作团队推出划时代海报设计AI：CreatiPoster让人人都能成为设计师

ByteDance智能创作团队推出CreatiPoster，这是一个革命性的AI海报设计系统，用户只需文字描述就能生成专业级多图层可编辑海报。系统采用"双脑"架构：协议模型负责理解需求并制定详细设计方案，背景模型负责创造匹配的视觉背景。支持多种交互方式，包括纯文字输入、图片素材上传、画布编辑等。在与商业平台的对比评估中表现优异，并开源了10万样本数据集，真正实现了AI设计工具的民主化。

至顶网科技行者 2025-06-18 09:53:30

新加坡国立大学研究：什么样的提示词能让AI更聪明？揭秘人机对话的21个黄金法则

新加坡国立大学研究团队通过分析150多篇相关论文，首次建立了评估提示词质量的21属性框架。研究发现当前提示词研究存在严重不平衡，某些模型和任务被过度关注。通过969个高质量提示词样本分析，团队发现属性间存在强关联性。实验显示单一属性优化往往比多属性组合效果更佳，且用属性增强数据训练的模型表现显著提升。

至顶网科技行者 2025-06-17 15:23:05

预训练和强化学习就能AGI，我的朋友已经不涂防晒霜，Anthropic研究员Douglas：模型对全球GDP的影响类似中国崛起

至顶网高飞的电子替身 2025-05-28 18:09:26

机器人有了"第六感"：首尔大学让AI机器人学会在不确定时"看仔细点，做慢点"

首尔大学开发的SCALE技术让AI机器人具备了类似人类的"第六感"，能够感知自身的不确定程度并据此调整观察和行动策略。这项技术无需额外训练即可集成到现有机器人系统中，在复杂环境下的任务成功率提升显著，代表了机器人从被动执行向智能适应的重要转变。

至顶网科技行者 2026-02-11 15:57:47

上海AI实验室让机器人学会自己"找事做"：OS-Genesis项目颠覆GUI智能体训练方式

上海AI实验室联合多所知名大学推出OS-Genesis项目，创新性地提出"反向任务合成"方法来训练GUI智能体。该方法让AI先自由探索应用界面，观察操作效果，然后反推出训练任务，彻底改变了传统的预定义任务训练模式。实验显示，这种方法在AndroidWorld等复杂测试环境中将智能体成功率从9.82%提升到17.41%，接近翻倍的性能提升证明了探索式学习在GUI智能体训练中的巨大潜力。

至顶网科技行者 2025-09-18 11:08:19

吴恩达LangChain对话：别纠结Agent定义，成功的智能体往往从线性工作流开始，Vibe Coding这个概念充满误导

毫无疑问，Agent，也就是智能体已经预定了今年的最火AI关键词。不知道明年会不会是AGI呢，既然OpenAI和Anthropic的预测都是在2027年左右。而在Agent领域，非常有发言权的一位就是吴恩达。LangChain前不久的开发者活动Interrupt上，LangChain创始人Harrison Chase邀请了吴恩达专门做了一场对话

至顶网高飞的电子替身 2025-06-03 15:03:18