搜索 bob手机在线【網纸——YB233典CN—

威斯康星大学发现多模态检索新突破：让AI不再"瞎猜"，而是真正理解你想要什么

威斯康星大学麦迪逊分校联合国民大学和NetApp公司发表的这项研究，通过将复杂的多模态检索任务分解为"理解"和"匹配"两个阶段，有效解决了传统系统在处理模糊查询时的失败问题。研究在M-BEIR基准测试中取得显著性能提升，特别是在知识密集型任务中表现突出，为信息检索技术的发展指明了"数据质量优于模型复杂度"的新方向。

至顶网科技行者 2026-02-11 13:01:47

香港大学与字节跳动联手打造的Goku：让AI同时掌握图片和视频生成的"变形金刚"

香港大学与字节跳动联合开发了名为Goku的AI模型，能够同时生成高质量图片和视频。该模型采用修正流技术和统一训练架构，使用1.6亿张图片和3600万段视频训练，在多项评测中达到业界领先水平，在VBench视频测试中获得84.85分，GenEval图片测试中达到0.76分，展现了AI视觉生成技术向通用化发展的新趋势。

至顶网科技行者 2025-08-25 14:27:23

Sber AI团队突破视频生成瓶颈：让超高清视频制作快2.7倍的神奇算法

俄罗斯Sber AI团队开发出NABLA算法，通过邻域自适应块级注意力机制实现AI视频生成2.7倍加速。该算法采用三步优化：降维侦察、智能筛选和精确映射，动态识别重要注意力区域，在保持视频质量的同时大幅减少计算开销，为高效AI视频生成提供新解决方案。

至顶网科技行者 2025-07-29 17:15:17

加州理工学院全新突破：让AI同时"看懂"文字、图片和3D世界的革命性技术

加州理工学院研究团队开发出名为Kyvo的突破性AI系统，首次实现文字、图像和3D空间信息的统一处理。该系统通过创新的"结构化3D表示法"和"统一token空间"技术，让AI能够同时理解和生成三种不同类型的信息。在四大核心任务（3D渲染、识别、指令跟随、问答）中表现出色，为设计、机器人、AR/VR等领域带来重要应用前景。

至顶网科技行者 2025-06-16 09:43:01

华为徐直军：共成长同发展

华为轮值董事长徐直军在会上做了题为《共成长同发展》的主题演讲。发言全文共9000余字，主要分为两部分。

至顶网科技行者 2021-05-19 14:44:27

慕尼黑工业大学重磅发现：AI隐私保护与解释性能否双全？

慕尼黑工业大学研究团队首次系统性探讨了AI系统中隐私保护与解释性之间的关系，发现两者并非完全对立。通过对三种差分隐私方法和四种解释技术的大规模实验，研究证明在特定条件下适度隐私保护可提升解释质量，并提出了实用的平衡策略和"甜蜜点"配置方案。

至顶网科技行者 2025-08-19 10:19:47

StepFun发布Step-Audio 2：让AI像人类一样自然对话，首个真正懂"言外之意"的语音助手

StepFun团队发布了突破性语音AI系统Step-Audio 2，这是首个真正实现端到端语音对话的模型，能直接处理语音而无需文字转换。该系统不仅能理解语言内容，还能感知情绪、语调等副语言信息，并用自然的语音回应。通过8百万小时语音数据训练，在多项测试中超越GPT-4o等商业系统，代表了人机交互技术的重大进步。

至顶网科技行者 2025-07-28 10:58:19

钉钉十年，无招终于等来了AI这把“锤子”

“老朋友们，在这里能见到，非常高兴，好久不见。”陈航一袭黑衣，开场白简单亲切，距离他回归钉钉，仅过去了四个月。这短短的120天，他和他的团队几乎是在以一种“战时状态”做高强度的筹备，只为在钉钉十周岁生日这天，交出或许能定义下一个十年的答卷。

至顶网周雅 2025-08-26 11:13:47

钉钉十年，无招终于等来了AI这把“锤子”

“老朋友们，在这里能见到，非常高兴，好久不见。”陈航一袭黑衣，开场白简单亲切，距离他回归钉钉，仅过去了四个月。这短短的120天，他和他的团队几乎是在以一种“战时状态”做高强度的筹备，只为在钉钉十周岁生日这天，交出或许能定义下一个十年的答卷。

至顶网周雅 2025-08-25 23:54:42

阿里达摩院VACE：一个模型搞定所有视频创作，从文字到视频再到精细编辑全包了

阿里达摩院推出VACE系统，这是首个能够统一处理文字转视频、视频编辑、遮罩编辑等12种视频任务的AI模型。通过创新的视频条件单元(VCU)和上下文适配器架构，VACE不仅能单独完成各类视频生成编辑任务，还支持任务组合创造出传统方法无法实现的效果，为视频创作提供了革命性的一站式解决方案。

至顶网科技行者 2025-08-01 10:14:02

机器人终于会"想"再"动"了——艾伦人工智能研究院的MolmoAct模型让机器人拥有空间推理能力

艾伦人工智能研究院开发的MolmoAct是首个开源的机器人空间推理模型，通过"看懂-规划-执行"三步思考法让机器人具备类人的空间理解能力。它不仅在多项基准测试中表现优异，还支持直观的视觉轨迹调教，用户可直接在屏幕上画线指导机器人行为。研究团队完全开源了模型、代码和数据集，为全球机器人研究提供强大基础平台。

至顶网科技行者 2025-08-14 10:29:17

变形金刚也能偷师学艺？斯坦福研究员揭秘AI模型如何无需"改造"就能获得新技能

斯坦福研究员发现，AI模型无需复杂"改造"就能获得新技能，只需观察少量例子即可模仿专业训练效果。这种"情境学习"方法大幅降低了AI应用门槛，文本生成需数千例子，分类任务仅需数百例子，有望让普通用户轻松定制专属AI助手，推动AI技术民主化进程。

至顶网科技行者 2025-06-17 13:13:19

伊利诺伊大学新突破：让AI像搭积木一样改变照片中的物体位置

伊利诺伊大学研究团队开发出"生成式积木世界"系统，通过将照片分解成3D几何积木，让用户能够直观地编辑图像中物体的位置、大小和角度，同时保持原有质感。该技术突破了传统图像编辑在3D空间操作上的限制，为专业设计和普通用户提供了全新的创作工具。

至顶网科技行者 2025-07-01 14:15:47

吴声年度演讲全文：新物种时代的场景战略

2021年8月15日，一年一度的“新物种爆炸·吴声商业方法发布2021”如约而至，以下为《吴声造物》梳理的演讲全文。

至顶网业界供稿 2021-08-16 17:37:20

复旦大学团队让机器人学会"速成版"人体姿态计算：从反复试错到一次搞定的神奇突破

复旦大学与上海人工智能实验室联合开发的Learnable SMPLify技术，将传统人体姿态计算的耗时从12秒缩短至0.06秒，实现200倍速度提升。该方法通过神经网络学习姿态转换规律，摒弃传统反复优化策略，采用时间序列数据构造、人体中心坐标标准化和残差学习等创新设计，在保持高精度的同时大幅提升计算效率，为VR、游戏制作、体育训练等领域提供实用解决方案。

至顶网科技行者 2025-08-29 14:08:25

微软团队让AI聊天更快更省钱：SIGMA模型把计算机系统管理变成会说话的智能助手

微软团队开发的SIGMA是首个专为系统域任务设计的高效大语言模型，通过创新的DiffQKV注意力机制在保持性能的同时大幅提升推理效率，在长文本场景下速度提升达33.36%。该模型在系统管理任务上的表现全面超越GPT-4，为AI在专业技术领域的应用开辟了新路径。

至顶网科技行者 2025-09-17 10:02:32

上海AI实验室的新突破：让你用键盘控制的虚拟世界探险家YUME

上海AI实验库推出YUME系统，用户只需输入一张图片就能创建可键盘控制的虚拟世界。该系统采用创新的运动量化技术，将复杂的三维控制简化为WASD键操作，并通过智能记忆机制实现无限长度的世界探索。系统具备强大的跨风格适应能力，不仅能处理真实场景，还能重现动漫、游戏等各种艺术风格的虚拟世界，为虚拟现实和交互娱乐领域提供了全新的技术路径。

至顶网科技行者 2025-07-28 15:33:14

福布斯盘点：2018年人工智能50个预测

2018年人工智能仍然处于炒作周期顶端，这么预测是比较保险的。但是下面的50个预测显示，人工智能将变得更加实用、更加有用，实现一些工作的自动化，扩大其他很多工作的范围，再加上利用机器学习和大数据获得新鲜的见解，还有企业中聊天机器人越来越多等因素。

至顶网 Forbes 2018-01-01 17:40:58

上海AI实验室让机器人学会自己"找事做"：OS-Genesis项目颠覆GUI智能体训练方式

上海AI实验室联合多所知名大学推出OS-Genesis项目，创新性地提出"反向任务合成"方法来训练GUI智能体。该方法让AI先自由探索应用界面，观察操作效果，然后反推出训练任务，彻底改变了传统的预定义任务训练模式。实验显示，这种方法在AndroidWorld等复杂测试环境中将智能体成功率从9.82%提升到17.41%，接近翻倍的性能提升证明了探索式学习在GUI智能体训练中的巨大潜力。

至顶网科技行者 2025-09-18 11:08:19

BlenderFusion：谷歌DeepMind让普通图片秒变3D魔法工场

这项由谷歌DeepMind研究团队开发的BlenderFusion技术，实现了将普通2D照片转换为可精确编辑的3D场景的突破。该系统通过三步流程：物体分层提取、Blender 3D编辑、生成式合成，解决了传统图像编辑中控制精度与真实感之间的矛盾，支持多物体操作、材质修改、场景重组等复杂编辑任务。

至顶网科技行者 2025-07-01 15:52:58