搜索 ku游娱乐代理【網纸——YB233典CN—

拼图解密：KU Leuven团队探索视觉拼图的强化学习之旅

这项来自KU Leuven、中科大和上海Memory Tensor公司的研究探索了如何利用拼图游戏训练多模态大型语言模型的视觉推理能力。研究发现，现有模型在未经训练时表现近似随机猜测，但通过强化学习能达到近乎完美的准确率并泛化到更复杂的拼图配置。有趣的是，模型能否有效学习与是否包含明确推理过程无关，且复杂推理模式是预先存在而非突然出现的。此外，研究证明强化学习在泛化能力上优于监督微调，挑战了传统的模型训练范式。这些发现不仅揭示了AI视觉理解的机制，还为未来多模态模型研发提供了重要参考。

至顶网科技行者 2025-06-05 11:05:15

权威大咖、前沿课题、全链资源，第三届AIAED全球AI智适应教育峰会开幕在即

“人工智能+教育”行业面临的挑战不是市场有多大，而是如何实现技术、数据、以及内容方面的有效协同，建立规范化的教育新体系，将蛋糕做大的同时更要做美、做稳。

至顶网至顶网人工智能频道 2019-05-16 14:03:22

揭开真相：现有长视频理解评估其实靠猜？多伦多大学团队推出更公平的VideoEval-Pro评测基准

这项研究揭示了现有长视频理解评估基准的严重缺陷：过度依赖多选题导致结果膨胀，且许多问题存在先验偏好使模型无需真正理解视频就能作答。针对这些问题，多伦多大学团队开发了VIDEOEVAL-PRO基准，采用开放式短答案形式，真正要求理解整个视频。通过评估21个专有和开源模型，研究发现：视频模型在开放式问题上的表现比多选题下降超过25%，且多选题高分并不意味着开放式题高分。与其他基准不同，VIDEOEVAL-PRO随输入帧数增加持续提升性能，提供了更可靠的长视频理解能力评估方法。

至顶网科技行者 2025-05-26 08:16:36

骁龙圈粉，高通扩圈

扩圈，某种程度上正是高通的骁龙平台自2007年面世以来的真实成长写照，也是科技行者远赴夏威夷茂宜岛参与今年骁龙峰会感触最深的印象之一。

至顶网周雅 2023-10-31 18:54:08

ByteDance推出AetherCode：揭秘AI编程大赛中的真实差距有多大

ByteDance推出AetherCode基准测试，采用IOI、ICPC等顶级编程竞赛真题，并由67名专家设计高质量测试用例。结果显示最先进AI模型通过率仅35.5%，极难题目仅3.8%，揭示AI编程能力被严重高估。该研究为AI评估树立新标准，表明AI在复杂逻辑推理方面仍远落后人类，推理型模型优势明显，为未来AI发展提供重要指导。

至顶网科技行者 2025-08-29 12:05:31

腾讯推出"游戏制造器"：AI让你用键盘鼠标就能创造真实游戏世界

腾讯混元团队推出革命性AI系统Hunyuan-GameCraft，能根据键盘鼠标操作实时生成对应游戏画面。该系统统一处理各种输入信号，采用混合历史条件训练保持长期一致性，通过模型蒸馏实现近实时响应。基于100多款3A游戏数据训练，在控制精度和视觉质量上显著超越现有方法，为交互式内容创作开辟新路径。

至顶网科技行者 2025-06-25 13:30:48

ViStoryBench：一场可视化故事世界的大冒险——StepFun团队打造全面评估标准，帮你判断AI是否真懂讲故事

ViStoryBench是一个全面的故事可视化评估基准，由StepFun团队打造，用于测试AI将文字故事转化为连贯图像序列的能力。它包含80个多样化故事和344个角色参考，评估包括角色一致性、提示遵循度等多个维度。研究测试了20多种方法，发现UNO在开源方法中表现最佳，而商业软件如豆包和GPT-4o在提示一致性方面表现突出。该基准为故事可视化研究提供了统一标准，推动这一领域的创新发展。

至顶网科技行者 2025-07-07 17:38:18

一个纪录片导演的科技创业纪：“我们在建造可交互的三维世界”

媒体人善用的工具是媒介，而创业者善用的工具则是产品，看纪录片导演如何玩转三维产品。

至顶网至顶网软件与服务频道 2022-05-05 13:36:21

2022华为全球分析师大会：聚集当下和未来进行创新

华为第19届全球分析师大会在深圳开幕。

至顶网至顶网物联网频道 2022-04-26 17:22:03

UC圣迭戈大学AI新突破：破解复杂重叠布局的图像生成难题

这项UC圣迭戈研究首次系统解决了AI图像生成中的重叠布局难题。研究团队开发了OverLayScore评估指标和OverLayBench数据集，发现现有AI在复杂重叠场景中表现显著下降。他们提出的CreatiLayout-AM模型通过非模态掩码监督，让AI学会理解被遮挡物体的完整形状，在重叠区域生成精度上获得显著提升，为AI视觉生成技术发展提供了新的解决方案。

至顶网科技行者 2025-10-17 10:08:20

一个纪录片导演的科技创业纪：“银河威尔在建造可交互的三维世界”

媒体人善用的工具是媒介，而创业者善用的工具则是产品，看纪录片导演如何玩转三维产品。

至顶网周雅 2022-05-05 12:54:16

英特尔发布重大技术架构的改变和创新，面向CPU、GPU和IPU

这些新架构将为即将推出的高性能产品注入动力，并为英特尔的下一个创新时代奠定基础，以满足世界对高计算能力日益增长的需求。

至顶网业界供稿 2021-08-20 09:27:28

微软造出AI播音员，单次录制90分钟多人对话！VIBEVOICE如何重新定义语音合成？

微软研究院推出VIBEVOICE，这是一种革命性的AI语音合成技术，能够一次性生成长达90分钟的多人对话音频。该技术采用连续语音编码器实现3200倍压缩率，结合大语言模型和下一令牌扩散技术，支持最多4个说话者的自然对话生成。在多项评测中全面超越现有系统，为播客制作、有声读物等应用开辟新可能。

至顶网科技行者 2025-09-03 11:38:22

让视频大模型更聪明：哈工大团队开发的VerIPO让模型推理更深更长

哈工大（深圳）团队提出VerIPO方法，通过验证器引导的迭代策略优化提升视频大语言模型的长推理能力。该方法创新性地在GRPO和DPO训练阶段之间引入验证器，筛选高质量推理样本，有效解决了传统强化学习方法在推理链质量和上下文一致性方面的不足。实验表明，VerIPO训练的7B参数模型超越了包括Kimi-VL（16B）和Video-R1在内的更大模型，在VSI-Bench等基准测试中取得41.8%的准确率，同时生成更长、更一致的推理链，为视频大模型的深度推理能力培养提供了高效可行的新方法。

至顶网科技行者 2025-05-31 11:41:26

香港中文大学推出TalkVid：让AI说话视频告别偏见，覆盖全球各种人群的超大数据集

香港中文大学等机构联合发布TalkVid数据集，包含1244小时高质量说话视频，覆盖7729名不同背景说话者和15种语言。该数据集专门解决现有AI说话视频生成技术的种族、年龄、语言偏见问题。同时发布TalkVid-Bench评估基准，能够检测模型公平性。实验证明使用该数据集训练的模型在各群体上表现均衡，为构建更加公平包容的AI技术奠定基础。

至顶网科技行者 2025-09-05 11:26:53

ByteDance推出Hyper-Bagel框架：让AI理解和生成图像的速度提升20多倍

ByteDance研究团队推出Hyper-Bagel统一加速框架，通过分而治之策略同时优化多模态AI的理解和生成能力。该框架在理解任务上实现2倍加速，图像生成速度提升16.67-22倍，并开发出近实时的1-NFE模型，为AI实际应用扫清了重要的速度障碍。

至顶网科技行者 2025-10-13 15:14:08

2023《幻境法典》现世 AI大师NVIDIA施展十大现实“幻境”

NVIDIA2023年10大研究亮点，从CV到AI，从智能体到生成式AI。

至顶网毛烁 2024-02-05 13:53:32

声音能否分辨真假？约翰·霍普金斯大学突破性研究让AI秒识别合成语音

约翰·霍普金斯大学研究团队开发出突破性的少样本学习方法，用于检测AI合成语音。该方法通过自注意力原型网络，仅需10个样本就能快速适应新的语音伪造技术，在日语深度伪造检测中实现32%错误率相对减少。这项技术为应对日益复杂的声音欺诈提供了高效解决方案，有望应用于金融安全、司法取证等领域。

至顶网科技行者 2025-08-28 11:10:40

AniMaker：哈工大深圳团队让电脑变身动画导演，一句话就能拍出多角色动画片

这项由哈工大深圳与阿里巴巴联合研发的AniMaker系统，能够仅凭文字描述自动制作多角色动画片。系统采用四个AI智能体协作模式，模拟专业动画制作流程，引入蒙特卡洛树搜索算法优化视频片段选择，并首创AniEval动画专用评价体系。实验显示该系统在各项评价指标上均超越现有方法，为AI创意应用开辟新方向。

至顶网科技行者 2025-06-18 09:54:44

AI代理的智慧升级：蚂蚁集团"原子搜索者"如何用细致思考引领深度研究新时代

蚂蚁集团研究团队提出了革命性的"原子思考"AI框架Atom-Searcher，通过将复杂推理分解为细粒度功能单元，配合精细化奖励机制，让AI学会像人类专家般深度思考。该系统在七项基准测试中均达到最优表现，不仅能进行更深入的多步推理，还展现出强大的跨领域适应能力，为AI在科研、商业、教育等专业领域的应用开辟了新前景。

至顶网科技行者 2025-08-28 11:09:25