搜索博狗正网公司【網纸——YB233典CN—

ByteDance Seed研究团队发布BAGEL：探索统一多模态预训练中的涌现能力

ByteDance Seed团队发布的BAGEL是一个突破性开源基础模型，采用混合变换器专家架构，能同时执行多模态理解和生成任务。研究显示，随着训练数据和模型规模增加，BAGEL展现"涌现能力"—从基础理解和生成，到复杂编辑和自由形式视觉操作，再到长上下文推理，呈现能力阶梯式提升。模型在标准基准测试中超越现有开源统一模型，并显示出强大的世界建模能力，如世界导航和视频生成。研究团队开源了代码和模型检查点，为多模态AI研究开辟新方向。

至顶网科技行者 2025-05-26 08:20:53

马塞诸塞大学发现：AI助手正在网上"大嘴巴"，你的隐私信息可能已经泄露了

这项研究系统揭示了AI网络助手存在的严重隐私泄露问题，发现AI助手不仅通过文字还会通过行为泄露用户信息，且行为泄露的严重程度是文字泄露的5倍。研究提出SPILLAGE框架用于检测四种不同类型的隐私泄露，并发现移除无关个人信息实际上能提升AI助手17.9%的任务成功率，证明了隐私保护与功能效果可以相互促进。

至顶网科技行者 2026-02-26 14:59:07

ByteDance推出Seaweed-APT：1秒生成2秒高清视频，AI视频制作迈入实时时代

ByteDance研究团队开发出革命性的Seaweed-APT技术，实现了首个真正意义上的实时高清视频生成。该技术通过创新的对抗后训练方法，将传统需要25步和数分钟的视频生成过程压缩为单步1秒完成，能生成2秒长1280×720高清视频，视觉真实感提升37.2%。尽管在结构完整性方面存在一定权衡，但这项突破为AI内容创作、社交媒体、教育和娱乐等领域开启了实时视频生成的新时代。

至顶网科技行者 2025-09-15 14:43:48

宾夕法尼亚大学团队的AI"分叉术"：让人工智能学会像细胞一样分裂成长

这项研究首次让AI学会了类似生物细胞分裂分化的能力，能从单一起始状态预测并追踪多个不同的发展路径。该技术突破了传统AI只能处理单一结果的局限，在医疗诊断、药物研发和生物研究等领域展现出巨大应用潜力，为AI系统处理复杂现实问题开辟了全新道路。

至顶网科技行者 2025-06-16 14:07:34

香港中文大学团队让AI学会画图：从文字到精美矢量图的创作之路

香港中文大学团队开发出让AI学会矢量图形编程的创新方法，通过强化学习和跨模态奖励机制，成功将开源模型的绘图能力提升到商业级水平。研究建立了SGP-GenBench评估体系，发现AI不仅学会精确绘图，还发展出分层构建、创意补充等智能行为模式，为AI辅助设计开辟新路径。

至顶网科技行者 2025-09-23 13:38:07

rStar-Math：微软研究院让小型AI模型也能成为数学天才的训练秘籍

微软研究院推出rStar-Math系统，通过创新的"深度思考"训练方法，让小型AI模型在数学推理能力上达到甚至超越OpenAI o1水平。该系统采用代码验证、过程偏好模型和四轮自进化训练，将70亿参数模型的数学能力从58.8%提升至90.0%，在美国数学奥林匹克竞赛中达到前20%水平，证明了精巧方法比模型规模更重要，为AI发展开辟了新路径。

至顶网科技行者 2025-09-19 10:05:18

电脑视觉模型的"排序超能力"：图宾根大学团队发现AI能像人类一样给图片排序

德国图宾根大学研究团队发现现代AI视觉模型具备强大的图像排序能力，能够理解年龄、美观程度等连续属性并进行准确排序。研究测试了7种AI模型在9个数据集上的表现，发现CLIP模型表现最佳，且仅需极少样本就能学会排序。这一突破为照片管理、电商展示、社交媒体等领域提供了新的技术方案。

至顶网科技行者 2025-07-17 11:40:42

FlashAdventure基准测试：首个评估AI代理完成游戏完整故事任务的挑战平台

这项由首尔国立大学等机构开展的研究创建了首个专门评估AI代理完成游戏完整故事任务的基准平台FlashAdventure。研究发现当前最先进的AI代理在复杂冒险游戏中成功率仅为5.88%，远低于人类的97.1%。为此提出了COAST框架来改进AI的长期记忆和推理能力。

至顶网科技行者 2025-09-22 10:47:40

字节跳动AI团队推出UNO：图像"魔法师"实现从一到多主题的自由创作

字节跳动AI团队推出的UNO系统实现了图像生成领域的重要突破，能够根据参考图片生成新场景，并首次很好地解决了多主题图像生成的技术难题。该系统采用创新的渐进式训练策略和自动化数据生成技术，在保持参考物体特征的同时实现了灵活的场景创作，为创意产业提供了强大的AI辅助工具。

至顶网科技行者 2025-07-14 09:48:45

LMU Munich等机构重磅突破：让超级AI助手在手机上安家的全新联邦学习技术

这项由德国慕尼黑大学等机构联合完成的研究提出了FedNano框架，创新性地解决了多模态大语言模型在联邦学习中的部署难题。通过将模型拆分为服务器端核心和客户端轻量级NanoEdge模块，结合Fisher合并技术处理数据异质性，实现了95%的存储减少和99%的通信优化，同时保持了优异性能，为AI技术的普及化应用开辟了新路径。

至顶网科技行者 2025-06-24 15:44:05

南洋理工大学重磅突破：让AI同时"造梦"第一视角视频和人体动作

新加坡南洋理工大学研究团队开发出EgoTwin系统，这是首个能够根据文字描述同时生成第一人称视频和匹配人体动作的AI框架。该系统通过创新的头部中心动作表示方法和因果交互机制，解决了视角对齐和动作画面同步的核心难题，在17万样本的真实数据集上实现了显著性能提升，为VR内容创作、影视制作等领域提供了新的技术可能。

至顶网科技行者 2025-08-29 14:08:39

腾讯团队让AI学会在游戏中边玩边学：从"知道"到"会做"的智能飞跃

腾讯研究团队提出Think-In-Games（TiG）框架，成功解决大语言模型"知道但不会做"的核心问题。该方法通过让AI在《王者荣耀》游戏中实际互动学习，将强化学习与语言模型优势结合，使AI既能做出正确决策又能解释推理过程。实验显示14B参数小模型性能超越671B大模型，证明了专门化训练的有效性。

至顶网科技行者 2025-10-10 09:56:14

仅需9美元：南加州大学团队开发"超小型"推理模型，挑战大型AI的成本壁垒

南加州大学团队开发出革命性的"Tina"AI模型，仅用9美元训练成本就能达到与昂贵大型模型相媲美的数学推理能力。通过LoRA技术和15亿参数的精简设计，该研究将AI推理模型的训练成本降低了260倍，实现了真正的AI技术民主化，让个人研究者和小型团队也能负担得起高质量推理模型的开发。

至顶网科技行者 2025-07-15 11:36:00

中科大联合百度开发的S2K框架：让大语言模型秒变专业领域问答专家

中科大和百度联合研究团队开发了S2K框架，这是一种创新的大语言模型专业领域适配技术。该框架通过智能的内外部知识融合机制和分阶段训练策略，仅用传统方法1%的训练数据就能让通用模型在医学、法律、金融等专业领域达到专家级问答水平，为人工智能在专业领域的高效应用提供了新的解决方案。

至顶网科技行者 2025-09-03 12:28:18

伊利诺伊大学香槟分校团队推出SWERANK：用聪明排序替代昂贵AI助手，让软件调试变得又快又省钱

伊利诺伊大学香槟分校团队推出SWERANK软件问题定位框架，通过"先筛选再精排"的两阶段策略，以极低成本实现了超越昂贵AI助手的问题定位准确性。团队构建的SWELOC数据集为训练提供了高质量的真实案例，实验证明该方法在成本效益比上比现有方案高出57倍，为软件开发行业提供了实用且经济的调试解决方案。

至顶网科技行者 2025-07-10 09:30:53

威斯康星大学发现多模态检索新突破：让AI不再"瞎猜"，而是真正理解你想要什么

威斯康星大学麦迪逊分校联合国民大学和NetApp公司发表的这项研究，通过将复杂的多模态检索任务分解为"理解"和"匹配"两个阶段，有效解决了传统系统在处理模糊查询时的失败问题。研究在M-BEIR基准测试中取得显著性能提升，特别是在知识密集型任务中表现突出，为信息检索技术的发展指明了"数据质量优于模型复杂度"的新方向。

至顶网科技行者 2026-02-11 13:01:47

香港大学与字节跳动联手打造的Goku：让AI同时掌握图片和视频生成的"变形金刚"

香港大学与字节跳动联合开发了名为Goku的AI模型，能够同时生成高质量图片和视频。该模型采用修正流技术和统一训练架构，使用1.6亿张图片和3600万段视频训练，在多项评测中达到业界领先水平，在VBench视频测试中获得84.85分，GenEval图片测试中达到0.76分，展现了AI视觉生成技术向通用化发展的新趋势。

至顶网科技行者 2025-08-25 14:27:23

哈佛大学研究突破：训练AI时"删除"不良概念，让模型变得更安全可靠

哈佛大学研究团队开发出革命性的"概念消融微调"技术，能在AI训练过程中精准识别并移除有害概念，就像外科手术般精确。该技术成功解决了AI"意外学习"问题，让模型在掌握目标技能的同时避免不良行为，有害响应率降低90%。这为创造更安全可靠的AI系统提供了新路径。

至顶网科技行者 2025-07-28 10:15:58

Skywork AI团队：一个1.5B参数的小模型如何同时掌握图像理解、生成和编辑三项绝技

Skywork AI团队开发出参数仅1.5亿的统一多模态模型Skywork UniPic，能同时完成图像理解、文字生成图像和图像编辑三项任务。该模型采用创新的双编码器架构，在多个基准测试中达到先进水平，且能在消费级硬件上运行，为多模态AI的普及化应用提供了新方案。

至顶网科技行者 2025-08-08 11:54:22

加州理工学院全新突破：让AI同时"看懂"文字、图片和3D世界的革命性技术

加州理工学院研究团队开发出名为Kyvo的突破性AI系统，首次实现文字、图像和3D空间信息的统一处理。该系统通过创新的"结构化3D表示法"和"统一token空间"技术，让AI能够同时理解和生成三种不同类型的信息。在四大核心任务（3D渲染、识别、指令跟随、问答）中表现出色，为设计、机器人、AR/VR等领域带来重要应用前景。

至顶网科技行者 2025-06-16 09:43:01