搜索博狗正网公司【網纸——YB233典CN—

蒙特利尔理工大学重磅推出：让AI也能像人类一样"看懂"复杂表格的神奇数据集

蒙特利尔理工大学研究团队开发了Visual-TableQA数据集，通过多AI协作生成2500个复杂表格和6000个推理问答对，仅成本不到100美元。该数据集专门训练AI理解表格图像的视觉布局和复杂推理，实验显示微调后的模型在多个基准测试中超越专有模型，为AI视觉推理能力带来重大突破。

至顶网科技行者 2025-09-26 13:55:11

滑铁卢大学科学家发明神奇AI：仅凭声音就能生成开口说话的逼真视频

这项研究展示了一种革命性的AI技术，能够仅通过音频生成高度逼真的说话视频。滑铁卢大学研究团队开发的Audio2Photoreal系统巧妙结合了深度学习、扩散模型等先进技术，实现了声音到面部动作的精准转换。该技术在影视制作、在线教育、新闻媒体等领域具有广阔应用前景，将大幅降低视频制作成本和门槛。虽然仍面临计算资源需求高、隐私安全等挑战，但其突破性创新为未来视频内容创作开辟了全新路径。

至顶网科技行者 2025-08-27 10:31:20

Google DeepMind推出Gemma 3：轻量级多模态AI模型的革命性突破

Google DeepMind发布Gemma 3多模态AI模型家族，参数量从1B到27B，支持文字、图片理解和多语言处理，可在普通设备运行。创新的5:1注意力架构将内存消耗降低75%，支持128K长文档处理。在多项测试中表现优异，27B版本在聊天机器人竞技场排名第9，超越了许多更大规模的模型，实现了AI技术的真正民主化。

至顶网科技行者 2025-08-01 10:13:44

2026年，AI“硬着陆”

AI 向边缘侧延伸。

至顶网毛烁 2026-02-27 13:35:39

NVIDIA推出颠覆性研究工具：让任何人都能定制自己的AI研究助手

NVIDIA Research推出了革命性的UDR系统，让用户可以完全自定义AI研究助手的工作策略。该系统解决了传统研究工具固化、难以专业化定制的问题，支持任意语言模型，用户可用自然语言编写研究策略，系统自动转换为可执行代码。提供三种示例策略和直观界面，实现了AI工具的民主化定制，为专业研究和个人调研提供了前所未有的灵活性。

至顶网科技行者 2025-09-19 11:08:03

香港中文大学推出Dispider：让视频AI像人一样"边看边聊"的革命性突破

香港中文大学联合上海AI实验室推出Dispider系统，首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计，将感知、决策、反应功能独立分离，让AI能像人类一样在观看视频过程中进行实时交流，在StreamingBench测试中显著超越现有系统，为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。

至顶网科技行者 2025-09-15 14:44:25

威斯康星大学和Salesforce联合推出技能编排框架：让AI智能体像指挥家一样完美协调

威斯康星大学和Salesforce联合推出SkillOrchestra框架，通过技能感知编排让多个AI模型智能协作。该系统建立技能手册记录各AI的专长和成本，根据任务需求动态选择最合适模型。实验显示准确率提升22.5%，成本降低数百倍，并解决了传统方法的路由崩塌问题，技能手册还可在不同系统间迁移使用。

至顶网科技行者 2026-03-02 11:35:13

从一个工具到多个专家助手：字节跳动和浙江大学团队如何让AI创作图文内容变得"身怀绝技"

这项由浙江大学和字节跳动联合完成的研究提出了LLM-Interleaved（LLM-I）框架，突破了现有AI图文创作系统的"单工具"瓶颈。该系统让大语言模型充当智能指挥官，根据需求调用在线搜索、图像生成、代码执行、图像编辑四种专业工具。通过创新的三重强化学习奖励机制训练，LLM-I在四个基准测试中均取得显著超越现有方法的表现，特别是在自建的LLMI-Bench基准上比GPT-4o高出25个百分点，工具调用成功率达到100%。

至顶网科技行者 2025-09-30 10:50:59

800个书呆子（Nerd），如何在邮轮上办一场亚文化的趴体？

这是我跟“书呆子”们共度的一段旅程，这场游轮探险不只是对极客文化的致敬，更是对经典社会等级的彻底颠覆。

至顶网海外来电 2022-12-11 16:24:48

韩国KAIST团队首次解决文字图像修复难题，让老照片上的模糊文字重获新生

韩国KAIST团队首次提出文字感知图像修复技术，解决了传统图像修复无法准确恢复文字内容的难题。研究构建了包含10万张图像的SA-Text数据集，开发了TeReDiff模型，通过三阶段训练和智能提示机制，实现图像修复与文字识别的协同工作。实验显示该技术在文字识别准确率上比传统方法提升15-20%，为历史文献保护、档案数字化等领域提供了重要解决方案。

至顶网科技行者 2025-06-17 13:13:40

苹果研究院首创AI音频技术：让声音拥有记忆力，语音助手即将迎来智能化革命

苹果公司研究团队开发出革命性语音AI技术RealTimeVoice，首次实现语音助手的完美记忆力和实时对话能力。该技术通过流式音频处理和创新的记忆缓存机制，让AI能够记住完整对话历史的同时保持快速响应，反应速度比传统系统提升一倍。这项突破将彻底改变人机语音交互体验，让数字助手真正成为理解用户的智能伙伴。

至顶网科技行者 2025-08-20 18:04:48

《数字经济洞察周报》2023年第18期 |全球生成式AI产业图谱及报告在第七届世界智能大会发布

第七届世界智能大会成功召开，全球生成式AI产业图谱及报告发布。

至顶网孙硕，吕敬儒 2023-05-26 17:10:33

抖音团队打造全新视觉语言AI：SAIL-VL2以小博大，2B参数也能媲美大模型

抖音SAIL团队联合新加坡国立大学开发的SAIL-VL2多模态AI模型，以2B-8B的紧凑参数实现了超越大型模型的性能。通过精心的数据筛选、渐进式训练和架构优化，在106个数据集测试中表现卓越，其中2B版本在4B以下开源模型中排名第一，8B-Thinking版本在推理任务上达到开源第一。该模型证明了"小而精"的发展路径，为AI技术的普及和高效部署提供了新思路。

至顶网科技行者 2025-09-29 14:30:19

StepFun团队发布NextStep-1：让机器像人类一样逐步生成图像的新突破

StepFun团队发布的NextStep-1代表了AI图像生成领域的重要突破，采用自回归方式逐步生成图像，像艺术家作画般一点点构建视觉内容。这个14B参数的模型在多项测试中表现优异，不仅能高质量生成图像，还具备强大的编辑能力，为AI创作工具的发展开辟了新方向。

至顶网科技行者 2025-08-19 10:19:29

性能炸裂深度评测RTX 3080新卡皇

看看在实际测试中GeForce RTX 3080的表现。

至顶网风望月 2020-09-17 17:39:49

谷歌突破性发现：AI训练时"偷懒"反而更聪明——随机遮挡参数更新的神奇效应

这项由西北大学和谷歌联合完成的研究颠覆了AI训练的传统观念，发现让模型在训练时"偷懒"——随机跳过一半参数更新，竟能获得更好效果。研究团队开发的Magma算法通过智能判断梯度与动量的一致性来决定更新策略，在10亿参数模型上相比传统方法降低了19%的困惑度，为大型语言模型训练提供了简单高效的新工具。

至顶网科技行者 2026-02-26 09:46:01

人工智能终于学会说话了？阿里巴巴等机构突破语音理解技术壁垒！

阿里巴巴等机构联合发布LLaSO框架，这是首个完全开放的端到端语音理解系统。该框架包含2550万训练样本、20种语音任务，支持多模态交互，在标准化评估中获得0.72分，超越同类系统。LLaSO不仅提供完整数据和代码，还建立了统一评估标准，为语音AI研究提供了重要基础设施，推动了从语音识别向全面语音理解的技术跃升。

至顶网科技行者 2025-08-29 09:32:22

SAE-Tuning：南加州大学团队让AI推理能力像积木一样灵活组装

南加州大学研究团队开发了革命性的SAE-Tuning技术，能够像"移植手术"一样将AI推理能力从一个模型转移到另一个模型。该方法将传统推理训练的成本从数千美元降至约1美元，时间从数百小时缩短至20分钟，效果却毫不逊色。更令人惊讶的是，这种推理能力具有跨领域通用性和模块化特性，可以像插件一样即插即用，为AI能力的民主化和模块化发展开辟了新道路。

至顶网科技行者 2025-06-18 09:53:08

像人类需要疫苗一样，AI模型也需要"免疫"：Vector研究所提出模型免疫方法对抗虚假信息

这项由加拿大Vector研究所领导的研究提出了"模型免疫"概念，通过让AI模型在训练过程中接触已标记的虚假信息，增强其辨别和拒绝类似虚假内容的能力。类比人类疫苗接种原理，研究者在微调阶段向模型注入约5-10%的已标记错误内容作为"疫苗"。初步实验表明，免疫后的模型处理虚假信息的能力从60%提升至78%，同时保持了常规任务性能。研究团队还设计了严格的伦理与治理框架，确保虚假内容使用安全。这一方法为提高AI系统的事实准确性提供了预防性解决方案。

至顶网科技行者 2025-06-02 12:17:13

天津大学团队让AI生成动作快如闪电：MotionFlux让虚拟角色动起来只需毫秒

天津大学研究团队开发的MotionFlux系统通过矫正流匹配技术和TAPO偏好对齐优化，实现了毫秒级的实时文字到动作生成。该系统在保持高质量动作生成的同时，将推理速度提升了数千倍，在语义对齐准确率上也显著优于现有方法，为游戏、虚拟现实、教育培训等领域的实时应用奠定了技术基础。

至顶网科技行者 2025-09-03 14:09:55