搜索大发玩大小单双的有人带么【罔芷:——88pk·ee—

从读图到懂图，AI+金融理解力新升级

OCR要落伍了？多模态大模型凭借端到端的图像识别与语义理解能力，正在颠覆传统 OCR 的应用逻辑，预示着图像识别与理解正迈向新一代的技术范式。

至顶网王聪彬 2025-09-12 15:49:08

康卡斯特和UCL联手：让语音识别模型学会"脑补"，仅凭文字就能适应新领域

康卡斯特和UCL研究团队开发了WhisTLE技术，解决语音识别模型在新领域适应中只能依赖昂贵语音数据的问题。该方法通过训练变分自编码器模拟语音编码器输出，实现仅用文本进行深度监督适应。实验显示平均降低12.3%词错误率，且推理时无额外计算成本，为跨域语音识别提供了高效实用的解决方案。

至顶网科技行者 2025-10-09 12:20:45

上海交大团队发布"画图变3D场景"神器：一张照片瞬间生成完整的三维世界

上海交通大学团队开发的SceneGen系统能够从单张照片自动生成完整3D场景，包含准确的几何结构、逼真纹理和正确的空间关系。该技术在两分钟内完成场景重建，几何精度比现有方法提升76%，为游戏开发、室内设计、虚拟现实等领域提供了革命性的内容创建工具，代码已开源供研究使用。

至顶网科技行者 2025-08-28 14:52:56

VF-EVAL：评测多模态大语言模型为AI生成视频提供反馈的能力

这项由中国科学院大学、新加坡国立大学、浙江大学和耶鲁大学研究人员联合发表的研究提出了VF-EVAL，一个专门评估多模态大语言模型对AI生成视频提供反馈能力的新基准。研究通过四项任务：连贯性验证、错误感知、错误类型检测和推理评估，全面测试模型理解合成视频的能力。研究发现即使是最先进的GPT-4.1模型也难以在所有任务上保持良好表现，表明AI对生成视频的理解仍有巨大提升空间。研究还通过REPROMPT实验证明，将大模型反馈与人类偏好更好地对齐可以显著提升视频生成质量。

至顶网科技行者 2025-06-03 13:33:15

华为诺亚方舟实验室新突破：揭秘大模型"说话"的数学原理

华为诺亚方舟实验室联合伦敦大学学院发布突破性研究，首次用统一数学框架解释大语言模型的所有解码策略。研究揭示贪心、Softmax、Top-K等方法本质上都在解决同一优化问题，并基于此开发出Best-of-K新方法，在多轮对话场景中显著提升性能，数学推理准确率提升18.6%。

至顶网科技行者 2026-02-24 10:36:04

Spotify科学家破解推荐系统难题：用一套"语义身份证"让搜索和推荐完美融合

Spotify研究团队通过系统性实验发现，传统为搜索或推荐任务单独优化的语义身份证在统一系统中存在严重的性能冲突。他们提出的多任务训练方法能够同时学习查询匹配和用户行为预测，为每个物品生成既适合搜索又适合推荐的统一身份证，在两个任务中都达到良好平衡效果，为构建下一代生成式推荐系统提供了重要技术路径。

至顶网科技行者 2025-08-28 11:07:03

大型语言模型也能"节食减肥"：ISTA研究团队突破1位量化训练极限

奥地利科学技术研究所开发的QuEST方法实现了大型语言模型在极低精度下的稳定训练突破。该方法通过哈达玛变换和信任梯度估计器，成功将量化训练的精度极限从8位推进到4位，甚至实现1位精度的稳定训练。实验显示4位QuEST模型在相同资源下超越16位传统模型，运行速度提升达2.4倍，为AI模型的高效部署提供了新解决方案。

至顶网科技行者 2025-08-21 16:40:53

月之暗面Kimi K2技术报告：解读万亿参数的智能体模型（含K2与DeepSeek R1对比）

至顶网至顶AI实验室 2025-07-23 17:48:24

俄罗斯研究团队推出光流估计新方法：让超高清视频分析更省内存、更精准

俄罗斯莫斯科国立大学研究团队开发出MEMFOF光流估计新方法，在保持顶尖精度的同时将1080p视频分析的GPU内存消耗从8GB降至2GB，实现约4倍内存节省。该方法通过三帧策略、相关性体积优化和高分辨率训练在多个国际基准测试中取得第一名成绩，为高清视频分析技术的普及奠定基础。

至顶网科技行者 2025-07-03 10:01:43

物声相应：交互式感知物体的图像到音频生成技术——加州大学伯克利分校与字节跳动联合研究突破

这项研究提出了一种交互式物体感知的图像到音频生成模型，让用户能够针对图像中选定的特定物体生成相应声音。研究团队将物体中心学习整合到条件潜在扩散模型中，通过多模态注意力机制学习图像区域与声音的对应关系。用户可通过分割蒙版选择目标物体，系统会精确生成相关音频。理论分析证明其注意力机制在功能上等同于测试时的分割蒙版，确保了生成音频与选定物体的准确对应。实验表明该模型在声音-物体对齐方面显著优于现有技术，为内容创作、虚拟现实和辅助技术等领域开辟了新可能。

至顶网科技行者 2025-07-07 17:33:28

NVIDIA与CMU联合开发：让AI像写文章一样理解视频，一个模型搞定所有视频任务

NVIDIA联合CMU等机构开发了AUSM通用视频分割模型，首次将语言模型思路引入视频理解，用一个模型统一处理各种视频任务。该模型采用创新的并行训练策略，训练速度提升2.5倍，在七个权威数据集上均达到领先水平。AUSM突破了传统方法需要针对不同任务训练专门模型的限制，为视频AI应用提供了更简洁高效的解决方案。

至顶网科技行者 2025-09-02 16:02:19

对话SGS：车联网和5G息息相关中国将是产业引领者

汽车是一个复杂而庞大的科技载体，因为其庞大的市场体量吸引了各类入局者，包括SGS和百佳泰。

至顶网周雅 2019-11-08 11:59:32

大模型在数学题自我修正中的困境：NAVER与KAIST联合揭示的新基准

NAVER和KAIST研究团队发现，先进AI模型在数学题自我修正方面存在严重缺陷。他们创建的MMRefine基准测试揭示，即使是GPT-4O等顶级模型也只能成功修正约23%的错误答案，而且经常将正确答案改错。研究发现不同模型在处理六种错误类型时表现差异巨大，特别是小型模型在空间推理修正上竟然超越了大型模型，颠覆了"越大越好"的认知。

至顶网科技行者 2025-06-16 11:29:36

澳门大学：图像生成也要"精益求精"，AI学会自我优化条件信息

澳门大学研究团队针对自回归图像生成中的条件错误累积问题，提出了基于最优传输理论的创新解决方案。研究发现自回归模型具备自我纠错能力，条件错误影响呈指数衰减，但仍存在"条件不一致"问题。团队创新性地运用瓦瑟斯坦梯度流方法优化条件信息，在ImageNet数据集上取得显著性能提升，为AI图像生成质量控制开辟了新方向。

至顶网科技行者 2026-02-12 13:32:13

AWS吹走了私有云天空中最后一片乌云

未来世界的样子还无法预测，但在这个时间，AWS发布了Outposts产品，他终于进入了传统IT厂商相同的维度，从降维打击到同维竞争，后十年的云计算领域一定会更加精彩。

至顶网业界供稿 2018-12-14 09:43:57

谷歌DeepMind推出全新AI系统：让机器人像人类一样学会"举一反三"

谷歌DeepMind联合多家顶尖机构推出RT-X系统，这是首个具备类人学习迁移能力的通用机器人AI。通过整合22个研究机构的50万次操作数据，RT-X能够像人类一样将已学技能灵活应用到新环境，成功率比传统方法提高50%以上，展现出跨领域适应和创造性解决问题的能力，为机器人智能化发展开辟了全新道路。

至顶网科技行者 2025-09-08 10:21:42

中科院团队构建史上最大多模态AI对齐数据集：让机器真正读懂人类偏好的秘密武器

中科院自动化所等机构联合发布MM-RLHF研究，构建了史上最大的多模态AI对齐数据集，包含12万个精细人工标注样本。研究提出批评式奖励模型和动态奖励缩放算法，显著提升多模态AI的安全性和对话能力，为构建真正符合人类价值观的AI系统提供了突破性解决方案。

至顶网科技行者 2025-08-20 10:25:42

AI合作推理新突破：让多个AI像团队一样实时协作解决复杂问题

这项来自Yandex和多所国际院校的突破性研究首次实现了多个大语言模型的实时协作推理，让AI能像人类团队一样即时分享思考过程并自发分工合作。通过创新的共享注意力缓存技术，多个AI可以同时处理复杂问题，避免重复劳动，相互纠错验证，显著提升解题效率和准确率，为AI从单体智能向群体智能转变开辟了新路径。

至顶网科技行者 2025-07-17 09:25:30

拥抱数字技术，提升企业核心竞争力

疫情来袭，使许多国家、企业和个人措手不及，在一些国家甚至是人仰马翻。新冠病毒给我们带来了新常态，现如今，唯一确定的就是不确定性。一些影响是短期的，但是许多的影响将会成为世界需要长期面对的挑战。

至顶网业界供稿 2020-07-24 16:17:23

突破性技术让AI变得更聪明：西湖大学团队彻底改变多模态AI的"记忆负担"

西湖大学研究团队发表突破性论文，提出多模态大语言模型的令牌压缩技术。该技术能将AI处理图像、视频、音频时的信息量压缩80%以上，同时保持90%以上的准确率，有望解决当前AI系统"记忆不够用"的核心问题，为智能手机、医疗影像、自动驾驶等领域带来重大突破。

至顶网科技行者 2025-08-04 13:34:06