搜索宝宝计划手机版软件【網纸——YB233典CN—

小米竟然让电脑学会了听音识字：MiDashengLM如何革命性地理解音频世界

小米公司发布了MiDashengLM，这是一个革命性的音频理解AI系统，能同时理解语音、音乐和环境声音，并用自然语言描述听到的内容。该系统采用创新的"通用音频字幕"训练方法，在多项测试中全面超越现有顶尖系统，运行速度提升4-20倍。研究团队承诺完全开源所有数据、代码和模型权重，为音频AI领域树立了新标杆，有望改变我们与数字设备的交互方式。

至顶网科技行者 2025-08-12 10:10:12

英伟达推出Llama-Nemotron：开源推理优化的高效思维模型

想象一下，如果传统AI模型是一辆可以载你去任何地方的汽车，那么这些新的"思维模型"就像是既能当汽车用，又可以变身为越野车的变形金刚。在平坦道路上，它们像普通汽车一样高效运行；遇到复杂地形，它们就能切换到更强大的思维模式，慢慢思考并解决困难问题。英伟达的这项技术突破正是要让这种转换变得更加自然、高效。

至顶网科技行者 2025-05-06 11:39:12

Voxtral：让机器真正"听懂"人话的多模态AI助手来了！Mistral AI的语音理解革命

Mistral AI发布了两个开源多模态语音AI模型Voxtral Mini和Small，不仅具备语音识别能力，更能理解语音内容并进行智能对话。模型支持32K上下文窗口，可处理40分钟长音频，在语音识别、翻译和理解任务中达到最先进水平。Small版本超越多个闭源模型，Mini版本可本地运行，两个版本均在Apache 2.0许可证下开源发布。

至顶网科技行者 2025-07-24 16:20:15

阿里巴巴推出Ovis-U1：一个小而强的AI全能选手，能看图说话、画图作画还会修图

阿里巴巴推出Ovis-U1统一多模态模型，仅用36亿参数实现图像理解、文字生成图像、图像编辑三大功能。该模型在多项测试中超越专业模型，证明统一训练能相互促进不同AI能力。研究采用六阶段渐进式训练，创新设计精炼器模块提升性能，为开发全能AI系统提供新思路。

至顶网科技行者 2025-07-03 09:59:28

SUSE首席技术与产品官Thomas：操作系统的下一次跨越式发展将是量子计算

近日，InfoQ 对全球开源软件巨头 SUSE 首席技术与产品官 Thomas Di Giacomo 博士进行了专访，围绕操作系统的持续演进、Linux 发展、开源、SUSE 的实践经验与产品技术战略等话题，Thomas Di Giacomo 博士分享了自己的洞察与见解。

至顶网业界供稿 2022-07-06 18:54:04

浙大阿里联合发布：用2.5年教学视频训练AI，教出来的模型做数学题比传统方法厉害太多！

浙江大学与阿里巴巴合作，创新性地使用2.2万小时教学视频训练AI模型，创建了首个大规模视频基础的多模态教科书。该方法让AI像真实学生一样从结构化教学内容中学习，在数学推理和科学问答等任务上性能大幅提升，证明了高质量教育数据比海量低质量数据更有价值，为AI教育应用开辟了新路径。

至顶网科技行者 2025-09-19 10:03:20

快手团队发布Kling-Avatar：让AI真正"读懂"你的想法，生成超逼真长时长数字人视频

快手科技Kling团队发布的Kling-Avatar技术通过多模态大语言模型导演实现真正的指令理解，采用级联生成框架支持长时长数字人视频制作。该系统在唇形同步、情感表达、身份一致性等关键指标上全面超越现有技术，支持1080p/48fps输出，展现强大跨域泛化能力，为数字人直播、在线教育等应用提供突破性解决方案。

至顶网科技行者 2025-09-12 16:49:38

全球机器学习教父Tom Mitchell宣布加入松鼠AI

Tom Mitchell教授，正式宣布接受松鼠AI的邀约，出任Chief AI officer一职。

至顶网业界供稿 2018-11-25 17:38:28

META V-JEPA 2：让AI真正"看懂"世界的新突破，机器终于学会了像人类一样预测未来

META公司FAIR实验组开发的V-JEPA 2系统通过观看100万小时视频实现了AI的重大突破，首次让机器同时具备理解、预测和规划三项核心能力。该系统在视频理解、行为预测和机器人控制等多个任务上创下新纪录，特别是仅用62小时训练就能零样本控制机械臂，为通用人工智能发展提供了新路径。

至顶网科技行者 2025-06-24 13:47:51

当语音遇上表情：首个能同时生成说话和表情的AI模型问世

韩国研究团队开发出全球首个能够同时生成语音和面部表情的AI系统JAM-Flow，突破了传统技术分离处理音频和视觉的局限。该系统采用多模态扩散变换器架构，通过联合注意力机制实现音频与表情的完美协调。在多项测试中表现优异，用户体验测试显示其生成效果明显优于现有系统。这项技术为虚拟主播、影视制作、教育培训等领域带来革命性进展，代表了多模态AI发展的重要里程碑。

至顶网科技行者 2025-07-04 10:19:59

俄罗斯莫斯科高等研究中心的全能AI文本分类神器：AutoIntent让机器读懂人类意图变得如此简单

AutoIntent是俄罗斯研究团队开发的革命性自动化文本分类工具。它能够自动选择最佳的嵌入模型、分类算法和决策阈值，让普通用户无需专业知识就能构建高效的意图识别系统。在标准测试中，AutoIntent不仅准确率超过现有工具，训练效率也提升一倍以上，特别在多标签分类和超范围检测方面表现突出，为AI技术普及化开辟了新路径。

至顶网科技行者 2025-10-17 09:04:28

腾讯Hunyuan3D-Omni：用多种信号精准控制3D物体生成的统一框架

腾讯Hunyuan3D-Omni通过统一框架整合点云、体素、边界框和骨架四种控制信号，实现精准可控的3D物体生成。采用渐进式训练策略和统一控制编码器，解决了传统单一输入源导致的几何失真问题，为3D内容创作提供了更高的精度和灵活性，在动画制作、游戏开发等领域具有重要应用价值。

至顶网科技行者 2025-10-15 13:33:06

英特尔的PC大局观：开放创新惠及万千中国用户

轻薄本可以办公娱乐，也能创作视频；游戏本可以在电竞网游中提供超高帧数，也能开启2K+光追的沉浸体验；体型娇小的Mini PC可以灵活部署在各种场景；高性能PC与工作站让渲染模拟、影视制作效率大幅提升。

至顶网业界供稿 2023-11-06 15:50:05

走进数博会——睿至大数据为社会治理和行业大数据应用赋能

当前，以互联网、大数据、人工智能为代表的新一代信息技术日新月异，给各国经济社会发展、国家管理、社会治理、人民生活带来重大而深远的影响。

至顶网业界供稿 2018-05-29 16:36:13

AI下一个引爆点—— 联想“超级智能体” 定义本体、组织、空间“三重”边界

“超级智能体是提高生活质量和生产力水平的下一个引爆点。”在联想Tech World 2025创新科技大会上，联想集团董事长兼CEO杨元庆开宗明义地指出。

至顶网毛烁 2025-05-08 15:17:07

AI智能体的"万能翻译官"：卡内基梅隆大学提出Mod-X架构，让不同AI系统也能无障碍交流

这项由卡内基梅隆大学团队提出的Mod-X框架，旨在解决AI智能体之间无法有效协作的核心问题。通过分层架构设计，包括通用消息总线、语义翻译层、状态管理和区块链安全机制，实现了不同技术背景的AI系统无障碍通信。该框架采用发布-订阅模式，支持语义能力发现和动态工作流编排，为构建真正去中心化的AI生态系统奠定了基础。

至顶网科技行者 2025-07-11 09:52:23

未来，无线信号的设计权将由人类转向人工智能

由信道自动编码器生成的AI设计信号，在质量上已经远超普通工程师。

至顶网科技行者 2020-04-28 16:24:10

腾讯PCG推出ARC-Hunyuan-Video-7B：让AI真正"看懂"短视频的魔法

腾讯PCG推出的ARC-Hunyuan-Video-7B是一个专门理解短视频内容的AI模型，能同时处理视频画面、声音和文字，准确把握创作者意图和内容精髓。该模型通过创新的音视频同步技术和时间戳叠加机制，实现了对短视频的结构化理解，在商业应用中显著提升了视频检索和推荐的用户体验。

至顶网科技行者 2025-08-05 10:34:01

ByteDance这套AI调度系统，让数万张GPU像管弦乐团一样协调工作

ByteDance团队开发的HeteroScale系统通过三层智能架构解决大规模AI服务GPU调度难题。系统创新性地使用decode TPS作为调度指标，建立异构资源管理框架和网络感知调度机制，在生产环境管理数万GPU，实现26.6%利用率提升和41.3%资源节约，为AI服务资源管理提供新范式。

至顶网科技行者 2025-09-03 14:10:37

达姆施塔特工业大学重磅发现：AI编程助手如何在不知不觉中变得更安全

达姆施塔特工业大学研究团队开发的GoodVibe框架，通过精确识别AI模型中的"安全神经元"并进行针对性训练，让AI编程助手能在无明确安全要求下自动生成更安全的代码。该方法仅需训练模型0.03%的参数，就将安全代码生成率提升2.5倍，同时降低70%训练成本，为AI辅助编程的安全问题提供了创新解决方案。

至顶网科技行者 2026-02-13 08:33:02