搜一下
用了 0.169096秒,为您找到
宝宝
计划
手机
软件
網纸
YB233
相关内容12593 条
小米竟然让电脑学会了听音识字:MiDashengLM如何革命性地理解音频世界
小米公司发布了MiDashengLM,这是一个革命性的音频理解AI系统,能同时理解语音、音乐和环境声音,并用自然语言描述听到的内容。该系统采用创新的"通用音频字幕"训练方法,在多项测试中全面超越现有顶尖系统,运行速度提升4-20倍。研究团队承诺完全开源所有数据、代码和模型权重,为音频AI领域树立了新标杆,有望改变我们与数字设备的交互方式。
至顶网
科技行者 2025-08-12 10:10:12
英伟达推出Llama-Nemotron:开源推理优化的高效思维模型
想象一下,如果传统AI模型是一辆可以载你去任何地方的汽车,那么这些新的"思维模型"就像是既能当汽车用,又可以变身为越野车的变形金刚。在平坦道路上,它们像普通汽车一样高效运行;遇到复杂地形,它们就能切换到更强大的思维模式,慢慢思考并解决困难问题。英伟达的这项技术突破正是要让这种转换变得更加自然、高效。
至顶网
科技行者 2025-05-06 11:39:12
Voxtral:让机器真正"听懂"人话的多模态AI助手来了!Mistral AI的语音理解革命
Mistral AI发布了两个开源多模态语音AI模型Voxtral Mini和Small,不仅具备语音识别能力,更能理解语音内容并进行智能对话。模型支持32K上下文窗口,可处理40分钟长音频,在语音识别、翻译和理解任务中达到最先进水平。Small版本超越多个闭源模型,Mini版本可本地运行,两个版本均在Apache 2.0许可证下开源发布。
至顶网
科技行者 2025-07-24 16:20:15
阿里巴巴推出Ovis-U1:一个小而强的AI全能选手,能看图说话、画图作画还会修图
阿里巴巴推出Ovis-U1统一多模态模型,仅用36亿参数实现图像理解、文字生成图像、图像编辑三大功能。该模型在多项测试中超越专业模型,证明统一训练能相互促进不同AI能力。研究采用六阶段渐进式训练,创新设计精炼器模块提升性能,为开发全能AI系统提供新思路。
至顶网
科技行者 2025-07-03 09:59:28
SUSE首席技术与产品官Thomas:操作系统的下一次跨越式发展将是量子计算
近日,InfoQ 对全球开源
软件
巨头 SUSE 首席技术与产品官 Thomas Di Giacomo 博士进行了专访,围绕操作系统的持续演进、Linux 发展、开源、SUSE 的实践经验与产品技术战略等话题,Thomas Di Giacomo 博士分享了自己的洞察与见解。
至顶网
业界供稿 2022-07-06 18:54:04
浙大阿里联合发布:用2.5年教学视频训练AI,教出来的模型做数学题比传统方法厉害太多!
浙江大学与阿里巴巴合作,创新性地使用2.2万小时教学视频训练AI模型,创建了首个大规模视频基础的多模态教科书。该方法让AI像真实学生一样从结构化教学内容中学习,在数学推理和科学问答等任务上性能大幅提升,证明了高质量教育数据比海量低质量数据更有价值,为AI教育应用开辟了新路径。
至顶网
科技行者 2025-09-19 10:03:20
快手团队发布Kling-Avatar:让AI真正"读懂"你的想法,生成超逼真长时长数字人视频
快手科技Kling团队发布的Kling-Avatar技术通过多模态大语言模型导演实现真正的指令理解,采用级联生成框架支持长时长数字人视频制作。该系统在唇形同步、情感表达、身份一致性等关键指标上全面超越现有技术,支持1080p/48fps输出,展现强大跨域泛化能力,为数字人直播、在线教育等应用提供突破性解决方案。
至顶网
科技行者 2025-09-12 16:49:38
全球机器学习教父Tom Mitchell宣布加入松鼠AI
Tom Mitchell教授,正式宣布接受松鼠AI的邀约,出任Chief AI officer一职。
至顶网
业界供稿 2018-11-25 17:38:28
META V-JEPA 2:让AI真正"看懂"世界的新突破,机器终于学会了像人类一样预测未来
META公司FAIR实验组开发的V-JEPA 2系统通过观看100万小时视频实现了AI的重大突破,首次让机器同时具备理解、预测和规划三项核心能力。该系统在视频理解、行为预测和机器人控制等多个任务上创下新纪录,特别是仅用62小时训练就能零样本控制机械臂,为通用人工智能发展提供了新路径。
至顶网
科技行者 2025-06-24 13:47:51
当语音遇上表情:首个能同时生成说话和表情的AI模型问世
韩国研究团队开发出全球首个能够同时生成语音和面部表情的AI系统JAM-Flow,突破了传统技术分离处理音频和视觉的局限。该系统采用多模态扩散变换器架构,通过联合注意力机制实现音频与表情的完美协调。在多项测试中表现优异,用户体验测试显示其生成效果明显优于现有系统。这项技术为虚拟主播、影视制作、教育培训等领域带来革命性进展,代表了多模态AI发展的重要里程碑。
至顶网
科技行者 2025-07-04 10:19:59
俄罗斯莫斯科高等研究中心的全能AI文本分类神器:AutoIntent让机器读懂人类意图变得如此简单
AutoIntent是俄罗斯研究团队开发的革命性自动化文本分类工具。它能够自动选择最佳的嵌入模型、分类算法和决策阈值,让普通用户无需专业知识就能构建高效的意图识别系统。在标准测试中,AutoIntent不仅准确率超过现有工具,训练效率也提升一倍以上,特别在多标签分类和超范围检测方面表现突出,为AI技术普及化开辟了新路径。
至顶网
科技行者 2025-10-17 09:04:28
腾讯Hunyuan3D-Omni:用多种信号精准控制3D物体生成的统一框架
腾讯Hunyuan3D-Omni通过统一框架整合点云、体素、边界框和骨架四种控制信号,实现精准可控的3D物体生成。采用渐进式训练策略和统一控制编码器,解决了传统单一输入源导致的几何失真问题,为3D内容创作提供了更高的精度和灵活性,在动画制作、游戏开发等领域具有重要应用价值。
至顶网
科技行者 2025-10-15 13:33:06
英特尔的PC大局观:开放创新惠及万千中国用户
轻薄本可以办公娱乐,也能创作视频;游戏本可以在电竞网游中提供超高帧数,也能开启2K+光追的沉浸体验;体型娇小的Mini PC可以灵活部署在各种场景;高性能PC与工作站让渲染模拟、影视制作效率大幅提升。
至顶网
业界供稿 2023-11-06 15:50:05
走进数博会——睿至大数据为社会治理和行业大数据应用赋能
当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异,给各国经济社会发展、国家管理、社会治理、人民生活带来重大而深远的影响。
至顶网
业界供稿 2018-05-29 16:36:13
AI下一个引爆点—— 联想“超级智能体” 定义本体、组织、空间“三重”边界
“超级智能体是提高生活质量和生产力水平的下一个引爆点。”在联想Tech World 2025创新科技大会上,联想集团董事长兼CEO杨元庆开宗明义地指出。
至顶网
毛烁 2025-05-08 15:17:07
AI智能体的"万能翻译官":卡内基梅隆大学提出Mod-X架构,让不同AI系统也能无障碍交流
这项由卡内基梅隆大学团队提出的Mod-X框架,旨在解决AI智能体之间无法有效协作的核心问题。通过分层架构设计,包括通用消息总线、语义翻译层、状态管理和区块链安全机制,实现了不同技术背景的AI系统无障碍通信。该框架采用发布-订阅模式,支持语义能力发现和动态工作流编排,为构建真正去中心化的AI生态系统奠定了基础。
至顶网
科技行者 2025-07-11 09:52:23
未来,无线信号的设计权将由人类转向人工智能
由信道自动编码器生成的AI设计信号,在质量上已经远超普通工程师。
至顶网
科技行者 2020-04-28 16:24:10
腾讯PCG推出ARC-Hunyuan-Video-7B:让AI真正"看懂"短视频的魔法
腾讯PCG推出的ARC-Hunyuan-Video-7B是一个专门理解短视频内容的AI模型,能同时处理视频画面、声音和文字,准确把握创作者意图和内容精髓。该模型通过创新的音视频同步技术和时间戳叠加机制,实现了对短视频的结构化理解,在商业应用中显著提升了视频检索和推荐的用户体验。
至顶网
科技行者 2025-08-05 10:34:01
ByteDance这套AI调度系统,让数万张GPU像管弦乐团一样协调工作
ByteDance团队开发的HeteroScale系统通过三层智能架构解决大规模AI服务GPU调度难题。系统创新性地使用decode TPS作为调度指标,建立异构资源管理框架和网络感知调度机制,在生产环境管理数万GPU,实现26.6%利用率提升和41.3%资源节约,为AI服务资源管理提供新范式。
至顶网
科技行者 2025-09-03 14:10:37
达姆施塔特工业大学重磅发现:AI编程助手如何在不知不觉中变得更安全
达姆施塔特工业大学研究团队开发的GoodVibe框架,通过精确识别AI模型中的"安全神经元"并进行针对性训练,让AI编程助手能在无明确安全要求下自动生成更安全的代码。该方法仅需训练模型0.03%的参数,就将安全代码生成率提升2.5倍,同时降低70%训练成本,为AI辅助编程的安全问题提供了创新解决方案。
至顶网
科技行者 2026-02-13 08:33:02
<
上一页
615
616
617
618
619
620
621
622
623
624
下一页
>
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7
京ICP证161336号 京公网安备11010802021500号