搜一下
用了 0.054736秒,为您找到
大发
大小
单双
有人
带么罔芷
88pkee
驻测
相关内容3949 条
从数十小时到数万小时:突破语音识别的数据瓶颈,新加坡科技设计大学和字节跳动联合研发突破性方案
新加坡科技设计大学和字节跳动研究团队提出了"语音反向翻译"方法,解决语音识别中的数据稀缺问题。研究表明,仅用几十小时的标注语音数据就能训练TTS模型生成数万小时高质量合成语音,将数据扩充数百倍。他们引入归一化可理解度指标评估合成语音质量,确定了合成数据能有效增强ASR性能的质量阈值。将方法扩展到十种语言,生成了50万小时合成语音,对Whisper-large-v3模型进行预训练,平均降低错误率30%,对低资源语言尤其有效,错误率降低46%。
至顶网
科技行者 2025-05-29 15:55:56
2024全球AIGC产业全景图谱及报告重磅发布
天津市人工智能学会、至顶科技与至顶智库联合发布2024全球AIGC产业全景图谱及报告。
至顶网
至顶智库 2024-11-18 17:45:03
Cobra:突破性技术让漫画上色更快更精准——清华大学和腾讯ARC实验室联手打造超长情境参考框架
想象一下,你正在观看一部黑白漫画。虽然故事情节精彩,但如果能有鲜艳的色彩,体验肯定会更加丰富。漫画产业正面临这样的挑战:如何高效、准确地为线稿上色,同时确保色彩的一致性和精确控制?
至顶网
科技行者 2025-04-18 17:43:35
Hitachi Vantara CTO Jason Hardy 谈公司存储革新
日立万塔拉正在进行存储策略更新,统一高端和中端产品线,拥抱全闪存和混合云。公司重回企业存储领域,简化产品组合,现代化技术,同时保持稳定性和可靠性。此外,公司还在积极布局AI市场,推出Hitachi IQ解决方案,并探索AI技术在存储管理和客户支持中的应用。
至顶网
BLOCKS & FILES 2025-01-24 10:27:42
支持任意分辨率图像的MLLM!定位识别超强!Apple提出Ferret-v2!
多模态大型语言模型(Multimodal Large Language Models,MLLMs)在人工智能 的最新进展中扮演着关键角色,作为通用全能助手开发的基础元素。然而,这些方法依赖 于粗粒度的图像级对齐,缺乏对细节的理解(如区域描述和推理)。
至顶网
数源AI 2024-04-16 00:05:02
ORV:4D占用中心机器人视频生成——北京人工智能研究院打造精准可控的机器人世界
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
至顶网
科技行者 2025-06-06 17:31:51
前CEO谈Figma未能卖给Adobe之后的新生活
出售不成的Figma仍然蓄势待发,坐拥10亿美元资金和宏伟的扩张计划。
至顶网
The Verge 2024-02-23 10:41:24
为什么说,中国将在AI领域与美国齐头并进?
不知你是否留意,最近一两年,许多西方媒体和分析机构,都不吝惜对中国在人工智能领域的赞誉,并将其视作除美国之外,培育AI最适宜的热土。
至顶网
业界供稿 2018-08-23 14:26:33
普元刘相DIOS深圳站分享企业DevOps度量体系构建
11月2日,普元云计算产品线总经理刘相受邀出席DevOps国际峰会(DOIS)2018·深圳站,在DevOps行业实践及解决方案专场分享《构建企业DevOps度量体系——DevOps驱动价值的交付》。
至顶网
业界供稿 2018-11-08 10:11:52
区块链的13种创新应用
比特币等加密货币,只是区块链技术在交易及追踪领域的牛刀小试。
至顶网
科技行者 2018-03-29 17:01:17
弗吉尼亚理工大学突破性研究:让视频换个角度,不用重拍也能看出新花样
弗吉尼亚理工大学研究团队开发出突破性技术,能从单一视频生成全新视角画面。他们通过"K阶递归噪声表示"解决AI模型记忆问题,用"随机潜在调制"智能填充新视角中的空白区域。该方法无需重新训练模型,在视觉质量、角度准确性等关键指标上均优于现有方法,为电影制作、虚拟现实等领域带来新可能。
至顶网
科技行者 2025-06-13 13:51:12
ChatGPT如何改变了全球10%成年人的数字生活
周有超过7亿用户在使用它,每天发送超过25亿条消息,相当于每秒钟有29000条消息在产生。
至顶网
至顶AI实验室 2025-09-18 22:05:06
爱丁堡大学:从"观察者"到"预言家",视觉语言模型如何学会预测现实世界
爱丁堡大学研究团队发现现有视觉语言模型难以准确预测现实世界变化,创新性地提出"师傅带徒弟"训练策略。通过让擅长反向推理的动态模型指导世界模型学习,在多个真实场景测试中超越专业图像编辑模型15%。该方法包括合成数据生成和推理时验证两种策略,为人工智能理解物理世界变化提供新思路。
至顶网
科技行者 2025-06-13 09:45:53
更便捷的腕上新体验 华为WATCH Buds来了
在今天举办的冬季新品发布会上,华为推出一款创意设计和功能组合的腕间新品华为WATCH Buds-----业界首款弹盖磁吸式耳机手表。
至顶网
科技行者 2022-12-09 21:26:09
META PLATFORMS迎来新成员:专为驱动人工智能而生
在本周于硅谷举行的开放计算项目(OCP)全球峰会上,Meta Platforms推出了其全新“Grand Teton”AI系统,以及基于磁盘对口的配套“Grand Canyon”大容量存储阵列。
至顶网
至顶网计算频道 2022-10-24 14:52:49
ServiceNow联合Mila等机构提出全新视觉-文本桥接神器,让AI看懂图片中的文字真的不再困难
ServiceNow联合多个顶级研究机构提出ALIGNVLM,这是一个专门用于文档理解的视觉-语言模型。其核心创新ALIGN连接器通过将视觉特征映射为语言模型词汇的概率分布,有效解决了传统方法中视觉和语言模态对齐不准确的问题,在多个文档理解基准测试中取得显著性能提升。
至顶网
科技行者 2025-08-21 10:01:25
“双11”是起跑线:乘云科技的“乘云”故事
阿里巴巴将加入奥林匹克全球合作伙伴(The Olympic Partner,“TOP”)赞助计划,开始为奥运会提供云计算和大数据基础设施及服务。后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。
至顶网
赵晓勤 2024-11-21 17:55:59
“双11”是起跑线:乘云科技的“乘云”故事
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
至顶网
赵晓勤 2024-11-21 17:54:39
业务IT 一体化:华为云 SaaS Package做到了
如今,很多传统企业面临数字化转型升级,特别是一些中小企业,如何快速又便捷地进行数字化改造,成为了他们考虑的重要因素。
至顶网
至顶网大数据频道 2023-06-28 10:39:39
人工智能学会说数学:AIRI研究院首次让机器听懂方程式并转换为LaTeX格式
俄罗斯AIRI研究院联合斯科尔科沃理工学院首次系统性解决了语音数学表达式转换问题,开发出能将口述数学公式准确转换为LaTeX格式的AI系统。研究团队构建了包含66,000个人工标注样本的大规模多语种数据集,采用语音识别后处理和端到端多模态两种方法,在数学表达式转换任务上取得了27-30%的字符错误率,显著优于现有技术,为自动化数学教育和学术交流提供了重要技术基础。
至顶网
科技行者 2025-08-14 12:13:17
<
上一页
159
160
161
162
163
164
165
166
167
168
下一页
>
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7
京ICP证161336号 京公网安备11010802021500号