搜一下
用了 0.054852秒,为您找到
mg
电子游戏
网站
mg4355
客服
網纸
YB233
相关内容3949 条
中央佛罗里达大学突破性视频插帧技术:让AI学会"脑补"丢失的视频画面
中央佛罗里达大学开发的TLB-VFI技术通过在像素空间和潜在空间同时提取时间信息,解决了视频帧插值中的关键问题。该技术使用布朗桥扩散和3D小波变换等创新方法,相比现有方法参数减少3倍、速度提升2.3倍,在最具挑战性测试中性能提升约20%,为视频处理领域带来重要突破。
至顶网
科技行者 2025-07-23 19:05:58
ByteDance打造AI人物动画新里程碑:OmniHuman让静态照片秒变生动视频
ByteDance研究团队发布OmniHuman-1,这是一个革命性的AI人物动画生成系统。该技术只需一张照片和音频就能生成逼真的说话视频,支持真人、动漫角色等多种图像类型。核心创新在于"全方位条件训练"策略,通过同时使用文字、音频、动作三种条件,将可用训练数据从10%提升到100%,显著改善了生成质量和多样性,为AI视频制作技术带来重大突破。
至顶网
科技行者 2025-08-26 12:03:12
更智能的小模型推理:数据视角下的思维链蒸馏基准研究——北卡罗来纳大学
这篇研究介绍了DC-CoT,首个专门评估数据操作如何影响思维链(CoT)知识蒸馏的基准系统。北卡罗来纳大学教堂山分校等机构的研究者使用多种教师模型(如Gemini-Pro、Claude-3.5)和学生架构(3B-7B参数),系统评估了数据增强、选择和混合对学生模型在多个推理任务上的表现影响。研究发现数据增强(尤其是逆向思维)最为有效,不同任务需要不同的最优策略组合,且存在"小模型学习能力差距"—较小学生模型可能从匹配其容量的较小教师中学习更有效。
至顶网
科技行者 2025-05-29 13:19:33
SUSE首席技术与产品官Thomas:操作系统的下一次跨越式发展将是量子计算
近日,InfoQ 对全球开源软件巨头 SUSE 首席技术与产品官 Thomas Di Giacomo 博士进行了专访,围绕操作系统的持续演进、Linux 发展、开源、SUSE 的实践经验与产品技术战略等话题,Thomas Di Giacomo 博士分享了自己的洞察与见解。
至顶网
业界供稿 2022-07-06 18:54:04
浙大阿里联合发布:用2.5年教学视频训练AI,教出来的模型做数学题比传统方法厉害太多!
浙江大学与阿里巴巴合作,创新性地使用2.2万小时教学视频训练AI模型,创建了首个大规模视频基础的多模态教科书。该方法让AI像真实学生一样从结构化教学内容中学习,在数学推理和科学问答等任务上性能大幅提升,证明了高质量教育数据比海量低质量数据更有价值,为AI教育应用开辟了新路径。
至顶网
科技行者 2025-09-19 10:03:20
ByteDance推出TiKMiX:让AI训练像调味师一样动态调配数据配方
ByteDance研究团队提出TiKMiX方法,通过引入"组影响力"概念动态调整AI训练数据配比,解决传统静态配方导致的训练效率低下问题。该方法能根据模型不同训练阶段的数据偏好实时调整,仅用传统方法20%的计算资源就实现更优性能,在多项测试中平均提升2%效果,为大模型训练提供了更智能高效的解决方案。
至顶网
科技行者 2025-09-05 10:22:43
任何条件都能变成视频:国立新加坡大学联合快手发布Any2Caption,让AI视频生成更懂你的心思
这项研究首次提出了"任意条件到文字描述"的视频生成新模式,通过多模态大语言模型将用户的各种创意输入转化为结构化描述,再驱动现有视频生成系统。研究团队构建了包含33.7万实例的大规模数据集,并设计了创新的渐进式训练策略,实现了对图像、人体姿态、摄像机轨迹等多种条件的统一理解,显著提升了视频生成的可控性和质量。
至顶网
科技行者 2025-07-16 09:59:35
上海多家顶尖学府首创同步视频音频生成技术:让AI同时"看见"和"听见"
这项由上海创新研究院、复旦大学、上海交通大学等机构联合完成的研究,首次实现了真正意义上的视频音频同步生成。MOVA系统拥有320亿参数,能够同时生成高质量的视频画面和完全匹配的音频内容,在唇音同步、多人对话、环境音效等方面都达到了行业领先水平,为AI内容创作开辟了全新的技术路径。
至顶网
科技行者 2026-02-10 15:36:11
中科院团队重磅发布:如何让AI在万千工具中精准定位?LiveMCPBench带你探索智能体的终极挑战
中科院软件所团队发布LiveMCPBench,这是全球首个大规模MCP工具使用评估框架。该研究构建了包含527个工具的测试环境和95个真实任务,评估AI在复杂工具环境中的表现。测试显示Claude-Sonnet-4达到78.95%成功率,而多数模型仅30%-50%,揭示了AI工具组合使用能力的巨大差距,为未来智能助手发展指明方向。
至顶网
科技行者 2025-08-08 09:57:37
走进数博会——睿至大数据为社会治理和行业大数据应用赋能
当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异,给各国经济社会发展、国家管理、社会治理、人民生活带来重大而深远的影响。
至顶网
业界供稿 2018-05-29 16:36:13
AI智能体的"万能翻译官":卡内基梅隆大学提出Mod-X架构,让不同AI系统也能无障碍交流
这项由卡内基梅隆大学团队提出的Mod-X框架,旨在解决AI智能体之间无法有效协作的核心问题。通过分层架构设计,包括通用消息总线、语义翻译层、状态管理和区块链安全机制,实现了不同技术背景的AI系统无障碍通信。该框架采用发布-订阅模式,支持语义能力发现和动态工作流编排,为构建真正去中心化的AI生态系统奠定了基础。
至顶网
科技行者 2025-07-11 09:52:23
封城封不住爱心 科技企业伸出援助之手
当面对严峻的危机时,任何文字似乎都显的苍白无力,只有那些实实在在的行动才显的犹如珍贵,在面对这场突如其来的公共卫生安全事件中,社会各界纷纷通过实际行动为抗击疫情做出自己的贡献,其中不乏很多我们熟知的科技类企业,这些企业有的通过直接捐款捐物。
至顶网
至顶网数字化转型频道 2020-02-12 19:01:07
ROSE:让视频中的物体彻底"消失",连阴影也不留痕迹的神奇技术
ROSE是一项突破性的视频编辑技术,能够彻底移除视频中的物体及其环境影响。由浙江大学等机构研发,该系统不仅删除目标物体,还智能处理阴影、反射、光照等五种副作用。通过3D渲染生成训练数据,采用引用式擦除和差异掩码预测等创新方法,ROSE在各项性能指标上全面超越现有技术,为视频编辑领域带来了新的可能。
至顶网
科技行者 2025-09-04 10:00:46
脸书“二把手”闪电离职,小扎在交接仪式示范了啥叫“商业互吹”
作为在Meta内部极具影响力、最杰出的领导者之一,雪莉·桑德伯格的离去掀起轩然大波,逼得扎克伯克不得不出面解释。
至顶网
海外来电 2022-06-20 11:38:52
OmniConsistency:解锁图像风格化新境界,国立新加坡大学Show Lab团队突破风格一致性难题
国立新加坡大学Show Lab团队开发的OmniConsistency是一种基于扩散变换器的通用一致性插件,用于解决图像风格化中的一致性问题。该方法采用两阶段解耦训练策略和滚动LoRA银行机制,实现风格学习与一致性学习的分离,有效保留图像风格化过程中的语义、结构和细节。研究团队构建了包含22种风格的高质量配对数据集,并通过定量与定性评估证明该方法达到了与商业模型GPT-4o相当的性能。OmniConsistency具有即插即用兼容性、强大的风格泛化能力和高计算效率,为图像风格化技术带来了重大突破。
至顶网
科技行者 2025-05-30 15:07:11
印度理工学院发布史上最大规模印度文化AI测试:15种语言64000题,揭示AI的文化盲区
印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是在低资源语言和复杂推理任务上表现不佳,为构建文化感知AI提供了重要指导。
至顶网
科技行者 2025-10-14 12:11:56
RAVENEA: 哥本哈根大学团队开创多模态检索增强视觉文化理解新基准
RAVENEA是哥本哈根大学研究团队开发的首个多模态检索增强视觉文化理解基准,集成了超过10,000份人工标注的维基百科文档,用于评估视觉语言模型的文化敏感性。研究发现,轻量级视觉模型在配备文化感知检索功能后,在文化视觉问答和图像描述任务上分别提升了至少3.2%和6.2%的性能,证明了检索增强方法在提升AI文化理解能力方面的有效性,为构建更具文化包容性的视觉AI系统开辟了新路径。
至顶网
科技行者 2025-05-28 18:35:42
Meta发布Llama3.1,OpenAI推出AI搜索SearchGPT,Deepmind获得奥数银牌,这就是这周的AI大新闻。
Llama3.1 版本模型提供了更好的推理能力、更大的 128K token 上下文窗口,并改进了对8种语言的支持。
至顶网
数字生命卡兹克 2024-07-30 13:04:30
我们应该如何记忆这场瘟疫?
瘟疫正离我们很近,但在多数时光里,瘟疫又离我们很远。
至顶网
高飞 2020-02-14 10:57:31
中科大团队打造"会呼吸会笑"的AI语音助手:让机器说话如人类般自然生动
香港中文大学(深圳)团队开发了NVSpeech系统,首次实现了对中文语音中笑声、叹息、呼吸等18种副语言声音的精确识别与合成。该系统构建了包含174,179条语音、总时长573.4小时的全球最大中文副语言数据集,让AI语音助手能够像人类一样"有声有色"地表达情感。
至顶网
科技行者 2025-08-15 08:25:19
<
上一页
188
189
190
191
192
193
194
195
196
197
下一页
>
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7
京ICP证161336号 京公网安备11010802021500号