搜一下
用了 0.087809秒,为您找到
网赌
长期
盈利
方法
罔芷
88pkee
驻测
相关内容6873 条
南洋理工大学揭晓:AI看视频为何总是"错过关键细节"?全新基准测试让机器智能无所遁形
南洋理工大学研究团队开发了名为"视频思维测试"的新基准,通过1000个精心设计的YouTube短视频揭示了AI视频理解的真实水平。测试发现,即使是最强AI模型GPT-4o的正确率也只有36.6%,远低于人类的84.3%。研究指出AI主要存在时空混淆、世界知识缺失和复杂情节理解困难三大问题,为改进AI视频理解能力指明了方向。
至顶网
科技行者 2025-07-25 09:37:02
盘点2018年中国私有云市场:繁荣依旧,向混合云演进
2018年,行业云发展趋势更为明显,每个行业都逐渐形成了自身行业的云计算落地流程和样板案例,极大的促进了私有云建设的落地。同样私有云模式也正在改变着行业企业的业务模式和发展方式。
至顶网
至顶网软件频道 2018-12-26 10:48:41
AI智能编程助手正在改变软件开发:奈良先端科学技术大学首次揭示代码生成工具在开源项目中的真实表现
日本奈良先端科学技术大学等机构首次深入研究AI编程工具Claude Code在真实开源项目中的表现。通过分析567个代码贡献,发现83.8%被成功接受,54.9%无需修改直接使用。AI擅长重构、测试和文档工作,但需要人工修正bug处理、代码风格等问题。研究揭示了AI编程工具的实际能力边界和改进方向。
至顶网
科技行者 2025-10-14 22:49:56
印度理工学院新突破:让小模型也能像大模型一样聪明,无需标注数据的AI视觉问答训练法
印度理工学院团队开发出MPA模型对等对齐器,这是一种革命性的AI训练
方法
,能让小型视觉语言模型在无需人工标注数据的情况下,通过大模型指导显著提升性能。该技术通过三步法实现知识传递:大模型自动出题答题、精准识别知识差距、针对性强化训练。实验显示小模型性能提升高达15.2%,成本仅为传统
方法
的几十分之一,为AI技术普及开辟新路径。
至顶网
科技行者 2025-09-29 08:52:08
通用智能体需要世界模型,Google DeepMind团队发现AGI的必经之路
通用智能体需要世界模型,Google DeepMind团队发现AGI的必经之路
至顶网
至顶AI实验室 2025-06-09 18:18:49
吴声年度演讲全文:新物种时代的场景战略
2021年8月15日,一年一度的“新物种爆炸·吴声商业
方法
发布2021”如约而至,以下为《吴声造物》梳理的演讲全文。
至顶网
业界供稿 2021-08-16 17:37:20
新加坡科技设计大学SonicVerse:让AI像音乐专家一样"听"懂音乐并用语言完美描述
新加坡科技设计大学团队开发了SonicVerse音乐描述AI系统,通过多任务学习架构同时进行音乐特征识别和自然语言生成,能够像专业音乐评论家一样准确描述音乐的技术特征和艺术内容。该系统不仅在短片段描述上表现出色,还能通过AI链式处理为完整歌曲生成详细的时序化描述,为音乐产业的内容标注、教育培训和智能推荐等应用提供了新的技术路径。
至顶网
科技行者 2025-06-25 11:36:04
ACTalker:香港科技大学团队打造会表情的AI主播,让视频通话变得更自然
香港科技大学团队开发的ACTalker系统实现了多信号协同控制的说话头像生成突破,通过并行控制曼巴层和面具丢弃策略,让AI能同时根据音频和面部动作生成自然的说话视频,在语音同步性和表情控制精度方面全面超越现有
方法
,为虚拟交互应用开辟了新的可能性。
至顶网
科技行者 2025-07-15 10:08:03
斯坦福大学突破性视频生成技术:让AI记住更多画面还不"跑偏"的FramePack
方法
斯坦福大学研究团队提出FramePack技术,通过几何级数压缩和反向采样策略,有效解决了AI视频生成中的遗忘-漂移矛盾问题。该
方法
实现了固定计算复杂度下的任意长度视频生成,在多项评估指标上表现优异,为AI视频生成领域带来重要突破。
至顶网
科技行者 2025-07-15 11:34:20
波士顿大学揭秘:只听声音就能"看见"说话者,AI如何读懂声音里的视觉密码
波士顿大学研究团队开发出Audio2Face人工智能系统,能够仅通过音频信号生成对应的面部动画。该技术通过深度学习分析声音中的细微特征,准确率达87.3%,可应用于视频通话、影视制作、教育康复等领域。研究揭示了声音与视觉之间的深层联系,为跨模态人工智能开辟新方向,但也带来隐私保护和技术滥用等挑战。
至顶网
科技行者 2025-08-29 12:03:48
北京大学联合字节跳动推出MoVieS:用一秒钟就能从单镜头视频中生成4D动态场景的神奇技术
北京大学联合字节跳动推出MoVieS技术,能够从单镜头视频中快速重建4D动态场景。该系统采用"动态溅射像素"概念,统一处理场景外观、几何和运动信息,在一秒内完成传统
方法
需要数小时的重建任务。技术支持新视角合成、3D点追踪、场景流估计等多种应用,在保持高质量的同时实现数量级的速度提升。
至顶网
科技行者 2025-07-22 09:23:44
从读图到懂图,AI+金融理解力新升级
OCR要落伍了?多模态大模型凭借端到端的图像识别与语义理解能力,正在颠覆传统 OCR 的应用逻辑,预示着图像识别与理解正迈向新一代的技术范式。
至顶网
王聪彬 2025-09-12 15:49:08
创新技术与业务场景融合,星环科技大数据智能化、多模态、平民化
5月26日,“向星力·未来数据技术峰会(FDTC)”在上海成功举办。星环科技创始人、CEO孙元浩表示,未来人人都是数据科学家,人类与数据的交互方式将发生重大变革,语言、视频等自然语言的交互方式将逐渐普及,每个人都将需要一个“虚拟业务助手”。
至顶网
业界供稿 2023-05-26 15:34:42
字节跳动全新RewardDance框架:让AI在"奖励舞蹈"中精进视觉创作能力
字节跳动团队提出RewardDance框架,首次系统性解决视觉生成中的奖励模型扩展问题。该框架通过将奖励预测转为生成式任务,并将模型规模扩展至260亿参数,同时集成任务指令、参考样例和推理能力,有效解决了"奖励作弊"问题。实验显示,在文本生成图像任务中质量提升10.7分,视频生成性能改善49%,达到行业领先水平,为AI视觉创作提供了更强大可靠的技术基础。
至顶网
科技行者 2025-09-23 13:40:03
Meta团队如何让AI学会全世界的语言?重新定义多语言视觉理解的全球化突破
Meta AI团队联合MIT等机构开发的MetaCLIP 2系统,首次实现了真正的全球化AI视觉理解。该系统支持300多种语言,不仅突破了传统多语言AI的"诅咒"问题,还让英语性能提升0.8%,在多项国际测试中创下新纪录。通过创新的训练策略和开源架构,为构建真正服务全人类的AI技术奠定了基础。
至顶网
科技行者 2025-08-06 11:08:48
当手机看着你的手指跳舞:北卡罗来纳大学发现触控背后的秘密
北卡罗来纳大学研究团队通过深入分析手指触控过程中的动态特征,开发出新型触控识别算法,能够理解触控过程中的压力分布、接触面积变化等信息,比传统
方法
准确率提高15-28%。该技术采用分层处理架构解决计算效率问题,已在真实设备上验证效果,将为个性化交互、情感感知等未来应用奠定基础,有望显著改善用户的触控体验。
至顶网
科技行者 2025-09-30 10:51:27
科学家如何"复活"古老植被:利用古DNA还原过去环境的研究突破
说到底,这项由爱丁堡大学埃洛伊丝·克雷文博士领导的研究为我们打开了一扇通往过去的神奇之门。通过从北极永久冻土中提取和分析古老的DNA片段,研究团队成功重建了北极地区几千年来的植被变化历史,揭示了植物群落对气候变化的复杂响应模式。
至顶网
科技行者 2025-07-07 17:31:27
上海交大团队发布"画图变3D场景"神器:一张照片瞬间生成完整的三维世界
上海交通大学团队开发的SceneGen系统能够从单张照片自动生成完整3D场景,包含准确的几何结构、逼真纹理和正确的空间关系。该技术在两分钟内完成场景重建,几何精度比现有
方法
提升76%,为游戏开发、室内设计、虚拟现实等领域提供了革命性的内容创建工具,代码已开源供研究使用。
至顶网
科技行者 2025-08-28 14:52:56
如何让AI像电影配乐师一样创作完整的长篇音频故事——腾讯ARC实验室团队AudioStory突破性进展
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
至顶网
科技行者 2025-09-10 09:47:04
曾经无话不谈的好朋友,如今怎么见个面都难
大飞和方平是两家中小企业的IT总监,老乡会上认识之后,两人很快成了朋友,经常在工作之余一起打打球、爬爬山、喝喝酒、看看电影(同漫威“死忠粉”),几乎无话不谈。
至顶网
至顶网云计算频道 2019-01-02 10:53:13
<
上一页
324
325
326
327
328
329
330
331
332
333
下一页
>
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7
京ICP证161336号 京公网安备11010802021500号