用了 0.035356秒,为您找到ku 娱乐 代理 網纸 YB233相关内容2191 条
  • AI助手学会了看一周的视频并推理:新加坡南洋理工让机器拥有"超长记忆"和"工具思维"

    新加坡南洋理工大学联合多个国际研究机构开发出突破性AI系统Ego-R1,首次实现对一周超长视频的智能理解和推理。该系统采用独创的"工具链思维"方法,让AI像侦探一样使用不同工具分步解决问题,在44.3小时视频理解任务中达到46%准确率,显著超越现有技术,为未来个人AI助手的发展开辟新道路。
    至顶网  科技行者  2025-06-20 10:27:10  
  • 韩国大学和KAIST联手揭秘:给AI"老师"量身定制的视频推理训练新方法!

    韩国大学和KAIST研究团队提出了DeepVideo-R1,一种革新性的AI视频理解训练方法。该方法通过回归式GRPO和难度感知数据增强两大创新,解决了传统方法中的梯度消失和训练信号稀疏问题。在多个权威测试中显著提升了AI的视频推理能力,特别是在处理未见过的新任务时表现出色,为AI视频理解技术发展开辟了新方向。
    至顶网  科技行者  2025-06-19 12:14:04  
  • 新加坡团队突破!一张照片秒变4D世界:让静态画面"活"起来的黑科技

    新加坡南洋理工大学团队开发的4DNeX系统实现了从单张照片生成完整4D动态场景的突破。该技术采用6D视频表示法融合RGB颜色和XYZ空间信息,构建了包含920万帧数据的4DNeX-10M大规模数据集,通过改进视频扩散模型实现15分钟内的高效生成,在动态程度和一致性指标上显著优于现有方法,为虚拟现实、影视制作等领域提供了新的技术路径。
    至顶网  科技行者  2025-08-26 14:18:34  
  • 为什么它成了人类的“神器”?

    如果我有“机器猫”,我要叫他“小叮当”,竹蜻蜓、任意门和时光机能去任何的地方。
    至顶网  赛博故事(cybergushi)  2019-12-08 23:38:03  
  • 伊利诺伊大学团队突破手机视频重建难题:不需要额外传感器,仅凭摄像头就能完美还原动态场景

    伊利诺伊大学团队开发出ROS-Cam系统,仅需普通RGB视频即可精确重建动态三维场景,无需激光雷达等额外传感器。该技术通过补丁式追踪过滤器、异常值感知优化和两阶段策略,在多个数据集上超越现有方法,处理速度提升2-12倍。这项突破有望让普通用户轻松创建专业级三维内容,在电商、教育、文化保护等领域具有广阔应用前景。
    至顶网  科技行者  2025-10-09 12:20:08  
  • 实时交互视频生成新突破:字节跳动团队让AI生成视频快如闪电

    字节跳动种子实验室推出突破性实时视频生成技术AAPT,实现24fps高清视频的实时生成与交互控制。该技术通过自回归对抗后训练,将传统多步生成压缩至单步完成,在H100 GPU上实现0.16秒超低延迟。支持长达60秒连续视频流生成,在姿态控制虚拟人和摄像机控制世界探索等应用中表现出色,为实时交互媒体内容创作开辟全新道路。
    至顶网  科技行者  2025-06-17 09:47:31  
  • 让AI学会"动起来":上海交大团队打造史上最大人体动作数据库,让机器人动作更自然

    上海交通大学研究团队构建了迄今最大的人体动作数据库MotionMillion,包含200万个动作序列,并训练出70亿参数的AI模型,实现了根据文字描述生成自然人体动作的零样本能力。该技术采用创新的六步数据处理流程和小波变换优化,在动作质量和文本对齐度方面显著超越现有方法,为动画制作、机器人控制、虚拟现实等领域开辟了新的应用前景。
    至顶网  科技行者  2025-07-18 09:37:02  
  • 《数字经济洞察周报》2023年第29期 | 全球人工智能治理倡议发布

    全球人工智能治理倡议发布
    至顶网  孙硕  2023-12-07 16:39:01  
  • 香港中大突破视频编辑难题:让你轻松掌控每一帧画面的神奇技术

    这项来自香港中文大学的研究开发了名为"LoRA-Edit"的视频编辑技术,通过巧妙结合LoRA适应技术和遮罩机制,解决了传统视频编辑中编辑效果难以精确传播、背景容易被意外改变的问题。该技术让用户只需编辑第一帧画面,就能让编辑效果自然传播到整个视频,同时可通过参考图片进一步控制编辑外观,在多项对比测试中均超越现有先进方法。
    至顶网  科技行者  2025-06-19 12:54:25  
  • 斯坦福大学揭秘:AI如何通过"拟人化"变得更聪明更可信

    斯坦福大学研究团队通过大规模实验发现,AI系统的拟人化程度显著影响用户的信任和依赖行为。适度拟人化能提升信任度40%,但过度拟人化可能导致用户失去独立判断能力。研究揭示了年龄、性别等因素对拟人化接受度的影响,为AI设计提供了科学依据,强调需要在不同应用场景中平衡拟人化程度与用户理性判断的关系。
    至顶网  科技行者  2025-08-25 12:27:54  
  • 360 AI负责人梁志辉:AI搜索不是"缝合怪",2025是从游击队转向正规军的关键一年

    AI刚出现的头两三年,大家都觉得AI会颠覆一切,可能需要用一些全新的标准来评价AI产品。但是经过一年多的发展,大家发现AI产品本质上还是产品,依然要用传统的产品指标来衡量,比如点击率、转化率、留存率等这些硬核指标。如果用户不喜欢你的产品,点击率自然就上不去;如果产品没有足够的黏性,日活跃用户(DAU)也就积累不起来。
    至顶网  Super黄的念想  2025-01-14 11:04:06  
  • 字节跳动重磅发布OmniHuman-1.5:会"思考"的虚拟人,告别千篇一律的呆板表演

    字节跳动推出OmniHuman-1.5,首次将认知科学的双系统理论应用到虚拟人技术中。该技术通过多模态大语言模型模拟人类的推理思考,结合创新的MMDiT架构和伪最后帧技术,让虚拟人不再只是机械地同步口型,而是能够根据说话内容的语义做出相应的表情和动作,大幅提升了虚拟人表现的自然度和智能化水平,为教育、娱乐、客服等领域带来革命性应用前景。
    至顶网  科技行者  2025-09-03 11:37:21  
  • AI视频生成新突破:天工AI让你用几张照片就能拍出好莱坞大片

    天工AI推出的SkyReels-A2视频生成系统实现了重大突破,能够将多张不相关照片智能组合成高质量视频。该技术采用双分支架构处理语义和空间信息,通过200万训练样本学习元素组合规律。在与商业模型的对比中表现出色,特别是在物体一致性和视觉质量方面领先。该系统已开源,为创意产业、教育培训、虚拟电商等领域带来革命性应用前景。
    至顶网  科技行者  2025-07-14 09:49:31  
  • 当AI学会"察言观色":卡内基梅隆等高校如何让盲人用户重新掌控自动化选择权

    卡内基梅隆大学等机构研究团队开发了名为Morae的智能界面助手,专门解决盲人用户在使用AI自动化工具时失去选择权的问题。通过"动态模糊选择验证"机制,Morae能在关键决策点主动暂停询问用户偏好,而非自动替用户选择。用户研究显示,相比传统AI助手,Morae帮助用户做出了更多符合个人偏好的选择,显著提升了用户满意度和控制感。
    至顶网  科技行者  2025-09-05 10:13:39  
  • 创业者涌入AI战场,最先利用AI大模型赚到钱的人

    AIGC淘金人。
    至顶网  吴彤  2024-07-18 14:40:10  
  • 全景虚拟世界的"修补术":NVIDIA与台湾交大联手解决360度场景中物体消失的技术难题

    台湾阳明交通大学与NVIDIA联合开发的AuraFusion360技术,首次实现了360度全景场景中物体完美移除和空缺自然填补。该技术通过深度感知识别、自适应深度扩散和智能纹理融合三大创新,解决了传统方法在多视角一致性方面的难题,为VR/AR、房地产、旅游等行业的360度内容制作提供了革命性工具。
    至顶网  科技行者  2025-08-20 18:06:48  
  • ByteDance推出Seaweed-APT:1秒生成2秒高清视频,AI视频制作迈入实时时代

    ByteDance研究团队开发出革命性的Seaweed-APT技术,实现了首个真正意义上的实时高清视频生成。该技术通过创新的对抗后训练方法,将传统需要25步和数分钟的视频生成过程压缩为单步1秒完成,能生成2秒长1280×720高清视频,视觉真实感提升37.2%。尽管在结构完整性方面存在一定权衡,但这项突破为AI内容创作、社交媒体、教育和娱乐等领域开启了实时视频生成的新时代。
    至顶网  科技行者  2025-09-15 14:43:48  
  • 腾讯混元团队发布MixGRPO:让AI图像生成训练效率提升71%的混合式加速方案

    腾讯混元团队联合北京大学提出MixGRPO技术,通过混合ODE-SDE采样策略和滑动窗口机制,将AI图像生成训练效率提升50%-71%,同时在多项人类偏好评估指标上超越现有方法。该技术采用"从难到易"的渐进优化策略,专注于图像生成早期阶段的重点优化,并引入高阶求解器进一步加速训练过程,为AI图像生成的产业化应用提供了更高效可行的解决方案。
    至顶网  科技行者  2025-10-11 14:32:54  
  • MIT实验室打造音频界"翻译官":一个模型搞定语音、音乐和环境声

    这篇论文介绍了MIT开发的USAD技术,这是一种能够同时理解语音、音乐和环境声音的通用音频AI模型。通过创新的知识蒸馏方法,USAD在多个音频处理任务上都达到了接近专门模型的性能水平,为构建更智能的音频理解系统奠定了基础。该技术在智能助手、多媒体处理、教育等领域具有广阔的应用前景。
    至顶网  科技行者  2025-06-27 16:59:36  
  • 微软让AI模型解码效率狂飙9倍:华丽变身"注意力侦探"的逻辑推理大脑

    微软研究院联合多所知名高校开发出SeerAttention-R稀疏注意力框架,专门优化AI推理模型的长序列解码效率。该技术通过自蒸馏学习让AI学会智能筛选重要信息,在保持近乎无损推理准确性的同时,实现了高达9倍的计算加速。系统采用轻量级插件设计,无需重训原模型即可集成,为长文本AI推理应用的普及铺平道路。
    至顶网  科技行者  2025-06-16 16:18:00  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号