用了 0.032841秒,为您找到大小 单双 技巧 集锦 罔芷 88pkee 驻测相关内容2142 条
  • UniWorld:北大袁路团队打造的高分辨率语义编码器,统一视觉理解与生成

    北京大学深圳研究生院袁路团队提出UniWorld模型,使用高分辨率语义编码器替代传统VAE,实现了图像理解和操作的统一。通过仅2.7M样本训练,UniWorld在图像编辑、文本生成图像和视觉理解方面均超越或接近使用2665M样本的BAGEL模型,证明了语义编码器提供的丰富视觉表征优势。研究已完全开源,包括代码、权重和数据集。
    至顶网  科技行者  2025-06-06 17:29:54  
  • 蒙特利尔大学团队用AI"强化学习"让图像编辑变得像聊天一样简单

    蒙特利尔大学研究团队开发出EARL图像编辑系统,通过强化学习训练让AI能够理解自然语言指令并完成复杂图像编辑。该系统采用"教练式"训练方法,AI在智能评价系统指导下持续改进编辑能力,最终在综合测试中以4.80分超越了包括商业系统Omnigen在内的所有对比方法。EARL不仅能处理简单的颜色修改,还能完成空间关系调整、数量变化等复杂任务,代表了人机交互方式的重要变革,有望让图像编辑变得像聊天一样简单。
    至顶网  科技行者  2025-08-11 09:57:30  
  • QARI-OCR:阿拉伯文字识别新突破——如何让计算机轻松读懂阿拉伯文字的曲线与变化

    这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。
    至顶网  科技行者  2025-06-07 08:29:02  
  • MMaDA:一个跨越边界的多模态扩散语言模型,来自普林斯顿和北京大学的革命性研究

    MMaDA是由普林斯顿大学和北京大学研究团队开发的革命性多模态AI模型,它通过统一的扩散架构、混合长思考链训练和创新的UniGRPO强化学习算法,成功实现了文本推理、多模态理解和图像生成三大核心能力的高效整合。实验表明,这个8B参数的模型在多项任务上超越了专业单模态模型,展现了真正的多模态AI潜力,为未来通用人工智能发展提供了新方向。
    至顶网  科技行者  2025-05-27 13:56:38  
  • Google DeepMind揭示新型架构后门:批处理推理中的数据窃取与模型操控风险

    这项由Google DeepMind和ETH苏黎世的研究人员完成的研究揭示了一种新型AI攻击方式,针对批处理推理过程中的架构漏洞。攻击者通过植入特殊的架构后门,可在同一批次处理中窃取其他用户数据,甚至操控模型对其他用户的响应。研究团队不仅展示了攻击的可行性,还提出了一种名为"批处理隔离检查器"的防御机制,能在模型部署前检测这类漏洞。大规模分析显示,现有200多个模型已存在类似安全风险,凸显了AI服务安全保障的紧迫性。
    至顶网  科技行者  2025-05-30 09:40:36  
  • 第十八届中国音视频产业大会(AVF)暨“科技创新奖”颁奖礼在京召开

    2022年12月26日,第十八届中国音视频产业大会(AVF)暨“科技创新奖”颁奖礼在北京线上线下同步召开。
    至顶网  业界供稿  2022-12-29 10:23:36  
  • 从效率优化到模型根基:哈佛大学等多所顶尖学府联合研究Token压缩技术如何重塑生成式AI的未来

    来自哈佛大学等顶尖学府的研究团队在这篇论文中挑战了传统观念,认为Token压缩不仅仅是提高AI模型运行效率的工具,更应成为生成式AI模型设计的核心原则。研究表明,精心设计的Token压缩策略可以促进多模态深度整合、减轻AI"幻觉"问题、增强处理长序列输入的能力,并提高训练稳定性。论文详细分析了现有方法的局限性,并提出了算法创新、强化学习指导和硬件协同设计等未来研究方向。
    至顶网  科技行者  2025-06-03 07:43:12  
  • 新加坡国立大学团队突破性成果:让AI从几十张图片就能学会艺术家的"涂鸦"技巧

    新加坡国立大学团队开发的PhotoDoodle系统,通过两阶段训练策略实现了从少量样本学习艺术家照片涂鸦风格的突破。该系统采用位置编码复用和无噪声条件机制,仅需30-50对图片样本就能掌握特定艺术风格,在保持背景完整的同时精确添加装饰元素,为AI辅助艺术创作开辟了新方向。
    至顶网  科技行者  2025-08-21 16:39:53  
  • ImgEdit:北京大学与兔小贝AI联合推出的统一图像编辑数据集与基准测试

    ImgEdit是北京大学与兔小贝AI联合推出的图像编辑框架,解决了开源编辑模型落后于商业产品的问题。该框架包含120万对高质量编辑图像对,涵盖13种编辑类型和11万个多轮交互样本。通过融合视觉语言模型、检测模型和分割模型的多阶段流程,ImgEdit确保了数据的高质量性。研究团队基于此数据集训练了ImgEdit-E1模型,并提出ImgEdit-Bench评估基准,从指令遵循、编辑质量和细节保留三个维度全面评估模型性能。实验结果显示,ImgEdit-E1在多个任务上超越现有开源模型,推动了图像编辑技术的进步。
    至顶网  科技行者  2025-05-31 10:05:02  
  • 斯坦福大学Cartridges方案:让AI聊天节省99%内存的聪明方法

    斯坦福大学研究团队提出Cartridges技术,通过"自学"训练方法将长文档知识压缩成小型数据包,使AI处理长文档时内存消耗降低38.6倍,运行速度提升26.4倍,同时保持回答质量。该方法采用预处理思路,让AI提前学习文档内容并生成可复用的知识模块,在医疗、法律、教育等领域具有广阔应用前景。
    至顶网  科技行者  2025-06-12 11:22:12  
  • 图像渲染反馈强化学习:从ServiceNow研究团队到高质量矢量图形生成的突破

    ServiceNow研究团队开发了一种名为RLRF的新方法,通过强化学习显著提升了AI生成矢量图形(SVG)的质量。与传统方法不同,RLRF让AI能够"看到"自己生成的SVG代码渲染后的效果,并据此获得反馈。研究表明,这种方法不仅提高了生成图像的视觉准确性,还使代码更加简洁高效,并能够轻松泛化到从未见过的图像类型。这一突破为从图像或文本自动生成高质量矢量图形铺平了道路,对设计和开发领域具有重要意义。
    至顶网  科技行者  2025-06-01 16:08:43  
  • 上海AI实验室联手复旦大学:让AI学会像人类一样比较和评价,重新定义奖励模型的训练方式

    上海AI实验室联手复旦大学提出了POLAR方法,这是一种革命性的奖励模型训练技术。通过让AI学会识别不同策略间的差异而非死记评分标准,POLAR在多项任务上实现了显著提升,7B参数模型超越72B现有最强基线,为AI对齐问题提供了全新解决思路。
    至顶网  科技行者  2025-07-11 10:16:14  
  • 实体检索革命:Bar-Ilan大学开发智能系统,让计算机像图书管理员一样精准找到你想要的任何实体

    Bar-Ilan大学研究团队开发出NER Retriever智能实体检索系统,突破传统固定分类限制,用户可用自然语言描述检索任意实体类型。系统巧妙利用大语言模型内部知识结构,准确率比传统方法高3-4倍,存储效率提升79%,为新闻媒体、学术研究等领域的信息检索带来革命性改进。
    至顶网  科技行者  2025-09-23 10:02:48  
  • un?CLIP:通过反转unCLIP来提升CLIP模型的视觉细节捕捉能力

    un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
    至顶网  科技行者  2025-06-04 17:13:10  
  • 神经符号查询编译器:让搜索意图识别更精准更高效

    这项研究提出了QCompiler,一个神经符号框架,旨在提升检索增强生成系统中的搜索意图识别精确度。研究团队设计了最小且充分的BNF语法来形式化复杂查询,并开发了包含查询表达式翻译器、词法语法分析器和递归下降处理器的编译系统,将查询编译为抽象语法树。叶节点子查询的原子性确保了更精确的文档检索和回答生成,显著提升了处理复杂查询的能力。实验证明该方法在多个基准测试中表现优异,尤其在处理依赖型查询时优势明显。
    至顶网  科技行者  2025-05-22 08:20:10  
  • 用AI"慧眼"保护非洲野生动物:从传统CNN到视觉变换器的技术革命

    这项由尼日利亚阿雷瓦数据科学学院主导的国际研究,通过对比DenseNet、ResNet、EfficientNet和Vision Transformer四种深度学习模型,为非洲野生动物保护提供了AI技术解决方案。研究发现DenseNet-201在实用性和准确率间达到最佳平衡,并成功部署了在线识别应用,为AI技术服务野生动物保护事业提供了完整的从理论到实践的范例。
    至顶网  科技行者  2025-08-05 13:21:09  
  • 字节跳动发布Lynx:一张照片就能生成逼真个人视频的AI新突破

    字节跳动推出Lynx个性化视频生成系统,仅需一张照片即可生成高保真度个人视频。该技术采用双适配器架构,通过ID-adapter处理身份特征,Ref-adapter注入视觉细节,在800个测试案例中展现出卓越的面部相似度和视频质量,超越现有同类方法,为个性化内容创作开辟新路径。
    至顶网  科技行者  2025-09-26 12:10:52  
  • 佳能石井俊幸:没有R5 Mark II,专业视频用户值得入手R5C

    据市场调研机构Gfk公布的相机品牌市场份额排名中,相机品类中佳能的市场份额达到55%,是最高的。
    至顶网  业界供稿  2023-03-27 17:43:38  
  • 南洋理工大学团队突破:两分钟长视频生成不再是梦想

    南洋理工大学团队突破长视频生成技术瓶颈,提出TokensGen框架,通过压缩标记和模块化设计实现两分钟连贯视频生成。该方法将长视频制作分解为内容控制、一致性保证和平滑过渡三个任务,有效解决了传统方法的内存限制和内容不连贯问题,在多项评测中显著优于现有技术。
    至顶网  科技行者  2025-07-25 11:47:21  
  • 我们整理了19个千奇百怪的谷歌面试问题,只是最终被封存了

    2009年,身在西雅图的职业规划导师Lewis Lin汇总了客户在面试谷歌时遇到的140个问题。我们选出了其中19个最让人无法理解的“佼佼者”,并贴心的附上答案。
    至顶网  科技行者  2018-11-16 14:25:18  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号