搜一下
用了 0.044621秒,为您找到
大小
单双
技巧
集锦
罔芷
88pkee
驻测
相关内容3164 条
QARI-OCR:阿拉伯文字识别新突破——如何让计算机轻松读懂阿拉伯文字的曲线与变化
这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。
至顶网
科技行者 2025-06-07 08:29:02
MMaDA:一个跨越边界的多模态扩散语言模型,来自普林斯顿和北京大学的革命性研究
MMaDA是由普林斯顿大学和北京大学研究团队开发的革命性多模态AI模型,它通过统一的扩散架构、混合长思考链训练和创新的UniGRPO强化学习算法,成功实现了文本推理、多模态理解和图像生成三大核心能力的高效整合。实验表明,这个8B参数的模型在多项任务上超越了专业单模态模型,展现了真正的多模态AI潜力,为未来通用人工智能发展提供了新方向。
至顶网
科技行者 2025-05-27 13:56:38
Google DeepMind揭示新型架构后门:批处理推理中的数据窃取与模型操控风险
这项由Google DeepMind和ETH苏黎世的研究人员完成的研究揭示了一种新型AI攻击方式,针对批处理推理过程中的架构漏洞。攻击者通过植入特殊的架构后门,可在同一批次处理中窃取其他用户数据,甚至操控模型对其他用户的响应。研究团队不仅展示了攻击的可行性,还提出了一种名为"批处理隔离检查器"的防御机制,能在模型部署前检测这类漏洞。大规模分析显示,现有200多个模型已存在类似安全风险,凸显了AI服务安全保障的紧迫性。
至顶网
科技行者 2025-05-30 09:40:36
让AI不再"为所欲为":ByteDance和港大联手破解视觉生成的精准控制难题
研究团队通过DanceGRPO框架首次实现了不同视觉生成技术的统一优化,解决了AI生成内容与人类偏好不匹配的关键问题。该方法在多个权威基准测试中取得显著性能提升,部分指标改进达181%,为AI视觉生成技术的实用化应用奠定了重要基础。
至顶网
科技行者 2025-07-08 09:35:52
第十八届中国音视频产业大会(AVF)暨“科技创新奖”颁奖礼在京召开
2022年12月26日,第十八届中国音视频产业大会(AVF)暨“科技创新奖”颁奖礼在北京线上线下同步召开。
至顶网
业界供稿 2022-12-29 10:23:36
小模型也能推理!Qualcomm用工具替代思考,让1B模型修复Python代码
Qualcomm AI Research团队提出了一种创新方法,通过让小语言模型使用编程工具而非抽象思考来解决代码修复问题。研究发现,1B和3B参数的小模型在使用这种"编辑链"方法时,成功率分别提升了6倍和2倍,远超传统思维链方法。这种工具辅助策略为小模型的实际应用开辟了新路径。
至顶网
科技行者 2025-07-23 10:01:40
从效率优化到模型根基:哈佛大学等多所顶尖学府联合研究Token压缩技术如何重塑生成式AI的未来
来自哈佛大学等顶尖学府的研究团队在这篇论文中挑战了传统观念,认为Token压缩不仅仅是提高AI模型运行效率的工具,更应成为生成式AI模型设计的核心原则。研究表明,精心设计的Token压缩策略可以促进多模态深度整合、减轻AI"幻觉"问题、增强处理长序列输入的能力,并提高训练稳定性。论文详细分析了现有方法的局限性,并提出了算法创新、强化学习指导和硬件协同设计等未来研究方向。
至顶网
科技行者 2025-06-03 07:43:12
上海交通大学团队发明AI"分配公平"新算法:让机器推理像人类思考一样多样化
上海交通大学团队开发出FlowRL训练方法,将AI从"奖励最大化"转向"分布匹配",让AI学会多样化推理而非单一模式。该方法在数学推理上比现有最佳方法提升10%准确率,在编程任务中达到CodeForces前83.3%水平,解题方案多样性提升近一倍,为AI训练提供了新思路。
至顶网
科技行者 2025-10-11 09:50:49
语音对话AI的"考试官"诞生!阿里巴巴+浙江大学团队首创WavReward评估系统
这项由浙江大学和阿里巴巴合作的研究首次为语音对话AI开发了专业评估系统WavReward,能够同时评估对话内容和语音情感等多维度信息。研究团队还构建了包含30000个样本的ChatReward-30K数据集,涵盖九种声学属性和隐含对话场景,为语音助手质量评估提供了重要工具。
至顶网
科技行者 2025-07-10 09:34:17
波兰语言技术突破:Bielik v3小型模型如何以更少资源实现更强性能
想象你正在选择一辆汽车。传统观念认为,想要强大的性能就必须购买大排量的豪华车型,但如今的技术让紧凑型车也能通过精巧的工程设计获得令人惊讶的动力和效率。这正是Bielik v3语言模型背后的理念。
至顶网
科技行者 2025-05-13 12:25:15
斯坦福大学Cartridges方案:让AI聊天节省99%内存的聪明方法
斯坦福大学研究团队提出Cartridges技术,通过"自学"训练方法将长文档知识压缩成小型数据包,使AI处理长文档时内存消耗降低38.6倍,运行速度提升26.4倍,同时保持回答质量。该方法采用预处理思路,让AI提前学习文档内容并生成可复用的知识模块,在医疗、法律、教育等领域具有广阔应用前景。
至顶网
科技行者 2025-06-12 11:22:12
上海AI实验室联手复旦大学:让AI学会像人类一样比较和评价,重新定义奖励模型的训练方式
上海AI实验室联手复旦大学提出了POLAR方法,这是一种革命性的奖励模型训练技术。通过让AI学会识别不同策略间的差异而非死记评分标准,POLAR在多项任务上实现了显著提升,7B参数模型超越72B现有最强基线,为AI对齐问题提供了全新解决思路。
至顶网
科技行者 2025-07-11 10:16:14
实体检索革命:Bar-Ilan大学开发智能系统,让计算机像图书管理员一样精准找到你想要的任何实体
Bar-Ilan大学研究团队开发出NER Retriever智能实体检索系统,突破传统固定分类限制,用户可用自然语言描述检索任意实体类型。系统巧妙利用大语言模型内部知识结构,准确率比传统方法高3-4倍,存储效率提升79%,为新闻媒体、学术研究等领域的信息检索带来革命性改进。
至顶网
科技行者 2025-09-23 10:02:48
阿里团队推出DeepPHY:首个专门测试AI视觉模型物理推理能力的综合评估平台
阿里团队推出首个AI物理推理综合测试平台DeepPHY,通过六个物理环境全面评估视觉语言模型的物理推理能力。研究发现即使最先进的AI模型在物理预测和控制方面仍远落后于人类,揭示了描述性知识与程序性控制间的根本脱节,为AI技术发展指明了重要方向。
至顶网
至顶AI实验室 2025-08-13 15:16:57
un?CLIP:通过反转unCLIP来提升CLIP模型的视觉细节捕捉能力
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
至顶网
科技行者 2025-06-04 17:13:10
阿里巴巴推出DeepPHY:首个专门测试AI视觉模型物理推理能力的综合评估平台
阿里巴巴团队推出DeepPHY,这是首个专门评估AI视觉语言模型物理推理能力的综合平台。通过六个不同难度的物理环境测试,研究发现即使最先进的AI模型在物理推理任务中表现也远低于人类,成功率普遍不足30%。更关键的是,AI模型虽能准确描述物理现象,却无法将描述性知识转化为有效控制行为,暴露了当前AI技术在动态物理环境中的根本缺陷。
至顶网
科技行者 2025-08-12 14:18:56
神经符号查询编译器:让搜索意图识别更精准更高效
这项研究提出了QCompiler,一个神经符号框架,旨在提升检索增强生成系统中的搜索意图识别精确度。研究团队设计了最小且充分的BNF语法来形式化复杂查询,并开发了包含查询表达式翻译器、词法语法分析器和递归下降处理器的编译系统,将查询编译为抽象语法树。叶节点子查询的原子性确保了更精确的文档检索和回答生成,显著提升了处理复杂查询的能力。实验证明该方法在多个基准测试中表现优异,尤其在处理依赖型查询时优势明显。
至顶网
科技行者 2025-05-22 08:20:10
华中科大团队破解AI网页设计痛点:让机器像人类一样"分块思考"生成代码
华中科技大学研究团队开发的LaTCoder通过"分而治之"策略解决AI网页代码生成中的布局保持难题。该方法将复杂网页设计分割为小块,逐块生成代码后智能拼接,在多个评估指标上显著优于现有方法。团队还构建了更具挑战性的CC-HARD数据集,为行业提供了新的测试标准。这项技术有望大幅降低网页开发门槛,推动设计到代码的自动化转换。
至顶网
科技行者 2025-08-11 11:05:52
新加坡国大团队重磅突破:让AI学会看直播解说,5百万视频打造史上最强实时视频评论员
新加坡国立大学研究团队开发出革命性AI视频解说系统LiveCC,通过500万YouTube视频训练,实现0.5秒内实时生成视频解说。该系统在体育赛事解说质量上超越多个大型模型,在传统视频问答任务中也达到同规模最优性能,为AI实时多模态理解开辟新方向。
至顶网
科技行者 2025-07-14 09:46:26
用AI"慧眼"保护非洲野生动物:从传统CNN到视觉变换器的技术革命
这项由尼日利亚阿雷瓦数据科学学院主导的国际研究,通过对比DenseNet、ResNet、EfficientNet和Vision Transformer四种深度学习模型,为非洲野生动物保护提供了AI技术解决方案。研究发现DenseNet-201在实用性和准确率间达到最佳平衡,并成功部署了在线识别应用,为AI技术服务野生动物保护事业提供了完整的从理论到实践的范例。
至顶网
科技行者 2025-08-05 13:21:09
<
上一页
120
121
122
123
124
125
126
127
128
129
下一页
>
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7
京ICP证161336号 京公网安备11010802021500号