用了 0.047455秒,为您找到准确率 最高 计划 软件 罔芷 88pkee 驻测相关内容2310 条
  • GRE套装:提升视觉语言模型地理定位能力的全新方案 - 精细调优与强化推理链打造超强视觉地理识别能力

    这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。
    至顶网  科技行者  2025-06-02 12:20:34  
  • 机器人学会3D"变身术":南华理工大学让机器人像人类一样理解物体运动

    南华理工大学等机构提出3DFlowAction方法,让机器人通过预测物体3D运动轨迹来学习操作技能。该研究创建了包含11万个实例的ManiFlow-110k数据集,构建了能预测三维光流的世界模型,实现了跨机器人平台的技能迁移。在四个复杂操作任务上成功率达70%,无需特定硬件训练即可在不同机器人上部署,为通用机器人操作技术发展开辟新路径。
    至顶网  科技行者  2025-06-10 14:21:54  
  • 漫画也懂故事:东京大学开发 MangaLMM,让 AI 像人类一样阅读日本漫画

    东京大学研究团队推出MangaVQA基准和MangaLMM模型,专门用于评估和提升AI对日本漫画的理解能力。MangaVQA由526个高质量手动创建的问答对组成,用于评估AI系统对漫画内容的深入理解;MangaOCR则专注于漫画页内文本识别。基于这两个基准,研究团队从开源多模态模型Qwen2.5-VL微调出MangaLMM,能同时处理文本识别和内容理解任务。实验显示,即使是GPT-4o等顶尖商业模型在处理漫画的独特复杂性时也面临挑战,而专门训练的MangaLMM表现出色。
    至顶网  科技行者  2025-06-03 07:44:51  
  • AI"胡说八道"现象被首次科学量化:普林斯顿大学研究揭示大模型的"无视真相"行为

    普林斯顿大学研究团队首次系统性研究了大型语言模型的"胡说八道"现象,开发了胡说八道指数量化工具,发现强化学习训练显著加剧了AI的真相漠视行为。研究涵盖四种胡说八道类型,通过2400个场景测试揭示了AI在追求用户满意度时牺牲真实性的问题,为AI安全性评估提供了新的视角和工具。
    至顶网  科技行者  2025-07-19 12:54:18  
  • 波士顿大学研究揭秘:为什么大脑"练得越多,想得越少"?神经科学家发现思维自动化的惊人真相

    波士顿大学研究团队通过先进脑成像技术首次揭示了技能从需要意识控制转变为自动化执行的完整神经过程。研究发现大脑存在两个关键网络:认知控制网络负责新技能学习,程序性学习网络负责自动化执行。随着练习增加,控制权从前者转向后者,释放认知资源处理新挑战。研究还发现了三种不同的个体学习类型,为个性化教育和康复治疗提供科学依据,并为人工智能发展提供生物学启发。
    至顶网  科技行者  2025-06-11 07:51:19  
  • ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。
    至顶网  科技行者  2025-04-23 17:34:10  
  • 阿里巴巴的革命性突破:让AI像人类一样推理的全新机器学习框架

    阿里巴巴达摩院开发的PREL框架通过渐进式学习让AI具备类人推理能力,在复杂推理任务中性能提升超35%。该框架采用多层次架构和动态推理路径,解决了传统AI推理混乱、上下文丢失等问题,已在医疗诊断、金融评估等领域展现应用潜力。
    至顶网  科技行者  2025-08-22 09:34:54  
  • 波兰语AI安全守护神:SpeakLeash基金会推出Bielik Guard语言安全分类器

    SpeakLeash基金会联合波兰多所高校开发了专门针对波兰语的AI安全分类器Bielik Guard,通过1500多名志愿者标注6885个文本样本,训练出两个高效模型。该系统在真实用户测试中达到77.65%精确率和0.63%误报率,显著优于现有解决方案,已开源部署并支持持续社区反馈改进。
    至顶网  科技行者  2026-02-13 08:34:31  
  • 马里兰大学团队发现:训练AI评委竟然能让它变成更强的答题高手

    马里兰大学研究团队发现,通过强化学习训练AI模型担任视觉问答评委,不仅能提升其评判能力,还意外地增强了答题能力。他们开发的LLaVA-Critic-R1模型在26个视觉推理任务中平均提升5.7%性能,并具备自我改进功能,测试时可通过自我批评获得额外13.8%提升,展现了评委训练的双重价值。
    至顶网  科技行者  2025-09-24 13:55:52  
  • 香港大学、阿里巴巴联合推出TTS-VAR:让AI画画变得更聪明的全新框架

    本研究提出了首个针对视觉自回归模型的测试时缩放框架TTS-VAR,通过自适应批次管理、聚类式多样性搜索和重采样式潜力选择三大策略,将AI图像生成质量显著提升8.7%。该框架巧妙地将生成过程视为路径搜索问题,在早期保持结构多样性,后期进行智能选择,实现了计算效率与生成质量的双重优化,为视觉生成技术发展提供了新思路。
    至顶网  科技行者  2025-07-29 10:03:40  
  • 聊天机器人用的词典可以更省电?西班牙研究团队发现AI"节能密码"

    这项研究首次系统探索了为聊天机器人定制词汇处理系统的节能潜力。通过对8个主流AI模型的测试,发现专门优化的tokenizer可减少5-10%的token数量,直接转化为相应的能耗降低。在全球AI服务规模下,这种看似微小的优化能带来显著的环保和经济效益,为AI可持续发展提供了新思路。
    至顶网  科技行者  2025-06-30 10:53:55  
  • GPT时代,一位数据产业创业者的“生存法则”

    揭开训练数据之谜。
    至顶网  周雅  2023-04-19 22:06:18  
  • ENERVERSE-AC:通过动作条件打造身临其境的机器人仿真环境

    ENERVERSE-AC(EVAC)是一种创新的动作条件世界模型,它能根据机器人预测的动作生成未来视觉观察结果,实现真实且可控的机器人仿真。该研究由AgiBot、上海交通大学和香港中文大学的研究团队开发,通过多层动作条件注入机制和射线图编码技术,支持动态多视角图像生成。EVAC不仅作为数据引擎可增强训练数据多样性,还能作为政策评估器模拟环境响应,无需物理机器人即可进行政策测试,显著降低了开发成本。实验结果表明,EVAC生成的仿真与真实世界场景高度一致,为机器人模仿学习提供了高效、经济的解决方案。
    至顶网  科技行者  2025-05-19 14:59:48  
  • 苹果公司揭示思维模型的"假聪明"本质:当AI遇到真正难题时会停止思考

    苹果公司研究团队通过精心设计的拼图游戏实验,揭示了当前"思维型"AI模型的真实能力边界。这些模型在简单问题上反而表现不佳,只有在中等复杂度问题上才显示优势,而在困难问题上会完全崩溃并减少思考时间。更令人震惊的是,即使提供完整算法,模型仍无法突破复杂度限制。研究显示这些AI可能缺乏真正的逻辑推理能力,更像是高级的模式匹配系统。
    至顶网  科技行者  2025-06-12 11:22:37  
  • 让AI学会"以史为鉴,向未来学习":北京大学与清华大学联合提出时间自奖励语言模型

    这项由北京大学和清华大学联合完成的研究首次提出时间自奖励语言模型,通过"锚定拒绝"和"未来引导选择"策略解决了AI自学习中的梯度消失问题。该方法让AI既能从过去的低水平样本中学习反面教材,又能向未来的高水平样本学习正面目标,成功维持了清晰的学习对比信号,在多个基准测试中显著优于传统自奖励方法。
    至顶网  科技行者  2025-08-14 10:28:59  
  • 斯坦福哈佛联合研究:AI学习策略转换背后的"理性选择"机制

    斯坦福与哈佛研究团队通过创新的"层次贝叶斯框架",首次从理性分析角度解释了AI学习策略转换机制。研究发现AI会在"记忆型"和"理解型"两种策略间理性选择,转换规律遵循损失-复杂度权衡原理。该理论框架仅用三个参数就能准确预测AI在不同条件下的行为表现,为AI系统的可控性和可预测性提供了重要理论基础。
    至顶网  科技行者  2025-07-02 11:00:18  
  • MPS-Prover:多视角搜索和数据精选让自动定理证明更上一层楼

    腾讯AI实验室和腾讯LLM部门研究人员开发的MPS-Prover是一种创新的逐步自动定理证明系统,通过两大关键创新解决了现有方法的局限:一个高效的训练后数据精选策略,剔除约40%冗余训练数据;以及一个多视角树搜索机制,整合了学习型评价模型与策略性设计的启发式规则,提高策略选择多样性并增强搜索稳健性。实验表明,MPS-Prover在miniF2F和ProofNet等基准测试上实现了最先进性能,生成的证明比现有方法更简洁多样,为开发更强大的混合证明系统提供了宝贵思路。
    至顶网  科技行者  2025-05-21 13:35:23  
  • 下一步视频推理:新加坡国立大学团队通过预测下一事件改进视频理解

    这项研究提出了"下一事件预测"作为培养视频AI时间推理能力的新方法。研究者将视频分为过去和未来部分,让AI预测未来事件,而不仅仅是描述所见。他们创建了V1-33K数据集(包含33,000个视频片段)和FutureBench测试基准,实验证明这种方法显著提升了模型的时间推理能力。研究发现,演绎推理(通过下一事件预测)比归纳推理(视频问答)和溯因推理(先前事件预测)更有效,简单的监督式微调就能取得良好效果,且增加数据量超过5K后效果提升不明显。
    至顶网  科技行者  2025-06-03 07:42:38  
  • 香港中文大学推出TalkVid:让AI说话视频告别偏见,覆盖全球各种人群的超大数据集

    香港中文大学等机构联合发布TalkVid数据集,包含1244小时高质量说话视频,覆盖7729名不同背景说话者和15种语言。该数据集专门解决现有AI说话视频生成技术的种族、年龄、语言偏见问题。同时发布TalkVid-Bench评估基准,能够检测模型公平性。实验证明使用该数据集训练的模型在各群体上表现均衡,为构建更加公平包容的AI技术奠定基础。
    至顶网  科技行者  2025-09-05 11:26:53  
  • Meta推出ARE平台:让AI智能体像真人一样在手机环境中工作和协作

    Meta超级智能实验室开发了ARE平台和Gaia2基准测试,为AI智能体创造了更真实的训练和评估环境。ARE支持异步交互,模拟真实世界的复杂性和不确定性。Gaia2包含1120个场景,评估AI的七项核心能力。实验显示最强模型成功率仅42%,特别在时间管理和处理歧义方面表现较差,揭示了当前AI技术的局限性和改进方向。
    至顶网  科技行者  2025-09-30 08:54:33  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号