用了 0.058855秒,为您找到北京 pk 精准 人工 计划 软件 網纸 YB233相关内容3643 条
  • 机器人学会"自己教自己":布朗大学团队让机器人像人类一样边做边学

    布朗大学和哈佛大学研究团队开发出SAIL系统,让机器人能够像人类一样通过自我实践来学习新技能。该系统结合互联网规模的视频模型和环境特定知识,使机器人在面对未见过的任务时能够持续自我改进。实验证明,机器人的成功率能从24%提升至80%以上,且即使从失败经验中也能学习改进。
    至顶网  科技行者  2025-06-13 09:47:07  
  • 大语言模型的"方向盘"失控了?加州大学团队揭秘AI行为控制的隐藏陷阱

    加州大学团队首次全面评估了五种主流AI行为控制技术,发现当前方法在提升AI安全性的同时会产生意想不到的副作用。研究通过SteeringControl框架测试发现,不同控制方法在不同AI模型上效果差异巨大,且普遍存在"行为纠缠"问题。该研究为AI安全控制技术的发展提供了重要诊断工具和改进方向。
    至顶网  科技行者  2025-09-29 14:29:59  
  • 安全科学家:打造风险感知型AI科学家,引领安全的LLM智能发现之路

    伊利诺伊大学香槟分校研究团队开发了SafeScientist,一个安全优先的AI科学家框架,能主动拒绝不道德或高风险任务,并在整个研究过程中确保安全。该框架整合了四层防御机制:提示监控、智能体协作监督、工具使用控制和伦理审查。团队还创建了SciSafetyBench基准测试集,包含240个高风险科学任务和120个工具相关风险场景,用于评估AI科学家的安全性。实验表明,SafeScientist比传统框架提高了35%的安全性能,同时不影响科学输出质量,为AI驱动的科学探索提供了安全与创新并重的新范式。
    至顶网  科技行者  2025-06-03 13:32:56  
  • GRE套装:提升视觉语言模型地理定位能力的全新方案 - 精细调优与强化推理链打造超强视觉地理识别能力

    这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。
    至顶网  科技行者  2025-06-02 12:20:34  
  • AI语言模型新革命:像人一样思考句子却说出单词——AIRI研究院提出SONAR-LLM

    AIRI研究院提出SONAR-LLM,这是一种革命性的AI语言模型,它像人类一样先用抽象概念思考完整句子,再转换成具体词语输出。相比传统逐词生成的方法,SONAR-LLM在处理长文本时效率显著提升,当文档超过4096词时计算优势明显。实验显示它在摘要等任务中表现优异,特别是需要抽象化能力的场景,同时保持了训练的稳定性。
    至顶网  科技行者  2025-08-14 12:46:43  
  • 哥伦比亚大学发布革命性AI检索技术:用"异构图"重新定义智能问答系统

    哥伦比亚大学研究团队发布NodeRAG技术,通过异构图结构革新智能问答系统。该方法将文档信息分解为7种节点类型,采用双重搜索机制,在多个权威测试中准确率达89.5%,检索效率提升50%以上,为智能信息检索技术带来重大突破。
    至顶网  科技行者  2025-07-14 14:39:22  
  • 人工智能界的"评委"进阶记:中国人民大学等机构如何让AI重新学会"看懂"文本的含金量

    这项由中国人民大学、百度和卡内基梅隆大学合作的研究开发出ReasonRank系统,通过创新的数据合成和两阶段训练方法,让AI具备了真正的推理能力进行文本排序。该系统在复杂推理任务中比现有最强系统高出3-5个百分点,同时运行速度提升2-2.7倍,为推理式信息检索开辟了新方向。
    至顶网  科技行者  2025-08-14 12:12:50  
  • 微软最新研究:AI训练也要讲究"上菜顺序"——数据排列新方法让机器学习效果提升65%

    微软研究院最新发布的DELT方法革命性地改变了AI训练数据的组织方式,通过给训练样本评分、筛选和重新排序,让AI模型能够循序渐进地学习。这种方法无需增加模型大小或数据量,就能将性能提升1.65%,实现训练效率翻倍,为AI训练带来几乎"免费"的性能提升。
    至顶网  科技行者  2025-07-03 13:55:59  
  • 中科院软件所提出SolutionRAG系统:工程师的智能助手,让复杂工程设计变得简单易行

    中科院软件所联合阿里巴巴推出SolutionRAG智能工程设计系统,通过双重思维树机制自动生成复杂工程解决方案。该系统能像资深工程师一样同时考虑地震、土壤、降雨等多重约束条件,在八个工程领域的测试中均达到最佳性能,为工程设计的智能化应用开辟了新方向。
    至顶网  科技行者  2025-07-30 20:49:12  
  • 双向语言模型是更好的知识记忆者?WikiDYK成为大语言模型知识注入的全新标准

    这项研究介绍了WikiDYK基准测试,利用维基百科"你知道吗"板块的实时更新内容评估大语言模型的知识注入能力。研究发现,双向语言模型(BiLMs)在记忆知识方面显著优于因果语言模型(CLMs),准确率高出约23%。基于此,研究团队提出了一个模块化框架,将BiLMs作为知识库集成到LLMs中,进一步提升了29.1%的可靠性。这一发现挑战了当前主流LLM架构的优势假设,为AI系统的知识更新提供了新方向。
    至顶网  科技行者  2025-05-23 15:32:10  
  • 北航团队突破3D重建难题:让电脑像人眼一样"看懂"立体世界

    北航团队开发的GeoSVR技术突破了传统3D重建方法的局限,采用稀疏体素表示和体素不确定性评估,无需依赖初始点云即可实现高精度表面重建。该方法通过智能的深度约束和体素协同优化策略,在DTU等标准数据集上取得了最佳性能,为VR/AR、文物保护、影视制作等领域提供了新的技术选择。
    至顶网  科技行者  2025-10-15 00:39:50  
  • WEB-SHEPHERD:让网络代理更智能的过程奖励模型

    这项研究介绍了WEB-SHEPHERD,这是首个专为评估网络导航轨迹设计的过程奖励模型。延世大学和卡内基梅隆大学的研究团队创建了包含40K步级别注释的WEBPRM COLLECTION数据集和WEBREWARDBENCH评估基准。实验表明,WEB-SHEPHERD在评估基准上比GPT-4o高出约30个百分点,并且在WebArena-lite上使用时,性能提升了10.9个百分点,同时成本降低了10倍。这一创新模型通过结构化清单将高级用户指令分解为可解释的子目标,为构建更可靠、更经济的网络代理奠定了基础。
    至顶网  科技行者  2025-05-27 11:35:44  
  • 当机器开始"看懂"人类情感:清华大学团队让AI学会识别表情背后的真实感受

    清华大学研究团队在IEEE Transactions on Affective Computing发表突破性研究,提出双重学习策略让AI准确识别人类面部情感。新方法结合判别性和生成性学习,在多个标准数据集上准确率显著提升3-4个百分点,特别在处理陌生人脸时表现出色。技术有望应用于智能教育、医疗健康、人机交互等领域,但仍需解决文化差异和隐私保护等挑战。
    至顶网  科技行者  2025-07-22 09:50:58  
  • AI大模型能否真正理解物理世界?多所顶尖高校联手测试结果令人深思

    这项研究开发了首个轻量级物理推理评估框架,测试四种主流视觉语言模型在抛射运动、碰撞动力学、力学和流体动力学四个领域的表现。结果显示中等规模的Qwen2.5-VL-7B意外击败最大模型获得最高分0.815,揭示了当前AI模型更擅长公式应用而非真正物理理解的局限性。研究为科学推理评估提供了可复制的工具,并指出概念性错误是主要问题,为未来AI发展指明方向。
    至顶网  科技行者  2025-09-28 13:47:25  
  • ByteDance推出OneReward:让AI图像编辑模型学会"人类品味"的统一训练框架

    ByteDance研究团队提出OneReward统一奖励框架,通过单一视觉语言模型指导多任务图像编辑模型训练。该方法在图像填充、扩展、物体移除和文字渲染任务上均超越商业竞品,开发的Seedream 3.0 Fill在多维评估中表现卓越,为AI图像编辑领域提供了统一的人类偏好学习解决方案。
    至顶网  科技行者  2025-09-05 10:11:15  
  • Hugging Face发布3D Arena:首个大规模3D模型评测平台,123,243次投票颠覆传统评估方式

    Hugging Face推出3D Arena平台,通过123,243次用户投票建立首个大规模3D模型人类偏好评估体系。研究发现用户更偏爱视觉冲击力强的高斯溅射模型和带纹理模型,揭示了审美直觉与技术实用性间的差异,为AI开发提供重要参考。
    至顶网  科技行者  2025-06-27 10:25:11  
  • 马里兰大学团队发现:训练AI评委竟然能让它变成更强的答题高手

    马里兰大学研究团队发现,通过强化学习训练AI模型担任视觉问答评委,不仅能提升其评判能力,还意外地增强了答题能力。他们开发的LLaVA-Critic-R1模型在26个视觉推理任务中平均提升5.7%性能,并具备自我改进功能,测试时可通过自我批评获得额外13.8%提升,展现了评委训练的双重价值。
    至顶网  科技行者  2025-09-24 13:55:52  
  • Enigmata:通过合成可验证的拼图让大语言模型的逻辑推理能力扩展到新高度

    Enigmata是一项突破性研究,通过合成可验证的拼图训练大语言模型的逻辑推理能力。该研究创建了包含36种任务、7大类推理能力的完整训练系统,每项任务都配备了可控难度生成器和自动验证器。基于此训练的Qwen2.5-32B-Enigmata模型在拼图推理基准上超越了o3-mini-high和o1等顶尖模型。更令人惊喜的是,当应用于更大规模模型时,这些拼图数据不仅提升了模型解决拼图的能力,还意外增强了其数学和STEM推理能力,展示了纯逻辑训练带来的广泛泛化优势。
    至顶网  科技行者  2025-05-30 07:43:48  
  • 智慧计算,助力跨国企业绿色碳交易智慧转型

    为推动绿色碳交易跨越式发展,HPE与战略合作伙伴英特尔2023年10月26日在苏州举办了“跨国低碳·慧行至远”为主题的跨国企业绿色碳交易智慧转型研讨会。
    至顶网  至顶网计算频道  2023-11-02 09:48:52  
  • 拼图解密:KU Leuven团队探索视觉拼图的强化学习之旅

    这项来自KU Leuven、中科大和上海Memory Tensor公司的研究探索了如何利用拼图游戏训练多模态大型语言模型的视觉推理能力。研究发现,现有模型在未经训练时表现近似随机猜测,但通过强化学习能达到近乎完美的准确率并泛化到更复杂的拼图配置。有趣的是,模型能否有效学习与是否包含明确推理过程无关,且复杂推理模式是预先存在而非突然出现的。此外,研究证明强化学习在泛化能力上优于监督微调,挑战了传统的模型训练范式。这些发现不仅揭示了AI视觉理解的机制,还为未来多模态模型研发提供了重要参考。
    至顶网  科技行者  2025-06-05 11:05:15  
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7  京ICP证161336号  京公网安备11010802021500号