搜一下
用了 0.033158秒,为您找到
准确率
最高
计划
软件
罔芷
88pkee
驻测
相关内容2181 条
SHARE:一种基于小型语言模型的分层行动修正助手,助力文本到SQL转换
这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化精细化修正。研究团队还创新性地提出了层次化自演化训练策略,大大提高了训练数据效率。实验结果表明,SHARE在多个基准测试上显著提升了SQL生成
准确率
,计算成本仅为传统方法的十分之一,并展现出强大的泛化能力,适用于各种生成器模型和SQL方言。
至顶网
科技行者 2025-06-07 08:29:51
马里兰大学等机构联合研究:AI视觉模型的"火眼金睛"训练法
马里兰大学等机构联合提出ViCrit训练法,通过让AI识别图片描述中的人工植入错误来提升视觉理解能力。该方法将传统的生成完整描述转换为精确的错误定位任务,使训练目标更加明确。实验显示经过训练的AI模型在幻觉减少和多项视觉推理任务上都有显著提升,同时研究团队还发布了ViCrit-Bench评估基准。这项研究为AI视觉训练开辟了新思路。
至顶网
科技行者 2025-06-19 12:55:24
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技等机构联合开源了百亿级图文交错数据集OmniCorpus,规模是现有数据集的15倍,包含86亿张图像和16,960亿个文本标记。OmniCorpus数据集在多语言、多类型数据抓取上进行了优化,提高了内容提取的质量和完整性。通过人工反馈和自动过滤规则,确保了数据集的高质量。在VQA和Image Captioning等测试中,基于OmniCorpus预训练的模型表现出色,对训练多模态大模型有重要帮助。
至顶网
AIGC开放社区 2024-09-02 16:04:28
南华理工大学团队破解文档问答系统评估难题:全新基准DOUBLE-BENCH让AI真正"读懂"复杂文档
南华理工大学等机构联合开发的DOUBLE-BENCH是首个面向真实场景的文档检索增强生成系统评估基准。该研究发现现有评估方法存在严重缺陷,无法准确反映系统真实能力。DOUBLE-BENCH包含3276个多语言多模态文档和5168个精心设计的问题,全面测试结果显示当前系统在检索
准确率
和多步推理方面仍有重大提升空间,并暴露了系统"过度自信"的问题。
至顶网
科技行者 2025-08-12 14:18:22
神州信息发布新一代智能实时金融反欺诈系统Sm@rtRAF
新兴的金融欺诈手段也层出不穷,并呈现产业化与组织化的态势,欺诈行为更具隐蔽性和蔓延性。巨大的欺诈风险已成为国内金融领域面临的最大挑战之一,全面提升反欺诈防控能力迫在眉睫。
至顶网
业界供稿 2020-01-19 14:12:52
通过"置信引导型数据增强"解决知识蒸馏中的协变量偏移问题
这项研究提出了一种名为ConfiG的创新方法,通过生成针对性的数据增强样本来解决知识蒸馏中的协变量偏移问题。研究团队利用教师模型和学生模型之间的预测差异,引导扩散模型生成那些能挑战学生模型的样本,从而减少模型对训练数据中欺骗性特征的依赖。实验表明,该方法在CelebA、SpuCo Birds和Spurious ImageNet数据集上显著提升了模型在缺失组别上的性能,为资源受限环境下的AI应用提供了实用解决方案。
至顶网
科技行者 2025-06-07 15:59:31
IBM利用机器学习诊断早发性阿尔茨海默氏症
科技巨头IBM周一表示,机器学习和人工智能(AI)可以用于取代现存的阿尔茨海默氏症侵入性及昂贵的检测。
至顶网
至顶网软件频道 2019-03-12 15:32:01
中国信通院公布知识计算产品测评结果 华为云推动重塑知识价值
8月16日-17日,2022年可信AI峰会在北京举办。
至顶网
业界供稿 2022-08-16 18:30:15
史丹福大学团队推出MedCaseReasoning:首个用真实病例评估和提升AI医疗推理能力的开源数据集
斯坦福大学研究团队开发了MedCaseReasoning数据集,这是首个专门评估人工智能与临床医生诊断推理一致性的开源数据库。现有医疗AI评估标准仅检验诊断
准确率
,忽视了推理过程质量。该数据集包含14,489个诊断问答案例,每个都附有真实临床推理,涵盖800多种医学期刊。研究发现顶尖AI模型在医疗推理方面表现有限,如DeepSeek-R1的诊断
准确率
仅48%,推理召回率仅64%。
至顶网
科技行者 2025-05-23 15:28:18
百度CTO王海峰:依托智能云,百度大脑AI大生产平台推动产业智能化
10月26日,第九届中国智能产业高峰论坛(CIIS 2019)在西安开幕。百度首席技术官、ACL/CAAI 会士王海峰出席峰会,并发表题为《AI大生产平台推动产业智能化》的演讲,全面介绍百度如何通过探索顶尖AI技术、打造AI大生产平台,助力产业智能化发展。
至顶网
业界供稿 2019-10-30 11:57:36
阿里巴巴让机器开口说话:Marco-Voice如何让AI既会模仿声音又能表达情感
阿里巴巴研究团队开发了Marco-Voice多功能语音合成系统,能够同时实现高质量的声音克隆和情感控制。通过创新的旋转情感嵌入和说话人-情感分离技术,系统可以独立调节声音身份和情感表达。团队还构建了包含10小时中文情感语音的CSEMOTIONS数据集。实验表明Marco-Voice在语音清晰度、说话人相似度和情感表达方面都显著超越现有系统,为虚拟助手、内容创作和教育技术等领域提供了强大工具。
至顶网
科技行者 2025-08-13 09:23:03
人工智能学会"记忆"的秘密:瑞士EPFL研究团队的突破性方法让AI在长篇文档中精准找到信息
瑞士EPFL研究团队开发的PERK方法通过参数高效的测试时学习技术,让AI能够像人类一样将长文档信息编码到专门的记忆模块中,显著提升了长上下文推理能力。该方法在多项测试中表现卓越,不仅能处理比训练时长32倍的文档,还解决了传统AI的位置偏见问题,为处理复杂长文档提供了创新解决方案。
至顶网
科技行者 2025-07-18 10:07:05
分段优化:让大语言模型通过段级信用分配更高效地学习推理能力
这篇研究论文《段级策略优化》提出了一种介于词元级和轨迹级之间的新型强化学习框架SPO,用于提升大语言模型的推理能力。研究者将生成序列划分为连续段落,并在段级粒度上估计优势,实现了更精确的信用分配和更准确的优势估计。SPO框架包含灵活段落划分、基于蒙特卡洛的段落优势估计和段落优势策略优化三个核心组件。研究团队基于此框架设计了SPO-chain和SPO-tree两个特定实例,分别针对短链思维和长链思维场景。
至顶网
科技行者 2025-06-09 09:41:19
人工智能化身物理学家:北卡罗来纳大学团队开发能"看"懂运动规律的AI系统
北卡罗来纳大学团队开发的VIPER-R1系统首次实现了从视觉观察到物理定律的自动发现。该系统模拟物理学家的认知过程,通过观察运动图像和数据自动生成物理公式,
准确率
达81.2%,远超现有AI系统。这项技术有望加速工程、材料科学等领域的科学发现进程。
至顶网
科技行者 2025-09-05 15:12:24
小模型也能学会深度思考:UCLA团队让2B视觉AI实现类人推理突破
UCLA团队首次成功让20亿参数的小型视觉AI模型实现了类似DeepSeek R1的"啊哈时刻"现象。他们通过在未经指令微调的基础模型上直接应用强化学习,让模型学会了自我反思和深度推理,在视觉推理任务上取得了显著突破。研究还发现指令微调可能限制模型的推理能力发展,为AI训练方法提供了新的思路。
至顶网
科技行者 2025-08-01 10:15:14
视频数学问答:突破性基准测试,通过视频理解检验模型数学推理能力
这项研究推出了VideoMathQA,一个创新基准测试,专门评估人工智能模型在视频中的数学推理能力。不同于静态图像或文本基准,它要求模型在时间轴上整合视觉、音频和文本信息,模拟真实教学场景中的"多模态大海捞针"挑战。基准测试涵盖10个数学领域,视频长度从10秒到1小时以上,设计了三种推理挑战:直接问题解决、概念迁移和深度理解。对30个模型的评估显示,专有与开源系统的差距正在缩小,而模型成功不仅取决于规模,还受架构和训练质量影响。
至顶网
科技行者 2025-06-09 11:17:41
买不到N卡,不如入手英特尔Gaudi2和至强CPU
就在今天MLCommons刚刚公布的MLPerf推理v3.1性能基准测试结果显示,英特尔Habana Gaudi2加速器、第四代英特尔至强可扩展处理器,以及英特尔至强CPU Max在AI推理方面表现出色。
至顶网
至顶网计算频道 2023-09-12 16:28:51
有大学老师正用ChatGPT批改论文,让同学也这么做!
4月7日,CNN消息,美国伊萨卡学院-战略传播学教授Diane Gayeski,正在使用ChatGPT批改学生的论文。
至顶网
AIGC开放社区 2024-04-09 17:04:25
谁在给新闻媒体打分?ChatGPT竟成了最佳"真相侦探"——阿联酋人工智能大学最新研究揭秘
阿联酋人工智能大学研究团队开发出创新方法,让GPT-3.5等大型语言模型学会像专业事实核查员一样评估新闻媒体。通过模仿专家标准设计问题体系,该方法在政治偏向预测上达到93.5%
准确率
,在事实准确性预测上达到80.6%
准确率
,为媒体素养教育和信息筛选提供了新工具。
至顶网
科技行者 2025-06-20 14:17:16
斯坦福大学突破:AI能否像人类一样判断创意写作的好坏?
斯坦福大学研究团队创建了全球首个创意写作评估基准LitBench,通过分析Reddit写作社区的4万多对故事比较数据,训练AI模型判断创意写作质量。研究发现专门训练的小型奖励模型(78%
准确率
)能超越大型语言模型评委(73%),但添加推理链反而降低了表现,揭示了创意评判需要直觉性判断的特点。
至顶网
科技行者 2025-07-11 09:48:53
<
上一页
14
15
16
17
18
19
20
21
22
23
下一页
>
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7
京ICP证161336号 京公网安备11010802021500号