搜索准确率最高的计划软件【罔芷:——88pk·ee—

中英文语音对话模型的新挑战：北大团队揭示AI语音助手在复杂对话中的真实表现

北京大学团队创建C3基准测试集，系统评估十款主流语音对话模型处理复杂对话的能力。研究发现即使最先进的GPT-4o音频版在英文对话中准确率仅55.68%，中文表现更差。语义歧义和省略现象是最大挑战，中文处理难度显著高于英文。该研究首次揭示了语音AI在真实对话场景中的局限性，为技术发展提供重要指引。

至顶网科技行者 2025-10-11 14:32:37

大型语言模型的可信评估新方法：揭秘"捷径神经元"如何影响AI真实能力测评

这项研究首次从神经元层面揭示了大型语言模型(LLM)评估中的"数据污染"机制。研究团队发现当模型在训练中接触过测试数据时，会形成特定的"捷径神经元"，使模型无需真正理解问题就能给出正确答案。他们提出了一种新方法，通过识别并抑制这些神经元（仅占模型总神经元的约1%），成功恢复了模型的真实能力表现。实验证明，该方法与权威可信基准测试结果高度一致（相关系数>0.95），并在不同基准和参数设置下都表现出色，为解决LLM评估可信度问题提供了低成本且有效的解决方案。

至顶网科技行者 2025-06-07 16:00:14

解锁通用AI新境界：华为云开年采购季让智能技术触手可及

通用AI是一种能够像人类一样进行思考、学习和推理的人工智能系统。

至顶网业界供稿 2024-03-21 16:10:24

MM-PRM：通过可扩展的步骤级监督提升多模态数学推理能力

这篇研究论文介绍了MM-PRM，一种用于增强多模态数学推理能力的过程奖励模型。研究团队首先构建了一个强大的多模态策略模型MM-Policy，然后创建了包含10,000个多模态数学问题的数据集MM-K12。利用蒙特卡洛树搜索(MCTS)框架，他们自动生成了超过70万个步骤级别的标注，无需人工参与。最终的奖励模型在Best-of-N推理设置中显著提升了多个基准测试的性能，包括MM-K12、OlympiadBench和MathVista等。研究还发现软标签、较小的学习率和路径多样性是优化PRM性能的关键因素。

至顶网科技行者 2025-05-22 13:57:25

UniGeo：利用视频扩散模型实现一致性几何信息估计的突破性研究

UniGeo是一项开创性研究，它利用视频扩散模型来一致性地估计视频中的几何信息（如表面法线和坐标）。与传统方法不同，UniGeo在全局参考坐标系中进行预测，而非每帧的局部相机坐标系，从而有效利用视频模型中的帧间对应关系。研究团队提出了共享位置编码策略，并采用多任务联合训练方法，显著提高了几何属性预测的准确性和一致性。实验表明，即使只在静态视频数据上训练，UniGeo也能泛化到动态场景，为VR/AR、机器人技术和自动驾驶等领域提供了可靠的几何信息估计解决方案。

至顶网科技行者 2025-06-04 13:33:15

强化微调的幻觉税：如何通过合成不可回答数据解决大语言模型的过度自信问题

这项研究揭示了强化微调（RFT）在提升大语言模型推理能力的同时，会产生一种意外副作用——"幻觉税"：模型拒绝回答不可回答问题的能力显著下降，导致提供虚构答案的倾向增强。南加州大学的研究者通过创建"合成不可回答数学"（SUM）数据集，系统研究了这一现象，并发现在RFT过程中加入仅10%的SUM数据即可大幅改善模型的拒绝行为，且几乎不影响其解题精度。这一简单有效的方法不仅适用于数学推理，还能泛化到事实性问答等领域，教会模型在面对无法回答的问题时诚实地承认自己的知识边界。

至顶网科技行者 2025-05-27 11:05:56

高通与腾讯混元合作基于骁龙8至尊版共同推动腾讯混元大模型终端侧部署

骁龙峰会期间，高通技术公司宣布与腾讯混元合作，基于骁龙8至尊版移动平台，共同推动了腾讯混元大模型7B和3B版本的终端侧部署，展示了此合作实现出色的运行表现。

至顶网科技行者 2024-10-22 06:18:51

双向语言模型是更好的知识记忆者？WikiDYK成为大语言模型知识注入的全新标准

这项研究介绍了WikiDYK基准测试，利用维基百科"你知道吗"板块的实时更新内容评估大语言模型的知识注入能力。研究发现，双向语言模型(BiLMs)在记忆知识方面显著优于因果语言模型(CLMs)，准确率高出约23%。基于此，研究团队提出了一个模块化框架，将BiLMs作为知识库集成到LLMs中，进一步提升了29.1%的可靠性。这一发现挑战了当前主流LLM架构的优势假设，为AI系统的知识更新提供了新方向。

至顶网科技行者 2025-05-23 15:32:10

Meta研究团队发现大模型"长思考"可能是个误区：高质量推理的真正秘密

Meta研究团队通过分析十个大型推理模型发现，AI推理质量的关键不在思考时长，而在推理效率。他们创新提出"失败步骤比例"指标，发现减少错误探索比延长思考时间更能提升准确率。研究颠覆了"长思考更好"的观念，为AI推理系统设计提供了质量导向的新思路。

至顶网科技行者 2025-10-14 12:08:22

百度等机构联合推出MathReal：真实世界里的AI数学能力究竟如何？

百度等机构联合推出MATHREAL数据集，首次系统评估AI模型在真实K-12教育场景中的数学推理能力。通过2000道真实拍摄的数学题目，研究发现即使是最先进的AI模型在面对模糊、倾斜等真实条件时准确率也只有53.9%，远低于标准测试表现，揭示了当前AI教育应用的重大局限性。

至顶网科技行者 2025-08-18 10:18:35

智能"放大镜"：NVIDIA与UC Berkeley联手打造的图像视频精准描述新技术

想象一下，你正在浏览一张复杂的家庭聚会照片，想向视力障碍的朋友描述照片中特定人物的表情和姿态，或者你需要从监控视频中准确描述某个可疑物体的细节。在这些场景中，我们不仅需要描述整张图片或整段视频，更需要聚焦于特定区域，提供精确而详细的描述。

至顶网科技行者 2025-04-24 14:23:27

搜狗开放听写服务录音笔迎来AI升级

28日，搜狗在京举办了开放听写服务暨AI创新联盟发布会。发布会现场，搜狗官宣开放“搜狗听写”服务，让更多的录音笔厂商享受AI红利，并与爱国者，索尼，纽曼，万城集团四大头部录音笔厂商成立AI创新联盟。

至顶网科技行者 2019-08-30 14:23:26

德比软件：生成式AI让每个人都是数据高手

生成式AI可以极大降低大模型的开发成本，让技术人员可以有更多时间与精力着重在上层的行业应用与功能调优上，大幅提高生产效率。

至顶网王聪彬 2024-05-28 08:11:15

无需验证师：如何让大型语言模型在没有答案检查者的情况下进行更好的推理

这项研究提出了"VeriFree"——一种不需要验证器的方法，可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性，限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率，作为评估和训练信号。实验表明，这种方法不仅能匹配甚至超越基于验证器的方法，还大幅降低了计算资源需求，同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。

至顶网科技行者 2025-06-01 16:36:22

深思考联合昇腾推出AI智慧病理“慧眼”计划

近日，2023中关村论坛首场系列活动——北京人工智能产业创新发展大会·智慧病理分论坛在中关村展示中心成功举办。

至顶网至顶网人工智能频道 2023-02-15 17:17:51

时间就是九分：复旦大学、上海人工智能教育研究所团队首次让AI学会边生成边反思

复旦大学团队提出PASR技术，首次让AI具备在生成过程中主动反思和修正的能力，改变了传统AI只能事后修改的局限。该方法在10个任务上显著提升了准确率，同时降低了41.6%的计算消耗，代表了AI从被动执行向主动思考的重要转变。

至顶网科技行者 2025-09-09 10:54:57

品牌LOGO由蓝变为粉，英特尔AI技术呵护女性乳腺健康

是什么能让50年历史的英特尔标准蓝色Logo一夜之间变粉？

至顶网业界供稿 2018-09-29 14:55:02

剑桥大学突破性发现：人工智能竟然无法像人类一样学会新语言？

剑桥大学研究团队通过创造全新人工语言Camlang，发现了人工智能的重大局限：尽管最先进的AI模型在熟悉语言上表现优异，但在学习真正陌生语言时远逊于人类。人类仅凭语法书和词典就能达到87%准确率，而AI最高仅47%，揭示了AI依赖模式匹配而非真正语法推理的本质局限。

至顶网科技行者 2025-09-19 11:06:55

增效50%降本30%，Testin云测成企业降本增效标杆

Testin云测提供云测试服务，是云服务产业的重要一环，将测试服务以云服务的模式提供给互联网公司和数字化转型的传统企业客户以及政府和事业单位等，帮助他们提高生产效率，降低成本。云测试对企业减负赋能，将起到不可忽视的推动意义。

至顶网业界供稿 2020-03-13 14:16:20

人工智能可以为医生做什么？

医生已经成为全球自杀率最高的职业。而近几年来，AI技术的引入则为整个医疗健康行业带来了曙光。

至顶网高玉娴 2019-07-26 10:21:49