搜索 bob手机网页版官方入口【網纸——YB233典CN—

智能体规划师：让AI像工匠一样为每个任务量身定做执行方案 - TodoRL团队研究成果

TodoRL团队开发的TodoEvolve系统解决了AI规划的核心难题：如何让AI根据不同任务特点自动选择最优执行策略。该系统通过PlanFactory统一框架整合现有规划方法，训练Todo-14B智能规划师实现动态架构合成。在多个测试平台上，TodoEvolve显著提升了AI系统性能，在GAIA测试中提高16.37%，在复杂推理任务中超越了更强大的基础模型。这项研究标志着AI系统从固定规划向自适应规划的重要转变。

至顶网科技行者 2026-02-12 13:34:29

J.P. Morgan团队如何让AI成为文档信息提取专家？一项改变企业数据处理的重大突破

J.P. Morgan AI Research团队开发了EXSTRUCTINY，这是首个专门评估AI系统从文档图像中进行结构化信息提取能力的综合测试基准。该系统包含304个查询-答案对，覆盖表格、报告、演示文稿等多种文档类型，支持三种查询方式，并建立了全新的四维评估标准，全面测试了当前最先进的视觉语言模型，揭示了商业模型优于开源模型18个百分点的性能差距。

至顶网科技行者 2026-02-14 10:31:32

工程项目全过程数字化交付实施路径——以数据中心项目为例

随着建筑信息化、数字化加速推进，传统工程项目建设模式越来越难以适应新时代建筑数字化的需求。近年来，通过对BIM技术的运用，数据中心项目在数字化方面有所突破，可为“数字建筑”的建设提供借鉴，但是距离实现真正意义上的“数字建筑”还为时尚早。

至顶网数据中心基础设施运营管理 2025-01-13 14:04:05

Show-o2：新加坡国立大学新突破，一个AI大脑同时掌握看图说话和画图创作

新加坡国立大学Show Lab团队发布Show-o2统一多模态AI模型，首次实现单一系统内文字、图像、视频的理解与生成能力。该研究采用3D因果VAE和双路径融合机制，通过创新的两阶段训练策略，在多项基准测试中超越现有技术，为通用人工智能发展奠定重要基础。

至顶网科技行者 2025-06-25 11:37:08

开发者与AI助手的真实对话：当代码生成遇上现实编程场景

这项研究分析了82,845个真实开发者与AI助手的编程对话，发现AI回复比开发者提问长14倍，68%为多轮对话。Web开发和机器学习是最热门话题。AI代码质量存在问题：Python代码83.4%命名不规范，JavaScript代码75.3%有未定义变量。研究为改进AI编程助手提供了重要参考。

至顶网科技行者 2025-10-09 09:44:18

大型语言模型能力测试大揭秘：中科院团队发布283个评测基准全景分析

中科院深圳先进技术研究院团队首次全面梳理了大型语言模型评测领域，分析了283个代表性基准，将其归纳为通用能力、领域专业和特定目标三大类别。研究揭示了现有评测体系面临的数据污染、文化偏见和静态评测等关键挑战，为构建更科学公正的AI评测框架提供了重要指导，推动人工智能技术向更安全可靠的方向发展。

至顶网科技行者 2025-10-11 09:53:47

Nick McKeown：可编程转发平面将在此驻足

在大会中，来自美国国家工程院院士、斯坦福大学教授Nick McKeown分享了“可编程转发平面将在此驻足”的主题演讲。其中讲到，我们可以看到在网络当中5G网络趋势，这些都会影响到我们网络的发展。

至顶网至顶网网络频道 2018-11-14 12:09:38

这个模型也能识别狗吗？希伯来大学让AI"考官"帮你从千万个模型里找到最合适的那一个

希伯来大学研究团队提出ProbeLog技术，通过"标准化考试"方式为AI模型建立能力指纹，解决了模型库中60%模型缺乏文档说明的搜索难题。该方法用固定图片测试模型反应，支持文字直接搜索，准确率达40-70%，并通过协作探测技术降低3倍计算成本，为百万级模型库的高效利用提供了新途径。

至顶网科技行者 2025-08-20 18:05:26

左拉京东云，右推全新备份商业模式，群晖的野心为几何？

Synology 2019 年度发布会中国站，于10月13日正式召开。会上，群晖聚焦 "AI"、"智能"、安全"三个存储趋势，并发布多款即将上市的新品与应用功能。同时，群晖也宣布正式与京东云展开战略合作，携手奠定企业NAS备份新标准。

至顶网群晖 2018-10-15 14:39:48

摩泛科技沈杰：十年前，我们就想做3D引擎

“‘人’是超写实数字人，‘数’是背后的数据和资产，‘场’是超写实虚拟场景，只有将这三块做好、做扎实，才能在未来十年里成为魔都元宇宙行业中的头部企业。”

至顶网金旺 2023-06-26 16:20:36

摩泛科技沈杰：十年前，我们就想做3D引擎

一支极为低调的创业团队背后的传奇故事。

至顶网金旺 2023-06-25 10:30:33

摩泛科技沈杰：十年前，我们就想做3D引擎

“‘人’是超写实数字人，‘数’是背后的数据和资产，‘场’是超写实虚拟场景，如果我们把这三块全部做好、做扎实，就能在未来十年里成为魔都元宇宙行业中的头部企业。”

至顶网金旺 2023-06-21 18:32:17

让手机变得更聪明：大型语言模型在手机自动化领域的惊人进展

想象一下，你只需对手机说一句"帮我订一杯拿铁送到办公室"，手机就能自动打开外卖应用，找到你喜欢的咖啡店，选择拿铁，填写地址，完成支付，一气呵成地完成所有操作。这不是科幻电影中的场景，而是当前大型语言模型驱动的手机图形界面(GUI)代理正在实现的功能。

至顶网科技行者 2025-04-30 13:41:43

腾讯邱跃鹏：面向Agent和全球化趋势，全面升级云基础设施

腾讯云已在推理加速、Agent Infra和国际化布局等方面取得突破，并将以更加开放的姿态，助力企业把握时代机遇。

至顶网至顶网CIO与CTO频道 2025-09-16 12:19:55

双向语言模型是更好的知识记忆者？WikiDYK成为大语言模型知识注入的全新标准

这项研究介绍了WikiDYK基准测试，利用维基百科"你知道吗"板块的实时更新内容评估大语言模型的知识注入能力。研究发现，双向语言模型(BiLMs)在记忆知识方面显著优于因果语言模型(CLMs)，准确率高出约23%。基于此，研究团队提出了一个模块化框架，将BiLMs作为知识库集成到LLMs中，进一步提升了29.1%的可靠性。这一发现挑战了当前主流LLM架构的优势假设，为AI系统的知识更新提供了新方向。

至顶网科技行者 2025-05-23 15:32:10

AI侦探诞生记：Allen Institute打造首个能追溯大模型"记忆"的神奇工具

Allen Institute for AI推出首个能实时追溯大语言模型输出到万亿训练数据来源的系统OLMOTRACE。该系统通过创新的并行算法，可在几秒内找到AI回答中与训练数据完全匹配的文本片段，为AI行为分析开创了新范式。支持事实核查、创意溯源等应用，已在AI2 Playground开放使用。

至顶网科技行者 2025-07-16 09:58:01

Alita：极简设计打造无限创造力的通用AI助手

Alita是一种新型通用AI代理系统，采用极简设计理念，以"最小预定义，最大自我进化"为原则构建。由普林斯顿大学等多家机构研究团队开发的Alita，只配备一个核心能力和少量通用模块，能自主创建所需工具并重用为模型上下文协议(MCPs)。实验显示，Alita在GAIA基准测试上达到87.27%的通过率，超越包括OpenAI Deep Research在内的复杂系统，证明简约设计可带来卓越性能。

至顶网科技行者 2025-06-01 11:15:55

腾讯提出RLPT：让AI像学生一样自主探索，不再依赖人工标注的突破性训练方法

腾讯研究团队提出RLPT新方法，让大语言模型通过预测文章下一段内容进行自主学习，无需人工标注。该技术在多个基准测试中显著提升AI性能，特别是数学推理能力提升5-8分，为解决AI训练中的数据瓶颈和标注依赖问题提供了创新解决方案，展现出良好的可扩展性和实用前景。

至顶网科技行者 2025-10-14 12:08:53

教会机器人在手机上“思考”的神奇方法：浙江大学团队如何让AI学会多步骤操作

这项由浙江大学与阿里巴巴通义实验室联合开展的研究，通过创新的半在线强化学习方法，显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录，为GUI自动化代理的发展开辟了新的技术路径。

至顶网至顶AI实验室 2025-09-16 17:27:44

蚂蚁集团推出UI-Venus：让AI也能像人一样"看懂"并操作电脑界面

蚂蚁集团推出UI-Venus系统，这是一个能够仅通过屏幕截图就理解和操作用户界面的AI模型。该系统采用强化微调技术，在多个基准测试中达到业界最佳水平，其72B版本在界面识别任务上准确率达95.3%，在复杂的安卓操作任务中成功率达65.9%。研究团队还开发了创新的自进化轨迹对齐技术，显著提升了AI在多步骤任务中的规划能力，为智能化人机交互开辟了新途径。

至顶网科技行者 2025-08-19 10:18:56