搜一下
用了 0.107161秒,为您找到
澳洲
幸运
10
怎么
才能
網纸
YB233
相关内容8133 条
让机器真正学会"看图说话":腾讯AI实验室破解视觉语言模型的"偷懒"难题
腾讯AI实验室联合多所大学开发出Vision-SR1方法,通过"观察-描述-验证"的训练策略解决视觉语言模型的两大问题:依赖文字线索猜答案的"语言捷径"和描述不存在内容的"视觉幻觉"。该方法要求AI先详细描述图片内容,再仅凭描述回答问题,强化真实视觉理解能力。实验显示在多个测试集上效果显著提升,为开发更可靠的AI视觉系统提供重要技术基础。
至顶网
科技行者 2025-09-03 14:09:40
上海人工智能实验室发布全球首个世界探索视频数据集:让AI像人类一样"环游世界"
上海人工智能实验室联合多个机构发布了名为Sekai的全球首个世界探索视频数据集,包含超过5000小时来自
10
1个国家750个城市的第一人称视角视频。数据集配备位置、天气、场景等丰富标注,并基于此训练了YUME交互式世界探索模型,用户可通过键盘鼠标控制虚拟世界漫游,为虚拟旅游、教育、游戏等领域开辟新应用前景。
至顶网
科技行者 2025-06-24 15:42:41
Meta开源世界模型V-JEPA 2:能看懂视频、预测未来、控制机器人的超级AI
Meta开源世界模型V-JEPA 2:能看懂视频、预测未来、控制机器人的超级AI
至顶网
至顶AI实验室 2025-06-16 17:03:47
让AI学会"团队协作":伊利诺伊大学团队开发出让多个AI模型协同工作的智能调度系统
伊利诺伊大学香槟分校研究团队开发了Router-R1,一个能让多个AI模型像团队一样协作的智能调度系统。该系统通过强化学习,学会在"思考"和"调用专家"之间灵活切换,能根据任务复杂度动态协调不同AI模型,同时平衡性能与成本。在七个问答数据集的测试中,Router-R1显著超越现有方法,平均准确率提升约20%,并展现出对未见过模型的强泛化能力。
至顶网
科技行者 2025-06-24 13:46:54
ByteDance的双模型机器人导航系统:让移动机器人像人一样聪明地到处走动
ByteDance Seed团队开发了名为Astra的革命性双模型机器人导航系统,让机器人具备类似人类的环境理解和导航能力。该系统包含Astra-Global和Astra-Local两个模块,前者负责理解自然语言指令和全局定位,后者处理局部路径规划和避障。通过创新的混合拓扑-语义地图、4D时空编码器和掩码ESDF损失等技术,系统在仓库、办公楼等复杂环境中实现了84%-99%的高成功率,显著超越传统方法,为智能机器人助手的实现奠定了重要基础。
至顶网
科技行者 2025-06-13 08:04:11
AI终于学会了"看声音":Captions公司让机器理解语音背后的表情和手势
Mirage向我们展示了一个令人兴奋的未来——一个AI不仅能理解我们说什么,还能理解我们如何说的世界。在这个世界里,技术不再是冰冷的工具,而是能够理解和模拟人类情感表达的智能伙伴。
至顶网
至顶AI实验室 2025-06-12 17:57:09
华为:逆转操作系统之“熵”
无法被断供的鸿蒙,正在筑起一座城。
至顶网
高飞 2020-09-16 12:09:22
AutoMat:清华大学与上海AI实验室联合打造的"智能显微镜"——从电镜图像自动重建晶体结构的革命性工具
清华大学和上海人工智能实验室联合开发的AutoMat是一个突破性工具,能自动将电子显微镜图像转换为精确的晶体结构模型并预测材料性质。系统整合了模式自适应降噪、物理引导模板匹配、对称感知结构重建和机器学习性质预测四大模块,由大语言模型代理协调运行。在自创的STEM2Mat-Bench基准测试中,AutoMat远超现有多模态大语言模型,为桥接显微镜成像与原子模拟提供了自动化解决方案,显著加速了材料科学研究流程。
至顶网
科技行者 2025-05-27 13:26:04
InternVL3:上海AI实验室联合多所顶尖院校打造的多模态AI大模型新突破
上海AI实验室联合清华大学等顶尖院校发布的InternVL3,通过原生多模态预训练突破了传统AI模型"先语言后视觉"的局限。该模型在MMMU基准测试中获得72.2分,超越所有开源模型,并引入变长视觉位置编码和混合偏好优化等创新技术,全面开源为AI社区贡献宝贵资源。
至顶网
科技行者 2025-07-17 11:39:31
论文有多水?这个AI系统一眼识破:KnoVo自动评估学术论文创新值
论文有多水?这个AI系统一眼识破:KnoVo自动评估学术论文创新值
至顶网
至顶AI实验室 2025-06-27 17:02:17
AI如何成为蚊子"神探":孟加拉国大学研究团队打造史上最强蚊子繁殖点监测系统
孟加拉国联合国际大学研究团队开发了VisText-Mosquito多模态数据集,这是首个集成视觉检测和自然语言推理的蚊子繁殖点识别系统。该系统包含1970张标注图像,能够识别五类繁殖容器并进行水面分割,同时提供人类可理解的判断解释。YOLOv9s等模型达到92.9%检测精度,为全球蚊媒疾病防控提供了AI技术支撑。
至顶网
科技行者 2025-06-24 10:16:10
RAVENEA: 哥本哈根大学团队开创多模态检索增强视觉文化理解新基准
RAVENEA是哥本哈根大学研究团队开发的首个多模态检索增强视觉文化理解基准,集成了超过
10
,000份人工标注的维基百科文档,用于评估视觉语言模型的文化敏感性。研究发现,轻量级视觉模型在配备文化感知检索功能后,在文化视觉问答和图像描述任务上分别提升了至少3.2%和6.2%的性能,证明了检索增强方法在提升AI文化理解能力方面的有效性,为构建更具文化包容性的视觉AI系统开辟了新路径。
至顶网
科技行者 2025-05-28 18:35:42
学了七年计算机,我没换来一个初级程序员工作,也没实现留在国外的梦
2022年的高考刚落下帷幕,填报志愿又成为了另一个战场,牵系着每个家庭的心,其中最受瞩目的就是那些热门专业。 选择热门专业往往意味着未来会有更多的工作机会、更高的收益回报,但这样真的就等于选择了一条正确的道路吗?
至顶网
尼酱 2022-07-06 11:13:05
Tiny QA Benchmark++:LLMOps持续评估的轻量级多语言基准测试套件
Tiny QA Benchmark++(TQB++)是一个超轻量级的大型语言模型(LLM)评估工具,由Comet ML公司的Vincent Koc开发。这套工具仅需几秒钟即可检测LLM系统中的关键故障,与大型基准测试形成鲜明对比。其核心是一个不到20KB的52个精心制作的英语问答集,非常适合快速CI/CD检查和提示工程。TQB++的主要创新在于提供了一个合成数据生成工具包,能够按需产生任何语言、领域或难度的微型基准测试,并预先构建了11种语言的测试包。
至顶网
科技行者 2025-05-23 07:40:18
中科大团队打造机器人大脑:让机器人像人类一样终身学习记忆
RoboMemory是中科大等机构联合开发的仿生机器人记忆框架,模仿人脑构建四重记忆系统,让机器人具备终身学习能力。在标准测试中超越当前最先进模型5个百分点,真实环境测试显示机器人重复任务成功率提升75%。该框架解决了传统机器人"健忘"问题,为智能机器人发展奠定重要基础。
至顶网
科技行者 2025-08-07 11:12:22
Meta发布J1:通过强化学习激励LLM思考和做出更好的判断
这篇研究介绍了Meta公司开发的J1系统,这是一种通过强化学习训练大语言模型进行评判的创新方法。J1将可验证和不可验证的提示转换为具有可验证奖励的判断任务,从而鼓励模型在做出决策前先进行思考。研究表明,J1在8B和70B参数规模下都超越了同等规模的现有模型,甚至在某些测试中超过了更大的模型如o1-mini和DeepSeek-R1。这种方法的核心创新在于不仅优化最终判断,还优化思考过程本身,使模型学会制定评估标准、生成参考答案并重新评估回答的正确性。
至顶网
Hugging Face 2025-05-16 17:09:21
多语言AI模型的"语言偏心眼":哈佛MIT团队揭示大模型跨语言知识转移失效真相
这项由哈佛大学、MIT等机构研究人员完成的重要研究揭示了当前AI语言模型的一个隐藏缺陷:跨语言知识转移困难。研究团队通过测试14个主流AI模型在13种语言下的表现,发现AI存在严重的"语言偏心眼"现象,在本土语言下表现出色但跨语言时性能大幅下降。这一发现对多语言AI应用的公平性和可靠性具有重要启示意义。
至顶网
科技行者 2025-08-20 10:25:11
2023双态IT乌镇用户大会圆满结束! 聚焦云原生、大模型,共议IT新质生产力
2023年
10
月14日上午,2023第六届双态IT乌镇用户大会两大主题峰会之一的“云原生和大模型革新IT生产力主题会议”成功举办。
至顶网
业界供稿 2023-10-18 11:22:22
我们应该如何记忆这场瘟疫?
瘟疫正离我们很近,但在多数时光里,瘟疫又离我们很远。
至顶网
高飞 2020-02-14 10:57:31
疫情之下被互联网镌刻的共同记忆——“这漫长的宅家生活”
这些再平凡不过的故事,被互联网冠上了统一的社会记忆,一下子变得深邃而迷人。
至顶网
周雅 2020-02-14 09:43:34
<
上一页
393
394
395
396
397
398
399
400
401
402
下一页
>
©2019 北京第二十六维信息技术有限公司(至顶网)版权所有.
京ICP备15039648号-7
京ICP证161336号 京公网安备11010802021500号