东京大学研究团队推出MangaVQA基准和MangaLMM模型,专门用于评估和提升AI对日本漫画的理解能力。MangaVQA由526个高质量手动创建的问答对组成,用于评估AI系统对漫画内容的深入理解;MangaOCR则专注于漫画页内文本识别。基于这两个基准,研究团队从开源多模态模型Qwen2.5-VL微调出MangaLMM,能同时处理文本识别和内容理解任务。实验显示,即使是GPT-4o等顶尖商业模型在处理漫画的独特复杂性时也面临挑战,而专门训练的MangaLMM表现出色。
至顶网 科技行者 2025-06-03 07:44:51