这项研究提出了STRUCTEVAL,一个全面评估大语言模型生成结构化输出能力的基准测试。研究涵盖18种格式和44种任务类型,分为不可渲染(JSON、YAML)和可渲染(HTML、React)两大类。评测揭示即使最先进模型如GPT-4o也仅达到76.02%平均分,开源模型落后约10个百分点。研究发现,生成任务比转换任务更具挑战性,可视内容生成比纯文本结构更难掌握。某些任务(如Text→Markdown)已被很好解决,而另一些(如Text→Mermaid)仍然困难。这一基准为未来语言模型在处理结构化数据方面的进步提供了重要指导。
至顶网 科技行者 2025-05-30 09:45:48