亚马逊推出了一款名为 Nova Sonic 的 AI 语音模型,它不仅能理解语音内容,还能捕捉说话者的语气、犹豫等细微变化。这个模型整合了语音识别、回复生成和语音合成功能,能够实现更自然的对话交互。Nova Sonic 可以根据说话者的语气调整回应,理解对话中的停顿,并能适当处理打断等情况,从而提供更智能、更人性化的语音交互体验。
加拿大AI公司Cohere发布了Command A Vision视觉模型,专门针对企业应用场景。该模型拥有1120亿参数,仅需两个GPU即可运行,能够处理图表、图形、扫描文档和PDF等企业常见视觉数据。在九项基准测试中,Command A Vision平均得分83.1%,超越了GPT-4.1、Llama 4等竞争对手。该模型采用开放权重系统,支持23种语言,旨在为企业提供成本优化的多模态AI解决方案。