亚马逊推出了一款名为 Nova Sonic 的 AI 语音模型,它不仅能理解语音内容,还能捕捉说话者的语气、犹豫等细微变化。这个模型整合了语音识别、回复生成和语音合成功能,能够实现更自然的对话交互。Nova Sonic 可以根据说话者的语气调整回应,理解对话中的停顿,并能适当处理打断等情况,从而提供更智能、更人性化的语音交互体验。
微软升级了Azure AI Speech服务,用户仅需几秒钟的语音样本即可快速生成逼真的语音复制品。该个人语音功能于2024年5月21日正式发布,采用名为"DragonV2.1Neural"的零样本文本转语音模型,支持100多种语言。微软表示新版本在语音自然度、韵律稳定性和发音准确性方面都有显著提升,可用于定制聊天机器人语音、视频配音等应用。尽管微软要求用户遵守使用政策并获得原说话者同意,但该技术仍可能被恶意使用。
法国AI初创公司Mistral AI发布了首个大语言模型全面生命周期评估,量化了AI的环境代价。其Mistral Large 2模型训练产生20,400吨二氧化碳当量,消耗281,000立方米水。运营阶段占环境影响85%,远超硬件制造成本。研究表明地理位置和模型大小显著影响碳足迹,企业可通过选择适当规模模型、批处理技术和清洁能源部署来减少环境影响。这一透明度为企业AI采购决策提供了新的评估标准。