亚马逊公司的研究人员为文本到语音技术训练了一个新的大型语言模型(LLM),他们声称该模型具有 "突发性 "能力。
该模型有 9.8 亿个参数,名为 BASE TTS,是迄今为止创建的最大文本到语音模型。研究人员在多达 10 万小时的公共领域语音数据上训练了各种规模的模型,以观察自然语言处理模型发展到一定规模后是否会出现同样的性能飞跃。
他们发现,他们的中等规模 4 亿参数模型(在 1 万小时的音频数据上进行训练)在处理棘手的测试句子时,在通用性和鲁棒性方面都有明显改善。
测试句子包含复杂的词法、句法和副语言特征,如复合名词、情感、外来词和标点符号,这些通常会绊倒文本到语音系统。虽然 BASE TTS 不能完美地处理这些句子,但它在重音、语调和发音方面的错误明显少于现有模型。
"研究人员解释说:"这些句子被设计为包含具有挑战性的任务,而 BASE TTS 并没有经过明确的训练来执行这些任务。
最大的 9.8 亿参数版本的模型是在 10 万小时的音频中训练出来的,它没有表现出比 4 亿参数版本更强的能力。
虽然这是一个实验过程,但 BASE TTS 的创建表明,随着规模的扩大,这些模型可以达到新的通用性阈值--这对对话式人工智能来说是一个令人鼓舞的信号。研究人员计划进一步开展工作,以确定新兴能力的最佳模型大小。
该模型还被设计成轻量级和流式的,将情感数据和前音数据分开打包。这样就能在低带宽连接上传输听起来自然的口语音频。