声音世界模型(Speech World Model):不只是 TTS,而是理解场景、角色、情绪并自主规划表达的语音大模型。 原生支持长文+多人、中英双语,也支持上传参考音频进行音色克隆(Voice Prompt / voice cloning),内置高能创作模板,将任意内容转为播客/有声书/相声/Rap/广播剧等...