此页是 2026-05-29 的观测快照,查看该模型当前信息 → /m/openmoss-team__moss-tts-v15/

归档 / 2026-05-29 / MOSS-TTS-v1.5 (OpenMOSS)

MOSS-TTS-v1.5 (OpenMOSS)

零样本语音克隆多语言TTS模型，支持31种语言及显式暂停控制。

入选理由: 需自行部署推理代码，示例清晰；相比1.0版本有质量改进和新增语言支持。
对位: 对位CosyVoice、FishSpeech等开源TTS
适合: 多语种有声内容生成 / 零样本个性化语音克隆
不适合: 低延迟实时语音交互场景
规模: 8.5B · 未知 · Q4 ~5.6GB / FP16 ~20GB
授权: Apache-2.0 · 可商用
框架: transformers
可信度: 论文arxiv 2603.18090，ModelScope可访问，支持31种语言零样本克隆。

仅 safetensors · 无 pickle 加载风险

社区实测

社区认为 MOSS-TTS v1.5 是截至 2026 年中英语语音克隆效果最好的开源 TTS 之一，但效果对参考音频质量和参数调优高度敏感。

语音克隆质量在社区对比中优于 OmniVoice、Fish Audio S2 Pro、Qwen 3 TTS
提供基于 llama.cpp/GGML 的 torch-free 推理路径，降低 Python 环境部署门槛
实际支持中英文以外的更多语言，并非仅限中英双语

语音克隆效果对参考音频质量极为敏感，需要反复试错才能获得理想结果
生成语音偶有生硬段落和不自然的长停顿
HuggingFace 上语言支持标注不准确，文档未清晰列出所有支持语种
Python 生态部署繁琐是已知痛点
VRAM 占用较高，实时流式推理可能吃紧

来源

this new Moss tts 1.5 is damn good with voice cloning Moss tts 1.5 8b Examples. It is the currently best voice cloning model for English as of June 2026 GitHub - pwilkin/openmoss: OpenMOSS pure C++ pipeline based on GGML MOSS-TTS has been released

截至 2026-06-19

评分详情

Q1: 今天能接上用吗 3 / 5
Q2: 有可信证据吗 1 / 5
Q3: 是新东西吗 3 / 5
总分: 7

HuggingFace 原始数据 (抓取于 2026-05-29)

作者: OpenMOSS-Team
任务类型: text-to-speech
推理库: 未指定
下载: 5,447
点赞: 56
许可证: Apache-2.0
标签: safetensors, moss_tts_delay, text-to-speech, custom_code, zh, yue, en, ar, cs, da, de, nl, es, fr, fi, el, he, hi, hu, ja, it, ko, mk, ms, ru, fa, pl, pt, sv, ro, sw, tl, th, tr, vi, arxiv:2603.18090, license:apache-2.0, region:us

探索