Комментарии 14
Какой моделью и инструментом пользовались для разработки, если не секрет? Сколько заняло по времени?
Пробежал статью, но не увидел результат, который можно сравнить ухом - звуковые файлы с результатами Питона и Раста. Нельзя ли добавить?
Отличная мысль! Обязательно соберу и добавлю.
Добавил
1) не, это ни о чем вообще. Нужен довольно большой кусок из нескольких параграфов, как в какой-то статье тут был, например, из "волшебника изумрудного города". А так совершенно непонятно, какие паузы, ударения, интонации и прочее.
2) в статье две ссылки на вид совершенно одинаковые. Нужны комментарии.
3) нет примера на Питоне.
Рекомендовал бы писать описание проекта на англ или хотя бы в двух версиях на гитхабе плюс добавить сравнение по скоростям с другими tts. В принципе этого будет достаточно. А так вы молодец что сказать ещё :)
Нейронка молодец.
Спасибо за совет, обязательно сделаю перевод как дойдут руки. А вот сравнение с другими TTS это точно не ко мне, пусть авторы моделей этим занимают. Полагаю не нужно отбирать у них хлеб, да и изощренных способов показать что их TTS лучше они точно знают побольше моего. Одно могу сказать, на текущий момент из OpenSource TTS Qwen3-TTS прям очень хороша.
Это легендарно, а для непросвященных в русте бинаррники реди ту ран?))
Интересно, насколько это будет быстрее работать на GPU. На моей RTX4070S примерно на генерацию 10 секунд текста уходит 30 секунд, то есть RTF ~ 3. А у вас на CPU такие результаты, круто. Надо попробовать

Как я написал TTS-движок на Rust за месяц: путь от Python к production-ready решению