askid28 янв в 16:52

Как я написал TTS-движок на Rust за месяц: путь от Python к production-ready решению

Сложный

7 мин

14K

Rust * Машинное обучение * ЗвукOpen source *

+20

Комментарии 14

arakabar 28 янв в 18:16

Какой моделью и инструментом пользовались для разработки, если не секрет? Сколько заняло по времени?

askid 28 янв в 18:17

Для анализа и сравнения тензоров - Opus 4.5, работал часа 4 без остановки.

dyadyaSerezha 29 янв в 00:07

Пробежал статью, но не увидел результат, который можно сравнить ухом - звуковые файлы с результатами Питона и Раста. Нельзя ли добавить?

askid 29 янв в 00:12

Отличная мысль! Обязательно соберу и добавлю.

askid 29 янв в 11:26

Добавил

dyadyaSerezha 29 янв в 16:01

1) не, это ни о чем вообще. Нужен довольно большой кусок из нескольких параграфов, как в какой-то статье тут был, например, из "волшебника изумрудного города". А так совершенно непонятно, какие паузы, ударения, интонации и прочее.

2) в статье две ссылки на вид совершенно одинаковые. Нужны комментарии.

3) нет примера на Питоне.

MaximKiselev 29 янв в 02:39

Рекомендовал бы писать описание проекта на англ или хотя бы в двух версиях на гитхабе плюс добавить сравнение по скоростям с другими tts. В принципе этого будет достаточно. А так вы молодец что сказать ещё :)

ExternalWayfarer 29 янв в 04:49

Нейронка молодец.

askid 29 янв в 12:07

Думаю вам стоит попробовать самому, с нейронкой, собрать нечто подобное. Результаты вас сильно удивят.

askid 29 янв в 12:11

Спасибо за совет, обязательно сделаю перевод как дойдут руки. А вот сравнение с другими TTS это точно не ко мне, пусть авторы моделей этим занимают. Полагаю не нужно отбирать у них хлеб, да и изощренных способов показать что их TTS лучше они точно знают побольше моего. Одно могу сказать, на текущий момент из OpenSource TTS Qwen3-TTS прям очень хороша.

ilyachudin 29 янв в 15:37

Это легендарно, а для непросвященных в русте бинаррники реди ту ран?))

askid 29 янв в 18:12

Доберусь, сделаю релиз, а пока только собирать самостоятельно.

it-infinite 29 янв в 23:29

Надо у себя собирать, чаще всего. Сборки по разному, как повезёт.. Сильно от геморроя с С++ не отличается. 😁 Говорят что по приятнее собирать, но не всегда оно так.. 😁

Если я верно понял ваш вопрос.

Sol0Zon3 31 янв в 10:48

Интересно, насколько это будет быстрее работать на GPU. На моей RTX4070S примерно на генерацию 10 секунд текста уходит 30 секунд, то есть RTF ~ 3. А у вас на CPU такие результаты, круто. Надо попробовать

Зарегистрируйтесь на Хабре, чтобы оставить комментарий