Обновить

Комментарии 14

Какой моделью и инструментом пользовались для разработки, если не секрет? Сколько заняло по времени?

Для анализа и сравнения тензоров - Opus 4.5, работал часа 4 без остановки.

Пробежал статью, но не увидел результат, который можно сравнить ухом - звуковые файлы с результатами Питона и Раста. Нельзя ли добавить?

Отличная мысль! Обязательно соберу и добавлю.

Добавил

1) не, это ни о чем вообще. Нужен довольно большой кусок из нескольких параграфов, как в какой-то статье тут был, например, из "волшебника изумрудного города". А так совершенно непонятно, какие паузы, ударения, интонации и прочее.

2) в статье две ссылки на вид совершенно одинаковые. Нужны комментарии.

3) нет примера на Питоне.

Рекомендовал бы писать описание проекта на англ или хотя бы в двух версиях на гитхабе плюс добавить сравнение по скоростям с другими tts. В принципе этого будет достаточно. А так вы молодец что сказать ещё :)

Нейронка молодец.

Думаю вам стоит попробовать самому, с нейронкой, собрать нечто подобное. Результаты вас сильно удивят.

Спасибо за совет, обязательно сделаю перевод как дойдут руки. А вот сравнение с другими TTS это точно не ко мне, пусть авторы моделей этим занимают. Полагаю не нужно отбирать у них хлеб, да и изощренных способов показать что их TTS лучше они точно знают побольше моего. Одно могу сказать, на текущий момент из OpenSource TTS Qwen3-TTS прям очень хороша.

Это легендарно, а для непросвященных в русте бинаррники реди ту ран?))

Доберусь, сделаю релиз, а пока только собирать самостоятельно.

Надо у себя собирать, чаще всего. Сборки по разному, как повезёт.. Сильно от геморроя с С++ не отличается. 😁 Говорят что по приятнее собирать, но не всегда оно так.. 😁

Если я верно понял ваш вопрос.

Интересно, насколько это будет быстрее работать на GPU. На моей RTX4070S примерно на генерацию 10 секунд текста уходит 30 секунд, то есть RTF ~ 3. А у вас на CPU такие результаты, круто. Надо попробовать

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации