Кыргызский стартап представил AI-модель синтеза речи на выставке CES 2026
На выставке был представлен ключевой продукт - модель синтеза речи под названием KaniTTS, работающая по open-source принципу. Разработчики утверждают, что их технология способна генерировать речь в реальном времени в три раза быстрее и до десяти раз дешевле, чем предложения от известных мировых компаний, таких как ElevenLabs, OpenAI и Google. Модель доступна для использования под лицензией Apache 2.0, что делает её бесплатной.
С технической точки зрения, KaniTTS позволяет создавать 15 секунд текста всего за одну секунду, используя стандартную видеокарту NVIDIA RTX 5080. Это преимущество делает технологию доступной для внедрения без необходимости в дорогостоящей облачной инфраструктуре. Модель уже загрузили более 15 тысяч раз на платформе Hugging Face. В настоящее время она поддерживает восемь языков, включая кыргызский, английский, немецкий и китайский.
Кроме того, стартап представил модель автоматического распознавания речи Kyrgyz Whisper, которая была дообучена на основе технологии OpenAI. Использование 2000 часов записей кыргызской речи позволило значительно снизить уровень ошибок распознавания языка с почти 100% до 0.2%. Это решение адресует проблему нехватки качественной поддержки недопредставленных языков на международной арене.
Выставка была организована Парком высоких технологий Кыргызстана. Как сообщает ПВТ, IT-сектор страны демонстрирует стабильный рост: за последние пять лет объем экспорта услуг увеличился в 45 раз. В 2024 году кыргызские специалисты заработали $130 миллионов на внешних рынках, при этом 40% этого экспорта (более $50 миллионов) пришлись на США.
Читайте также:
