Популяризувати кримськотатарську в різних технологіях — директор стартапу «Respeecher» про новий проєкт синтезу людських голосів

Новини України та світу
Усманов Льоман
28 Квітня 2023, 10:10
Усманов Льоман
28 Квітня 2023, 10:10
Усманов Льоман

Український стартап «Respeecher» розпочав проєкт навчання безкоштовної нейромережі для розпізнавання кримськотатарської.

Мета проєкту — зібрати 1000 годин аудіо з голосами кримців, щоб покращити розпізнавання кримськотатарської мови та сприяти її популяризації в різних технологіях, таких як голосові помічники на телефонах, чат-боти та автоматичні перекладачі. «Respeecher» - це український стартап, який з 2018 року використовує штучний інтелект для синтезу людських голосів.

У 2021 році він отримав нагороду "Еммі" за свої досягнення. Якщо ви знаєте кримськотатарську, та хочете взяти участь в програмі, то можете перейти по цьому посиланню на гугл-форму.

Співзасновник та технічний директор проєкту Дмитро Бєлєвцов розповів в інтерв'ю QIRIM.News про особливості роботи з кримськотатарською мовою, які труднощі виникали у його команди та як це все вплине на розвиток мови та культури кримських татар.

Яка в вас була мотивація взяти саме кримськотатарську мову?

Насправді наша компанія існує вже понад п'ять років і ми займаємось всіма мовами. Наша технологія дозволяє одному актору грати голосом іншого актора.

Сам продукт не прив'язаний до мов, він прив'язаний до звуків. Але щоб мати змогу працювати з мовами, він повинен навчитися на прикладах цієї мови.

Я, як носій української мови можу зазначити, що раніше нашою мовою спілкувалися мало людей, а ресурсів, на яких можна навчати мережу було мало.
З кримськотатарською мовою ми маємо ще менше ресурсів.

Ми зрозуміли, щоб мати змогу використовувати наш продукт та давати можливість іншим компаніям, спільнотам робити технології кримськотатарською, ми хочемо створити набір даних мовою кримців.

Ви збираєте 1000 годин. Яка кількість файлів у вас зараз?

Насправді ми тільки-тільки запустились і складно точна сказати.. Бо я не встиг синхронізуватись з командою з приводу кількості годин. Знаю, що ми отримуємо нові та нові файли. Це найголовніше.

Які є основні виклики, з якими ви стикаєтеся у процесі збору аудіофайлів?

Взагалі збір даних - складна історія, тому що нам треба зібрати 1000 годин. Взагалі, це не дуже багато, 100 раз по 10 годин. Але цей кейс складніше з різних причин.

Перша з них — нам потрібні багато голосів різних людей: зі своєю вимовою, стилями говоріння, голосами, діалектами тощо. Друга — складність охопити велику кількість людей. Тут є питання контролю якості звуку: хтось записує голос вдома на телефон, в когось є мікрофон, в когось — взагалі студія. Ну і варто розуміти, що носіїв мови дуже мало.

Чи є перспектива побачити кримськотатарську мову в налаштуваннях смартфона?

Так! Як локалізацію мати кримськотатарську мову можливо, тільки в якийсь момент, на жаль — це буде на розсуд компаній-гігантів, які розробляють смартфони. В них встане вибір: чи додавати її, чи ні. З українською мовою теж була проблема, її або взагалі не було в налаштуваннях, або була, тільки "поломана"..

Згодом це пофіксили, саме завдяки тому, що була активність спільноти, людей, які говорили українською. І з зусиллям кримськотатарської спільноти це теж буде можливо.

Те, чим ми займаємось — це не локалізація мови в плані перекладу меню, а це важлива складова для розробників продуктів, які засновані на аудіо, та голосі: наприклад Siri та будь-яка програма, де ти можеш щось сказати та отримати реакцію програми.

З англійською мовою це легше, бо там десятки тисяч годин якісних даних, які не тільки записані голосом, але й супроводжуються текстом, і цими даними можна навчати класні алгоритми.

У випадку кримськотатарської мови навіть 1000 годин в гарній якості важко знайти. І тому розробники, які навіть хотіли б її додати, не зможуть цього зробить, бо буде мало даних. Ми хотіли б це виправити, зробить це доступнішим, додавши більше даних в базу.

Скільки у вас людей знають кримськотатарську? Хто і як буде опрацьовувати дані?

В нашій команді наразі немає таких людей. Тому нам дуже знадобиться допомога спільноти, саме носіїв кримськотатарської, щоб опрацювати дані.

Щодо якості звуку, шумів, перешкод, ехо, цим займаються наші звукоінженери. Щодо лінгвістичної якості, то нам треба буде допомога спільноти кримців.

Власне, нам не обов'язково знати мову, щоб навчити її обробляти дані. Проєкту потрібні дані та приклади. Якщо є дані, то людині не обов'язково знати мову, щоб користуватися датасетом.

Тому коли ми зберемо все, то зможемо одразу з цим працювати. А ось допомога кримськотатарської спільноти буде потрібна, щоб описати датасет, бо буде багато годин не просто промови: а голосів багатьох людей тут будуть потрібні певні консультації, наприклад загальний опис: «в цьому датасеті присутній південнобережний діалект».

Також, вади мови, відмінності тощо. Тобто той опис, який розуміють тільки носії мови.

Як це може вплинути на розвиток мови та культури?

На мій погляд, на прикладі української мови ми бачимо той факт, що була небайдужа, та свідома спільнота, яка цінувала мову і проводила публічні заходи про інформування суспільства.

Наприклад, як збори аудіофайлів, а це своєю чергою привертає увагу великих компаній, розробників, чиєю продукцією ми користуємось.

І коли вони звертають увагу, це для них фактор: Чи стає це пріоритетом? Чи додати цю мову? Чи додати маленьку команду, яка опрацює проєкт втілення мови? Тому вважаю, що задля розвитку мови, та культури, в першу чергу — важлива спільнота.

Ваші плани на майбутнє, та можливості розвитку вашого проєкту.

Наш проєкт зараз має два основні напрямки роботи: студійні: голлівудські студії, європейські студії, кіноіндустрії, сфера відеоігор, де потрібні будуть голоси, актори озвучки, дублери, зокрема для омодження голосів, створення голосів історичних персонажів, наприклад: Люк Скайвокер в Мандалорці , Дарт Вейдер і Кенобі — наша робота.

Нагорода "Еммі", якою нагородили проект «Respeech»

Подібні проєкти будуть. Також ми вже створили платформу для конвертації голосу, де ентузіасти, або люди, які створюють медіаконтент, могли б змінювати свій голос, або множити його.

Наприклад, ви робите невеличку гру, і вам треба озвучити 10 персонажів. З нашою платформою ви можете озвучити всіх самі, бо платформа змінить ваш голос.

Стосовно кримськотатарської: після того, як ми зберемо датасет — ми плануємо викласти в публічний доступ моделі, які ми натренуємо на датасеті, для того, щоб інші люди могли розробляти свої додатки з кримськотатарським голосом. Нам ще треба перевірити юридичний аспект.

Можливо ми опублікуємо сам датасет, щоб люди могли його використовувати для навчання своїх моделей.

І коли це буде зроблено, тоді ми зможемо взяти участь в якомусь кінопроєкті та створити голос персонажа кримськотатарською. Такої нагоди не було, але коли з'явиться — ми нею скористаємось.