Специалисты из Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) вместе с Карельским научным центром РАН представили новую технологию для распознавания речи на карельском языке, а именно на ливвиковском наречии. Эта инновация открывает перспективы для перевода устной речи в режиме реального времени, что может стать важным шагом в сохранении языкового наследия.
В наше время карельский язык понимают около 30 тысяч человек, из которых примерно 25 тысяч проживают в России. Однако только 5-7 тысяч используют его в повседневной жизни, что ставит язык на грань исчезновения. Разработка направлена на сохранение и документирование карельского языка. Более того, система может стать важным инструментом для автоматизации лингвистических исследований культур коренных народов России.
«Мы разработали систему автоматического распознавания речи для ливвиковского наречия карельского языка, которое распространено на юге и юго-западе Карелии. Изучение карельского языка важно не только для сохранения культурного наследия, но и для поддержки языковой традиции его носителей. Создание системы распознавания карельской речи — это способ если не возродить, то хотя бы задокументировать этот язык», — рассказала одна из авторов разработки, старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Ирина Кипяткова.
Ученые отмечают, что карельский язык является малоресурсным, что означает крайне ограниченное количество электронных данных — текстов, аудиозаписей, словарей, — что затрудняет создание системы распознавания речи.
Обучение нейросетей проводилось на базе данных карельского языка, в которую вошли материалы карельских периодических изданий и тексты на ливвиковском наречии из открытых источников. Более того, ученые собрали два набора данных разговорной речи. Первый набор был создан на основе радиопередач «Родной берег» ГТРК «Карелия», а второй был специально собран в ходе исследований и включает записи карельской речи с вкраплениями русскоязычных слов. Речевой материал обработан участниками проекта, владеющими ливвиковским наречием.
«Кроме нашей системы, в мире существует лишь одна модель, поддерживающая карельский язык. Однако она многоязычная и базируется на очень небольшом объеме данных, что снижает точность распознавания именно карельской речи. Мы учитываем реальные условия, где часто происходит переключение между карельским и русским языками. Многие носители карельского смешивают языки в повседневной речи, и мы обучаем нашу систему корректно обрабатывать такие случаи», — добавила Ирина Кипяткова.
Разработанная система может стать полезной для автоматического стенографирования речи на карельском языке, например, для расшифровки аудиоархивов и устной речи, что будет способствовать сохранению и исследованию карельского языка.
Проект поддержан грантом РНФ.
“`
