08 декабря 2025, 05:00

22

Кипрский грек обретает собственный голос в новой системе искусственного интеллекта

Кипрский грек обретает собственный голос в новой системе искусственного интеллекта

Говорящие на кипрском греческом языке вскоре могут быть поняты теми же голосовыми системами, которые обычно борются с диалектом острова, благодаря революционной модели искусственного интеллекта для преобразования речи в текст, разработанной командой из трех человек.

Игорь Акимов, менеджер по продуктам искусственного интеллекта в иностранной компании, объединил усилия с двумя стажерами — Хусейном Хадрой и Никитой Марковым, студентами Университета Никосии и UCLan — для решения проблемы, связанной с тем, что местные диалекты не распознаются должным образом технологиями, от которых зависят многие люди.

Команда создала модель искусственного интеллекта для преобразования речи в текст — систему автоматического распознавания речи, настроенную для точного понимания и расшифровки кипрского греческого языка. Пользователи говорят в микрофон, а система преобразует речь в письменный текст — технологию, которую затем можно применить к голосовым агентам с искусственным интеллектом, службам перевода или автоматизированной телефонной поддержке.

Эта технология также имеет более широкое применение в различных секторах. В здравоохранении он может автоматически расшифровывать речь пациентов, особенно пожилых людей, и вводить ее непосредственно в медицинские системы без ручного набора текста. В бизнесе это позволяет использовать автоматизированные голосовые агенты, которые могут естественным образом взаимодействовать с кипрскими клиентами, а в сфере образования это может помочь сохранить кипрский диалект и культуру за счет оцифровки аудиоархивов острова.

Тот же подход можно применить и к другим игнорируемым языкам и диалектам. Одной из главных целей команды было понять, как работать с языками, по которым недостаточно данных. По их мнению, эту методологию можно было бы воспроизвести во всем мире.

"Это было непросто. Я думаю, мы все недооценили, насколько сложным это будет. На этом пути определенно были взлеты и падения", - признает Акимов.

При поиске ресурсов данных команда обратилась к исследователям, но не получила никакой помощи. Ответы варьировались от потери данных до требований о высокой плате или полного отказа.

Они просмотрели словари, тексты и аудиообразцы, но не смогли найти высококачественные и доступные наборы данных, в которых речь сочеталась бы с расшифрованным и проверенным текстом.

Даже у Meta, которая собрала данные по 1600 языкам, не было ни одного часа кипрской речи.

«Итак, начинать нам было не с чего, поэтому мы решили собрать всю доступную кипрскую аудиозапись от телешоу до радиостанций, подкастов и книг», — рассказал Акимов. «Шаг за шагом мы создали самую большую коллекцию кипрско-греческих речей, когда-либо собранную».

Обучение ИИ было постепенным процессом. На первом этапе система впитала повседневную кипрско-греческую речь, ее звуки, ритмы и уникальные черты, чтобы получить представление о том, как естественно звучит диалект.

Затем команда снабдила его более четкой, профессиональной речью из новостных передач и радиошоу, помогая ИИ улучшить свое понимание и уменьшить количество ошибок. Также был добавлен специальный помощник по чтению KenLM, который действует почти как наставник, подсказывая наиболее вероятные слова и повышая точность распознавания.

Чтобы продолжать совершенствовать модель, команда создала платформу, на которой носители языка могут исправлять расшифровки ИИ. Эти исправления учитываются при обучении, что со временем делает систему все более точной и точной по отношению к кипрскому диалекту.

Примечательно, что все это было достигнуто при бюджете всего в 150 долларов США благодаря творческому подходу и доступным облачным технологиям.

Однако проект далек от завершения. «Имея всего несколько часов высококачественной расшифровки аудио, мы пока не смогли создать лучшую в мире модель, но это абсолютно достижимо», — объяснил Акимов. «Сейчас это скорее технологическая проверка концепции в ожидании дополнительных данных».

На данный момент команда собрала около 300 часов кипрской речи и ищет помощи у волонтеров. Потратив всего 15 минут на проверку транскрипций на веб-сайте проекта, можно получить достаточно данных для создания современной модели распознавания кипрской речи и, возможно, даже системы преобразования текста в речь, говорящей на аутентичном кипрском греческом языке.

Заинтересованные лица могут посетить сайт voiceofcyprus.org, чтобы проверить аудиозаписи.

"Это очень поможет нам и Кипру. Даже всего 10-15 минут имеют значение", - сказал Акимов. «Мы хотим, чтобы каждый киприот мог говорить на своем диалекте и при этом быть понятым с помощью технологий».

Похожие новости

Cyprus air travel saw significant monthly passenger traffic throughout the summer of 2025, according to data on air transport published by Eurostat this week.The report showed that the total number of passengers travelli...

Icon

12 секунд назад

Греческие фермеры во вторник продолжили общенациональную блокаду, нарушая движение транспорта на основных автомагистралях и периодически закрывая пограничные переходы в знак протеста против задержек выплат сельскохозяйст...

Icon

50 секунд назад

Правительство продолжит строительство пятисот единиц жилья, которые будут предоставлены по доступной цене семьям или даже одиноким лицам на основе конкретных критериев, с упором на новое поколение. Выступая на мероприяти...

Icon

53 минуты назад

«Он сделает все возможное для своих сограждан», - сказал Йоргос Пенинандаекс во время церемонии объявления его новым членом парламента Никосии от DIPA после назначения Мариноса Мусиуттаса министром труда и социального ст...

Icon

53 минуты назад

По данным полиции, Окружной суд Фамагусты приговорил 37-летнего мужчину к четырнадцати месяцам тюремного заключения за преступления, связанные с убийством кенгуру и незаконным пребыванием в республике. Дело было раскрыто...

Icon

54 минуты назад

Лимассол 2030 приглашает вас на праздничное вечернее собрание, посвященное завершению визита жюри и завершению титульного путешествия. Этот момент объединяет партнеров, сторонников и попутчиков Лимассола 2030, чтобы Коми...

Icon

54 минуты назад

Финальный этап конкурса на звание культурной столицы Европы 2030 года организуется заместителем Министерства культуры в качестве административного органа с 8 по 11 декабря. В заявлении Министерства внутренних дел отмечае...

Icon

55 минут назад

8 декабря суд свободных территорий Фамагусты приговорил к 14 месяцам тюремного заключения 37-летнего гражданина Камеруна «за жестокое обращение с кенгуру и незаконное проживание в Республике Кипр». 7 мая 2024 года на п...

Icon

56 минут назад

В комедии BBC «Ворона-выскочка» есть блестящий момент, когда Шекспир, которого играет Дэвид Митчелл, защищает свою работу как автора комиксов, говоря: «Если вы проведете свое исследование, мои вещи на самом деле действит...

Icon

56 минут назад

Правительство Литвы во вторник объявило чрезвычайное положение в отношении воздушных шаров, перевозимых контрабандистами из Беларуси и нарушивших работу авиации, и попросило парламент разрешить военным действовать вместе...

Icon

57 минут назад