Популярный мессенджер «Телеграм» теперь понимает марийский язык. Это результат трудов марийского лингвиста Андрея Чемышева и его сподвижников, которые уже более десятка лет практически на общественных началах продвигают идею цифровизации марийского языка.
"Первоначально для распознавания марийской речи необходимо собрать исходные данные. Это аудиокорпус с образцами речи – большой массив озвученных текстов. Причем озвученных не дикторами в студии, а разными людьми с их индивидуальными особенностями произношения, и записанных в реальных условиях, с фоном, характерным для повседневной жизни, как уличный шум, например. Программа должна уметь различать эти нюансы", - говорит Андрей Чемышев.
На сегодняшний день собраны 257 часов записей текстов на марийском языке. Задача – собрать триста часов минимум, и это планируется сделать к концу года.
На той базе, которая уже есть, создан чат-бот в «Телеграм». Он есть в открытом доступе, и пользование им бесплатно.
по информации газеты "Марийская правда"