Фото: «Наша Ніва»

Фото: «Наша Ніва»

Беларускі N-корпус неожиданно прекратил свою работу в июле 2023 года. На соответствующей странице было размещено сообщение о том, что у разработчиков «возникли проблемы с корпусом»:

«К сожалению, получилось так, что мы не можем его поддерживать дальше по разным причинам. Двигатель корпуса остается под свободной лицензией. Остальные проекты будут продолжаться как и раньше».

Более точных объяснений не было ни на самом сайте, ни в соцсетях, хранили публичное молчание и языковеды-создатели Корпуса.

Как стало впоследствии известно, официальной причиной была названа «недостаточная мощность серверов». Но, по-видимому, одной этой причиной прекращение работы не ограничивается.

Корпус состоял из нескольких подкорпусов: основного, неразобранных текстов, газет и сайтов, белорусских Википедий обоих правописаний. Таким образом Корпус включал огромное количество современных текстов на белорусском языке, в том числе публикации белорусскоязычных СМИ, продукция большинства из которых была признана режимом Лукашенко «экстремистскими» материалами. Именно подкорпус газет и сайтов первым исчез из выдачи еще до полного отключения Корпуса. 

Неустанное расширение «запрещенной» продукции продолжало значительно сокращать круг современных текстов на белорусском языке, которые можно использовать в Корпусе, а конвейерность признания всего «экстремистским», делала невозможным постоянное отслеживание и внесение соответствующих изменений в огромную базу. 

Крамольную для режима по смыслу и подаче информацию могли содержать и тексты без «экстремистского» статуса. Цензурирование содержания текстов не является задачей Корпуса и противоречит его сущности, физически и технически невозможно выявить опасные фрагменты в миллиарде словоупотреблений. 

В таком случае прекращение работы Корпуса из соображений собственной безопасности выглядит вполне логичным.

Статистика Корпуса белорусского языка в начале 2023 года и в начале 2024 года

Статистика Корпуса белорусского языка в начале 2023 года и в начале 2024 года

Работа Корпуса была возобновлена 19 января, но в сильно сокращенном виде. Если в начале 2023 года в общей сложности Корпус насчитывал около 1 млрд слов, то сегодня осталось лишь 124 млн, или 12%. 

С одной стороны это хорошо ложится в официальную версию о мощности серверов. Но в восстановленном Корпусе не просто сократились, а полностью исчезли целые подкорпусы: Корпус необработанных текстов (907 млн слов), включавший тексты с сайтов kamunikat.org (465 млн слов) и knihi.com (432 млн слов), конкорданс белорусского языка XIX в., включавший практически все сохранившиеся произведения художественной литературы, написанные в указанный период на белорусском языке (287 тыс. слов), и Корпус обеих белорусских Википедий (124 млн слов).

Дунин-Марцинкевич, Сырокомля и Богушевич, в чьих произведениях ищут экстремизм пророссийские активисты. Фото: Wikimedia Commons

Дунин-Марцинкевич, Сырокомля и Богушевич, в чьих произведениях ищут экстремизм пророссийские активисты. Фото: Wikimedia Commons

Эти изменения легко объяснить: Википедия остается свободным и неподцензурным ресурсом, конкорданс XIX в. содержит антироссийские произведения Дунина-Марцинкевича, Богушевича, Каратынского и других деятелей, которые либо признаны экстремистскими, либо являются объектом нападок правроссийских блогеров, а сайт kamunikat.org заблокирован по решению Министерства информации.

Небогатый выбор идеологически правильных государственных веб-ресурсов, на которых есть хоть что-то по-белорусски

Небогатый выбор идеологически правильных государственных веб-ресурсов, на которых есть хоть что-то по-белорусски

Возрожденный корпус веб-ресурсов сегодня включает лишь сайты государственных «БелТА», газеты «Звязда», Белтелерадиокомпании и официальный сайт Лукашенко, полностью игнорируя огромный и разнообразный массив текстов, который десятилетиями создавался независимыми медиа. Всего получилось 106 млн слов — капля на месте бывшего моря.

Возможно, корпус еще будет дополнен другими материалами, но многие туда уже не вернутся из-за идеологии сегодняшнего белорусского режима. 

Читайте также:

Кого из белорусских литераторов Бондарева отменит в 2024 году

«Фактически мы должны поблагодарить за эти находки». Российский имперский историк опубликовал неизвестные письма Кастуся Калиновского, которые его образу никак не вредят

Признали «экстремистским» двухтомное собрание сочинений Дунина-Марцинкевича. Он вышел в государственном издательстве

Клас
0
Панылы сорам
7
Ха-ха
1
Ого
0
Сумна
11
Абуральна
32

Хочешь поделиться важной информацией анонимно и конфиденциально?