Лемматизатор К50шный

Используется для лингвистических экспериментов.

  1. Исходный файл разбивается построчно
  2. Текст каждой строки разбивается на слова
  3. Каждое слово приводится к именительному падежу единственному числу
  4. слова сортируются по алфавиту и разделяются пробелом
  5. составляется частотный словарь лемм

TXT\CSV в кодировке UTF-8

Действие