Універсальная бібліятэка па працы з тэкстам на беларускай мове для Python.
Напішыце ў вашым тэрмінале:
pip install ramonak
Або ў Google Colab:
!pip install ramonak
!pip install ramonak -U
import ramonak
from ramonak.tokenizer import word_tokenize
from ramonak.stemmer import FlexionStatStemmer
from ramonak.stopwords import clean_stop_words
from ramonak.punct import remove_punct
text = "Яны iшлi ўдвух выкатанаю нячутна-пругкiмi веласiпедамi сцежкаю ля шэрых нямогла нахiленых да вулiцы платоў...".lower()
tokens = remove_punct(word_tokenize(text))
tokens = clean_stop_words(tokens)
stemmer = FlexionStatStemmer()
print(
stemmer.stem_words(tokens)
)
Больш падрабязную дакументацыю вы можаце знайсці на сайце https://alex-rusakevich.github.io/ramonak/.
- Такенізацыя па словам
- Такенізацыя сказаў
- Спісак стоп-слоў
- Просты стэмер, заснаваны на статыстыцы флексій
- Менеджар пакетаў з дадзенымі
- Стэмер Портэра
- Леммацізатар
- Марфалагічны аналізатар