Data Science. Практика
Шрифт:
```python
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
import matplotlib.pyplot as plt
def analyze_word_frequency(text):
# Токенизация текста
tokens = word_tokenize(text)
# Вычисление частоты встречаемости слов
freq_dist = FreqDist(tokens)
return freq_dist
# Пример использования функции анализа частоты словарного запаса
text = "Это пример текста. Он содержит несколько слов, и некоторые слова повторяются."
word_freq = analyze_word_frequency(text)
# Вывод наиболее часто встречающихся слов
most_common_words = word_freq.most_common(5)
for word, frequency in most_common_words:
print(f"{word}: {frequency}")
# Визуализация частоты слов
word_freq.plot(30, cumulative=False)
plt.show
```
В этом примере также используется библиотека NLTK. Функция `analyze_word_frequency` принимает текст в качестве аргумента. Текст токенизируется с помощью `word_tokenize`, а затем вычисляется частота встречаемости слов с использованием `FreqDist`.
Конец ознакомительного фрагмента.