Преимущества
Недостатки
Проблемы:
from scipy.stats import dirichlet
alpha = 0.1
components = 10
a = np.empty((components,))
a.fill(alpha)
d = dirichlet(a)
plt.bar(range(components), d.rvs(size=1)[0])
<BarContainer object of 10 artists>
Присваивания тем словам
Распределение слов по темам
Это не вероятности, но понятно, как из этих данных посчитать вероятности $p(t|d)$ и $p(w|t)$
Выполняется с помощью Gibbs Sampling (мат выкладки можно найти например тут)
Инициализация: задаем количество тем $T$ и случайно присваиваем каждому слову в каждом документе тему