
Преимущества
Недостатки



Проблемы:

from scipy.stats import dirichlet
alpha = 0.1
components = 10
a = np.empty((components,))
a.fill(alpha)
d = dirichlet(a)
plt.bar(range(components), d.rvs(size=1)[0])
<BarContainer object of 10 artists>


Присваивания тем словам

Распределение слов по темам

Это не вероятности, но понятно, как из этих данных посчитать вероятности $p(t|d)$ и $p(w|t)$
Выполняется с помощью Gibbs Sampling (мат выкладки можно найти например тут)
Инициализация: задаем количество тем $T$ и случайно присваиваем каждому слову в каждом документе тему
</cetner>