Skip to content

Машинное обучение

Elizaveta Kuzmenko edited this page Feb 27, 2016 · 13 revisions

Как обучали в статье

Описание машинного обучения, используемого в статье:

Our models are trained by optimizing the multiclass SVM hinge loss objective using stochastic subgradient descent. We use a small, constant learning rate of 2^-8. We avoid over-fitting by using early stopping, and averaging as Collins (2002a) does with the averaged perceptron. To determine the stopping point, we evaluate the model on the development set after each pass through the training data. We continue iterating until we have made 10 consecutive passes through the training data without reducing the development set error, and we return the model from the iteration with the lowest error.

Наше обучение

Мы используем SGDClassifier, наиболее близкую к используемой в статье модель. Обучаем с 5-кратной кроссвалидацией.

Без кластеров

Классификатор (без данных о кластерах) мы запускаем с такими же параметрами, как указаны в статье:

clf = SGDClassifier(
                                  loss='hinge', - hinge loss objective
                                  shuffle=True,
                                  learning_rate='constant' - constant learning rate
                                  eta0=2**(-8), - of 2^-8
                                  average=True - with the averaged perceptron
                                  )

Результат: 0.877303365323
Натренированные модели без кластеров лежат тут.

С кластерами

Для обучения с кластерами мы использовали поиск лучшей модели с помощью GridSearchCV.

Лучшие параметры:
{'penalty': 'elasticnet', 'eta0': 0.00390625, 'learning_rate': 'constant', 'average': False, 'shuffle': True, 'alpha': 1e-06, 'loss': 'hinge'}

Лучший результат: 0.894280825362
Натренированные модели с кластерами лежат тут

Данные по каждому тэгу:

точность полнота f-мера кол-во примеров
A 0.88 0.88 0.88 21404
A-PRO 0.70 0.29 0.41 288
ADV 0.69 0.60 0.64 1696
ADV-PRO 0.76 0.17 0.28 77
ANUM 0.88 0.09 0.17 149
APRO 0.00 0.00 0.00 1
CONJ 0.12 0.07 0.09 41
INIT 0.00 0.00 0.00 9
INTJ 0.68 0.11 0.19 231
NONLEX 0.97 0.77 0.86 2504
NUM 0.71 0.09 0.16 112
PARENTH 0.00 0.00 0.00 55
PART 0.12 0.02 0.03 120
PR 0.30 0.03 0.06 87
PRAEDIC 0.31 0.02 0.04 269
PRAEDIC-PRO 0.00 0.00 0.00 5
S 0.92 0.94 0.93 38386
S-PRO 0.66 0.19 0.29 133
V 0.92 0.96 0.93 28348
avg/total 0.90 0.90 0.90 93915