Комментарии 4
Спасибо за статью!
Объясни, пожалуйста, чуть подробнее, почему
После обучения алгоритм может попасть на субоптимальный вариант - и очень нескоро вернуться к оптимальному при маленьком ε
Если ε маленькая (я предполагаю меньше 0.5 точно), то из формулы p=1-ε заведомо будет, что оптимальный вариант=субоптимальному, к. к. следующий по качеству автомат будет точно меньше 0.5 или нет?
Привет! Спасибо за вопрос
Идея этого тезиса состоит в следующем: эпсилон-жадный алгоритм учится на 5-10% выборки. Далее он выбирает автомат с самой большой оценкой вероятности выигрыша с вероятностью p = 1-ε в каждой итерации. То есть, если за 5-10% от выборки мы определили субоптимальный автомат как самый выигрышный (например, он случайно выдал много выигрышей к ряду), то дальше изменить наше мнение будет тяжело, так как на допроверку ВСЕХ остальных автоматов уйдет только доля ε итераций.
Томпсоновское семплирование: «расстрел» A/B-тестов и скрытый потенциал ML