Обновить

Томпсоновское семплирование: «расстрел» A/B-тестов и скрытый потенциал ML

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.7K
Всего голосов 3: ↑3 и ↓0+3
Комментарии4

Комментарии 4

Спасибо за статью!
Объясни, пожалуйста, чуть подробнее, почему

  • После обучения алгоритм может попасть на субоптимальный вариант - и очень нескоро вернуться к оптимальному при маленьком ε

    Если ε маленькая (я предполагаю меньше 0.5 точно), то из формулы p=1-ε заведомо будет, что оптимальный вариант=субоптимальному, к. к. следующий по качеству автомат будет точно меньше 0.5 или нет?

Привет! Спасибо за вопрос

Идея этого тезиса состоит в следующем: эпсилон-жадный алгоритм учится на 5-10% выборки. Далее он выбирает автомат с самой большой оценкой вероятности выигрыша с вероятностью p = 1-ε в каждой итерации. То есть, если за 5-10% от выборки мы определили субоптимальный автомат как самый выигрышный (например, он случайно выдал много выигрышей к ряду), то дальше изменить наше мнение будет тяжело, так как на допроверку ВСЕХ остальных автоматов уйдет только доля ε итераций.

все поняла, спасибо!

НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
job.ozon.ru
Дата регистрации
Дата основания
Численность
1 001–5 000 человек
Местоположение
Россия