Жизнь арбитражника — сплошные A/B тесты. То креативы надо посплитить и понять, у кого лучше CTR, то хочется на проклу запихнуть форму сбора заявок и понять, будет ли от этого лучше конверт, то в ПП ленды новые завезли, и они чисто визуально, вроде, норм, но будут ли лиды?
И что происходит дальше? Берёт арбитражник пару-тройку креативов, пихает их в фб и, допустим, получает после открута следующие результаты:
Крео1: 2800 показов — 100 кликов = 3,6 CTR
Крео2: 3000 показов — 100 кликов = 3,3 CTR
Крео3: 3700 показов — 100 кликов = 2,7 CTR
«Всё ясно как день!»,- в восторге кричит наш арбитран: «У крео1 самый большой CTR, нахер все остальные!»
Или, скажем, есть у него пара прокл. И он такой сливает на каждую по 100 кликов и смотрит пробив:
У первой проклы пробив 25% а у второй 37%.
«Агааа»,- вопит арбитран: «Первая прокла — говно!»
И всё бы хорошо, но вот почему-то, после того, как из всех таким образом протестированных элементов собирается связка — она не конвертит ?♂️
Ну или конвертит, но итоговые значения не соответствуют протестированным. «Арбитраж — это один большой рандом» , — решает арбитран и идёт на завод.
А пока он идёт, мы посмотрим, где же он был не прав, и для этого нам бы по хорошему нужно окунуться в теорию вероятностей и статистику, но мы этого делать не будем, потому что это скучно, нудно и заумно, а нам лить надо ?
Интересующихся отправим в Википедию и далее по ссылкам, сами же пока что уясним одну простую штуку: данных, которые мы получили после проведения теста, может быть недостаточно, чтобы сделать однозначный вывод: лучше ли значение А чем значение Б.
Так как же понять, достаточно мы слили трафа или нет? Для таких случаев умные люди давно придумали онлайн-калькуляторы статистической значимости и мы с вами разберёмся с одним из них.
Берём, такие, переходим на вкладку «Итоги тестирования», вбиваем туда данные из первого примера с креативами и видим результат:
Если присмотреться, то снизу есть ползунок, по умолчанию стоящий на 95%, это значит, что есть всего 5% вероятности того, что показатели CTR у крео при дальнейшем сливе будут отличаются!
Со вторым примером будет то же самое, можете сами проверить.
Так какой же должен быть размер выборки, чтобы разница была значима?
Возьмём наш второй пример с проклами. Напомню, у одной пробив 25% а у другой 37% на 100 кликов. Разница между пробивами — 12%. Идём на первую вкладку «Размер выборки» и ставим там 25% — и 12%.
Видим, что размер выборки должен быть в 2 раза больше! Проверяем, переходим обратно на «Итоги тестирования» и тупо умножаем наши показатели на 2 (т.е. представляем, что при сливе ещё 100 кликов пробив останется таким же, что, конечно же, всего лишь предположение, которое предстоит проверить тестами).
Вот только теперь с вероятностью 95% мы можем быть уверены в том, что мы протестили проклы.
На этом краткое введение в статистику закончено, считаем всё и льём в плюс, господа!