Зачем нужны «Хиты» или тонкости анализа глубины просмотра сайта

Хит – анализ технической стороны работы сайта, измеряется нагрузка на сервер, отклик и доступность сервера, технические ошибки.

Хост (или ip) – география, включение или исключение определенных подсетей (к примеру, собственных сотрудников) при расчете статистики. Ранее, хосты использовались в качестве идентификатора посетителя, но сейчас используются более точные методики определения посетителя (к примеру, в статистике Яндекса отношение хостов к посетителям равно как один к четырем, иными словами 4х кратная погрешность определения посетителя по ip адресу). При этом для сайтов с невысокой посещаемостью можно с минимальной погрешностью принимать хосты за посетителей.

Но на сегодня – самое главное это не техническая начинка сервера, а размещенная на нем информация и люди, работающие с этой информацией. Поэтому, современный лог-анализатор должен предоставлять следующие данные:

- люди (посетители сайта)

- осведомленность (полученная посетителями сайта информация)

- действия/свойства посетителей (в т.ч. реакция посетителей на информацию, обратная связь)

- источники посетителей сайта

В некоторых лог анализаторах вышеперечисленные показатели представляются с помощью хитов и хостов. Но это косвенные данные, весьма относительно отражающие действительность. Возьмем несколько типичных примеров:

Человек дважды нажал на ссылку, ведущую на ваш сайт, таким образом, сервер получил два запроса (т.е. два хита), но загрузится в пользовательский браузер только последний запрос (такие ситуации не редкость). Если лог анализатор измеряет статистику хитами, то «глубина просмотра» в данном случае составляет 2 страницы, что вводит в заблуждение, т.к. посетитель реально имел возможность ознакомиться только с одной страницей. Таким образом, ошибки возникают и при анализе активности аудитории и при анализе осведомленности.

Точно также, при измерении хитов возникают ошибки в случае, когда:

- человек вошел на сайт, перешел в один из его разделов, а затем вернулся на входную страницу (3 хита, а в реалии только 2 уникальных страницы)

- человек вошел на сайт, но не продолжил его просмотр, а на следующий день вошел снова на эту же страницу (2 хита, реальное ознакомление = 1 страница)

- и многие другие случаи…

Когда мы в 2002 году проектировали нашу статистическую систему, перед нами остро встала необходимость измерения осведомленности посетителей сайта. Рассмотрев множество возможных вариантов, мы приняли решение, что измерять осведомленность и вообще посещаемость любой страницы (или группы страниц) можно только в людях. К примеру:

- информацию о ценах получили 100 человек (20% от всех посетителей)

- дошли до хотя бы одной презентации какого-либо товара 200 человек (40% от всех посетителей)

Продолжая тему измерения осведомленности посетителей сайта необходимо рассмотреть еще один параметр – «глубина просмотра» сайта посетителями (количество страниц на сайте просмотренных средне статистическим посетителем). Как оказалось, большинство систем интернет-статистики используют не адекватную методику определения средних чисел. Дело в том, что для вынесения суждений о среднестатистическом посетителе (или наиболее типичном посетителе) наилучшим образом подходит медиана, а не среднее арифметическое значение, которое используется в большинстве систем. Рассмотрим пример:

Сайт посетило 10 человек. Из них 9 человек ознакомились только с одной страницей на сайте, а один человек просмотрел сразу 11 страниц. Если вычислить среднее арифметическое значение, то получается, что в среднем, посетители сайта смотрели 2 страницы. Чтобы принять правильное решение, давайте представим, что мы делаем денежные ставки на то, сколько страниц просмотрит следующий посетитель сайта. Одну или две? Лично я бы поставил на первое, и если бы мы взяли медиану в качестве среднего значения, то результат был бы именно одна страница.

Дело в том, что медиана не отражает крайние, нетипичные значения, такие как 11 страниц в нашем примере. В то время как среднее арифметическое рассчитывается из всего ряда данных, куда включаются как крайне малые, так и крайне большие, случайные значения.

Получаемое среднее значение глубины просмотра позволяет в динамике отслеживать развитие проекта, но для качественного анализа этого, как правило, недостаточно. Дело в том, что среднее значение не отражает распределение данных. В идеале, в каждом случае было бы полезно оценивать весь ряд данных, к примеру:

Смотрели только 1 страницу на сайте = 100 человек (20% от всех посетителей)

2 стр. = 200 чел. (40% от всех)

3 стр. = 100 чел. (20% от всех)

4 стр. = 50 чел. (10% от всех)

5 стр. = 25 чел. (5% от всех)

N стр. = X чел. (Y% от всех)

Но тут мы сталкиваемся с другой проблемой – избыточность данных и сложность их организации для анализа, что усложняет процесс вынесения суждений и снижает очевидность сложившейся ситуации при беглом взгляде (хотя и обеспечивает более высокую точность). Для себя и для наших клиентов мы рекомендуем следующий подход, позволяющий решить все эти проблемы, используя всего три показателя:

1) количество и доля смотревших на сайте только одну страницу (пример: 100 человек, 20% от всех посетителей сайта). Как правило, это самостоятельный показатель качества аудитории.

2) количество и доля смотревших X и более страниц (X – настраиваемая величина, но, как правило, по умолчанию используется значение 3, что не только более качественно, чем 2 страницы, но и позволяет легко определить количество смотревших две страницы, зная по умолчанию присутствующее кол-во смотревших только одну страницу).

3) количество страниц в среднем (медиана) просмотренных качественными (теми, кто смотрел больше одной страницы) посетителями.

Таким образом, всего 3 показателя достаточно хорошо дают представление о распределении данных, могут выступать самостоятельными качественными показателями и существенно экономят время аналитика на обработку и презентацию клиентам. (Подобный подход не исключает возможности получения всего ряда данных, но в нашей практике такой необходимости не возникало.)

И в заключении, в качестве попытки найти ответ на вопрос, почему же большинство лог анализаторов пользуются хитами при отображении статистики, я бы выделил следующие возможные варианты:

1) Следование сложившимся традициям. Во-первых, так делают конкуренты. Во-вторых, о хитах написано практически во всех книгах и на многочисленных сайтах, освещающих интернет тематику. В-третьих, интернет создавался технарями, для которых понятие «загрузка» более понятно и близко, чем понятие «охват целевой аудитории».

2) Техническая направленность лог анализатора. Как я уже упоминал в самом начале, хиты позволяют адекватно оценивать техническую сторону работы сервера.

3) Снижение нагрузок на сервер при расчете статистики. Очень важный параметр, особенно для систем, предоставляющих статистику в онлайн-режиме.

4) Недостаток ресурсов для развития. В первую очередь ресурсов интеллектуальных и финансовых.

Дмитрий Малявкин

июль 2004

2Поднять рейтингОпустить рейтингДобавить комментарийВерсия для печати
Руководитель направления исследований
Дмитрий Малявкин

Публикации автора
Личный форум