Почему вы советуете использовать именно GA4 и BigQuery
Google Analytics и BigQuery позволяют нам анализировать данные, собранные на сайте, в том виде, в каком они были собраны (т.е., в виде raw data, «сырых данных»).
Есть несколько причин, по которым мы предпочитаем строить систему аналитики на rawdata:
- Отсутствие сэмплирования. Сэмплирование – это способ ускорения расчётов, используемые поисковыми машинами при построении отчётов в аналитических системах. Т.е., когда Google Analytics или Яндекс.Метрика анализируют большой объём данных и создают отчёт в реальном времени, на них лежит задача сделать это как можно быстрее. Для ускорения расчётов поисковики используют сэмплирование, т.е., они анализируют не весь объём данных, а только часть (например, не все переходы на сайт, а только 20%). После этого результат умножается на коэффициент, использовавшийся при отборе объёма (в данном случае – на 5). Таким образом, поисковая машина строит анализ на основании небольшого объёма данных, а потом экстраполирует его на весь объём. Как правило, при небольшом трафике и более-менее стандартных отчётах сэмплирование практически не влияет на результаты. Однако при большом объёме исходных данных или использовании сложных выборок/фильтров, сэмплирование может приводить к заметному искажению результатов. Кроме того, эффекты сэмплирования могут быть настолько непредсказуемыми и ошеломляющими, что верить каким-либо результатам становится сложно. В случае с raw data, мы не используем сэмплирование вообще;
- Любая аналитическая система может выдавать только те отчёты, которые в ней запрограммированы, т.е., имеет ряд функциональных ограничений. Например, если Яндекс.Метрика не умеет рассчитывать цели в прошлое, то посчитать, как цель, сформулированная сегодня, отрабатывала год назад, в ней практически невозможно. При работы с raw data, мы используем данные в исходном виде, следовательно – можем выполнить любые расчёты, без каких-либо функциональных ограничений;
- Современные аналитические системы, такие как Яндекс.Метрика и Google Analytics – это достаточно сложные инструменты, требующие для работы с ними определённых навыков. Когда мы строим свои отчёты на основе raw data, мы используем подходы BI (Business Intelligence) аналитики – то есть методик представления деловой информации в виде, понятном любому пользователю без специальной подготовки.
Для этой работы нам приходится анализировать огромные объёмы информации. Для анализа таких больших объёмов данных используется высокопроизводительная облачная база данных GoogleBigQuery.