Анонимизированные данные веб-аналитики
Этот набор данных состоит из двух таблиц, содержащих анонимизированные данные веб-аналитики с переходами (hits_v1
) и посещениями (visits_v1
).
Таблицы можно скачать в виде сжатых файлов tsv.xz
. В дополнение к образцу, с которым работали в этом документе, доступна расширенная версия таблицы hits
, содержащая 100 миллионов строк, размером 7,5 ГБ в формате TSV по адресу https://datasets.clickhouse.com/hits/tsv/hits_100m_obfuscated_v1.tsv.xz.
Загрузка и прием данных
Загрузка сжатого файла TSV для переходов:
Создание базы данных и таблицы
Для hits_v1
Или для hits_100m_obfuscated
Импорт данных переходов:
Проверьте количество строк
Загрузка сжатого файла TSV для посещений:
Создание таблицы посещений
Импорт данных посещений
Проверьте количество строк
Пример JOIN
Набор данных переходов и посещений используется в тестах ClickHouse, это один из запросов из тестового комплекта. Остальные тесты упоминаются в разделе Следующие шаги в конце этой страницы.
Следующие шаги
Практическое введение в разреженные первичные индексы в ClickHouse использует набор данных переходов для обсуждения различий в индексировании ClickHouse по сравнению с традиционными реляционными базами данных, как ClickHouse строит и использует разреженный первичный индекс, и лучшие практики индексирования.
Дополнительные примеры запросов к этим таблицам можно найти среди состоявшихся тестов.
Тестовый набор использует имя базы данных test
, а таблицы называются hits
и visits
. Вы можете переименовать вашу базу данных и таблицы или отредактировать SQL из тестового файла.