Skip to content

Latest commit

 

History

History

datalens

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 

Анализ данных в DataLens

DataLens

DataLens — Cервис визуализации и анализа данных, позволяющий создавать аналитические дашборды с диаграммами, таблицами и другими вариантами визуализации над различными источниками. В DataLens есть четыре основных объекта:

  • Подключение — параметры доступа к источнику данных
  • Датасет — набор данных из источника и их метаописание.
  • Виджет — визуализация данных в виде графиков и таблиц.
  • Дашборд — страница с набором виджетов и управляторов.

Пример дашборда в DataLens https://datalens.yandex.ru/dashboards/ixbje4smtvyog

Задача

Необходимо проанализировать данные по футболистам:

  • Определить самую массовую национальность футбольстов
  • Определить период, когда рождались футболисты с самими высоки зарплатами на текущий период
  • Проанализировать зависимость веса/роста/возраста от зарплаты

Этап загрузки данных и создания датасета

Одим из доступных источников данных для DataLens являются CSV-файл. В случае работы с CSV-файлом он предварительно предзагружается в хранилище DataLens для дальнейшего исполнения запросов.

  1. Перейдите на страницу Datalens. Если вы находитесь на странице дашборда, то кликните на логотип Yandex Datalens.
  2. В правом меню нажимаем на Подключения. Отображется список доступных вам подключений.
  3. Нажимаем Создать датасет
  4. В диалоговом окне отображается список доступных подключений, на основе которых можно создать датасет. Мы хотим создать новое подлючение на основе файла Footbal.csv
  5. Нажимаем Создать подключение в правом верхнем углу.
  6. Выбираем CSV
  7. Нажимаем Выбрать CSV-файл.
  8. Указываем файл Footbal.csv. До загрузки файла может понадобится некоторое время (5-10 секунд).
  9. Нажимаем Сохранить

Настройка датасета

Датаест описывает набор данных из источника, определяет принадоежность полей к измерениям и показателям, типы агрегаций для показателей, вычисляемые поля.

  1. Дублируем поле ID: нажимаем на троеточие в равой части строки с полем, далее пункт меню Продублировать
  2. Переименовываем ID в footballer ID
  3. Переименовываем ID (1) в Count
  4. Для поля Count меняем тип агрегации на CountUniq, поле меняет цвет на синий становясь показателем
  5. Необходимо посчитать возраст футболистов в годах, нажмаем Добавить поле в правом верхнем углу
  6. Назвываем поле Age
  7. Вводим формулу int((today()-[birth_date])/365), сохраняем
  8. Дублируем поле eur_salary
  9. Переименовываем eur_salary в eur_salary sum
  10. Переименовываем eur_salary (1) в eur_salary avg
  11. Для поля eur_salary sum меняем тип агрегации на Sum
  12. Для поля eur_salary avg меняем тип агрегации на Avg
  13. Сохраняем датасет, нажимаем Сохранить
  14. Нажимаем Создать чарт

Визуализация и анализ

Визуализация данных настраивается в Визарде. Интерфейс Визарда делится на три области:

  • Справа — область выбора с измерениями и показателями датасета.
  • Посередине — область настройки визуализации.
  • Слева — область превью.

Определить самую массовую национальность футбольстов

  1. Выбираем столбчатую диаграмму в области настройки визуализаций
  2. Выносим nationality на ось X, Count на Ось Y
  3. Выносим Count в сортировку, меняем порядо сортировки по убыванию
  4. Выделяем часть графика с максимальными значениями столбцов, смотрим какие страны в лидерах

Определить период, когда рождались футболисты с самими высоки зарплатами на текущий период

  1. Удаляем текущие поля из секций (оси, сортировка)
  2. Выносим birth_date на ось X, eur_salary avg на Ось Y
  3. Понимаем, что дата слишком детальная, необходимо округлить до месяца
  4. Создаем вычисляемое поле, нажимаем на знак "+" рядом с названием датасета в панели выбора сверху
  5. Называем поле birth_month
  6. Вводим формулу округления datetrunc([birth_date], 'month')
  7. Выносим birth_month на ось X вместо birth_date
  8. Смотрим какие месяца были самими урожайными на успешных футболистов

Проанализировать зависимость веса/роста/возраста от зарплаты

  1. Удаляем текущие поля из секций (оси, сортировка)
  2. Создаем вычисляемое поле "Avg Age" с формулой AVG([Age]) (нажимаем на знак "+" рядом с названием датасета в панели выбора сверху)
  3. Создаем вычисляемое поле "Avg Weight" с формулой AVG([weight_kg])
  4. Создаем вычисляемое поле "Avg Height" с формулой AVG([height_cm])
  5. Меняем тип визуализации на Точечная диаграмма
  6. Выносим nationality в секцию Точки, Avg Age на Ось X, eur_salary avg на Ось Y
  7. Смотрим есть ли зависимотьс
  8. Меняем nationality на club в секции Точки
  9. Меняем club на full_name в секции Точки
  10. Аналогично смотрим зависимости eur_salary avg с Avg Weight и Avg Height

Дополнительные вопросы

  • в какой день родилось больше всего футболистов?
  • игроки какой страны самые маленье?
  • в каком клубе лучший показатель EUR/kg (отношение заработной платы на вес футболиста)?