Датасет: Пасажиропотік на міжнародному та внутрішньому сполученнях

Цікавий набір даних для аналізу та візуалізації від Укрзалізниці

На Єдиному державному порталі відкритих даних публікують інформацію про пасажиропотік на міжнародному та внутрішньому залізничному сполученнях. Наразі оприлюднені дані з вересня 2018 року і до січня 2020 року включно.

пасажирські перевезення на залізниці у 2019 році

пасажирські перевезення на залізниці у 2019 році

В кожному файлі міститься інформація про:

  • Номер поїзда
  • Вид сполучення (внутрішнє чи міжнародне)
  • Дату відправлення поїзда
  • Станцію відправлення
  • Станцію призначення
  • Тип вагона (плацкарт, купе, люкс)
  • Тип документа (повний, пільговий, дитячий)
  • Кількість пасажирів

Що ми можемо дізнатися з цього набору даних?

  • Скільки пасажирів було перевезено за певний період
  • Найбільш завантажені потяги / популярні напрямки
  • Дні/тижні/місяці, коли було перевезено найбільше/найменше пасажирів
  • Частку пільговиків, дітей або військових у загальній кількості пасажирів
  • Структуру перевезень за типами вагонів

Особливості та проблеми набору даних

  • У файлах можуть відрізнятися назви змінних та може бути різна кількість стовпчиків
  • У файлах може відрізнятися форматування дат (в одному випадку може вживатися YYYY-MM-DD, в іншому - MM/DD/YYYY)
  • У файлах може бути змішані дні з різних місяців (наприклад, у файл за травень 2019 року потрапляють даніза перші два дні червня 2019 року). Це потрібно враховувати під час чищення даних, оскільки впливає на агрегацію
  • Відсутні дані за декілька днів 2019 року

Якщо хочете почати аналізувати цей набір даних в R, на GitHub можете знайти кілька скриптів для парсингу та агрегації даних.