Що читати: Making Data Visual

Хто автори?

Деніел Фішер - старший дослідник у Microsoft Research, Мірая Меєр - доцент Університету Юти, керівниця Visualization Design Lab.

Making Data Visual

Making Data Visual

Робота Мірая та Деніела зосереджена на тому, аби допомагати компаніям, дослідникам чи науковцям розробляти інструменти для візуалізації даних та пошуку інсайтів у великих масивах даних.

Для кого ця книга?

Самі автори відповідають на це питання наступним чином: “Ця книга для тих, хто має доступ до даних та, можливо, набору інструментів для їх обробки, але не дуже розуміє, як перетворити дані на візуальні інсайти”.

Вони кажуть, що багато книг з data science базуються на припущенні, що ви здатні здогадатись, як візуалізувати зібрані дані, а книги з візуалізації даних натомість припускають, що у вас вже є сформоване питання, на яке має відповісти візуалізація.

Разом з тим, практично немає книг, які б пояснювали візуалізацію даних саме як процес пошуку відповідей на питання. Making Data Visual саме для тих, кому бракує навичок формулювання питань до даних та отримання відповідей на них за допомоги візуалізації.

Навіщо читати

Деніел та Мірая пропонують доволі цікаву схему роботи над візуалізацією даних, в основі котрої лежить т.з. операціоналізація - процес переходу від загальної мети до питань, котрі дозволяють досягти цієї мети, а далі до конкретних задач і власне візуалізації даних.

Вони пояснюють цей процес на простому наборі даних з рейтингами фільмів на IMDB та питанням про те, хто є найкращим кінорежисером? Аби відповісти на це загальне питання, нам потрібно зрозуміти - а хто власне запитує, з якої перспективи, кого можна вважати хорошим режисером, і які змінні в нашому датасеті хоча б наближено відображають цю властивість.

Ось це “хоча б наближено” в контексті цієї книги є доволі важливим. Деніел та Мірая оперують поняттям proxy.

Проксі - це часткові та недосконалі репрезентації абстрактних речей, у котрих власне і зацікавлений аналітик. Наприклад, високий рейтинг фільму може слугувати проксі для поняття “найкращого фільму”. Вибір та інтерпретація проксі вимагають експертизи для оцінки того, наскільки добре та з якими обмеженнями проксі репрезентують абстрактний концепт, котрий є предметом інтересу.

Використовуючи проксі, наближення, ми можемо перейти від нашого загального, абстрактного питання “Хто є найкращим режисером?” до більш конкретного “Хто є режисером із найвищим середнім рейтингом?”, але при цьому нам, можливо, доведеться застосовувати певні фільтри до наших даних. Наприклад, аналізувати лише тих режисерів, фільми котрих отримали більше ніж, скажімо, 100 оцінок.

Ця книга важлива саме тим, що на простому прикладі описує процес інтеративного запитування даних, визначення метрик для відповідей на питання, процес переходу від набору даних до візуалізації з обґрунтуванням всіх рішень на шляху.


Випуск подкасту Data Stories, в котрому автори Making Data Visual обговорюють основні ідеї книги.

Супровідний сайт із візуалізаціями, використаними у книзі, та кодом для їх генерації за допомоги Vega / Vega-Lite.