Andrey Matveev
Andrey Matveev Рецензии на книги
27 октября 2022, 18:18

Что прочитать (и посмотреть) о данных и их визуализации.

Источник

Сегодня мы наблюдаем бурное развитие исследований в области данных и их визуализации. Однако, подобная практика анализа результатов исследований имеет очень глубокие корни. Так, Уильям Плейфер, шотландский инженер и секретный агент, изобрел первую гистограмму еще в 1786 году. В середине 19 века, когда в Лондоне свирепствовала холера, врач Джон Сноу нанес на карту случаи смертельной болезни, чтобы найти причину распространения болезни. В центре распространения эпидемии он заметил водяной насос, снял с него ручку и тем самым остановил заразу. В 1850-х годах Флоренс Найтингейл, установившая принципы современного ухода за больными, использовала диаграмму для отображения причин смерти во время Крымской войны. Тем самым она обосновала необходимость улучшения санитарных стандартов. В Америке У.Э.Б. Дюбуа — ученый, активист движения за гражданские права, пионер в области передачи данных, первый афроамериканец, получивший докторскую степень — в 1895 году использовал визуализацию данных, чтобы показать, как чернокожие американцы страдают от дискриминации.

Сегодня, в век больших данных, интерес к этой теме резко возрос. Все рассчитать и поделиться результатами анализа не всегда просто. Вот четыре книги, один подкаст и документальный фильм, которые помогут вам объяснить, как это надо делать.

1. Дэвид Шпигельхалтер. «Искусство статистики. Как находить ответы в данных». В этой книге британский статистик демонстрирует, как наблюдение за данными помогает решить распространенные проблемы. Большинство его примеров взяты из области медицины: от показателей смертности в больницах до скрининга рака яичников. Он также показывает, как другие науки, такие как археология и инженерия, изменились благодаря использованию статистики. Автор утверждает, что работать с данными и весело и важно. Например, он давал показания в качестве статистика в ходе публичного расследования неудач в поимке серийного убийцы. И, возможно, Шпигельхалтер — первый человек, который нанес мармеладки на логарифмическую шкалу.

2. «W.E.B. Du Bois’s Data Portraits: Visualizing Black America». By W.E.B. Du Bois. Инфографика, созданная Дюбуа и его командой из Университета Атланты на рубеже 20-го века, опередила свое время. Эта визуализация данных до сих пор служит примером силы и красоты хорошо продуманных графиков и диаграмм. Все его революционные разработки опубликованы в указанной работе. В 1900 году около 60 нарисованных от руки визуализаций данных Дюбуа были показаны вместе с 500 фотографиями на Всемирной выставке «Exposition Universelle» в Париже. Затем их отправили в Библиотеку Конгресса, где образцы инфографики и были забыты, пока столетие спустя их не оцифровали. Тем самым, наследие Дюбуа в области движения за гражданские права, социологии и обработки данных было переосмыслено уже на новом уровне.

3. Карл Бергстром и Джевин Уэст. «Полный бред! Скептицизм в мире больших данных». Отделить надежные данные от сомнительных непросто. Авторы — ученые из Вашингтонского университета — учат студентов, как это делать. Книга проведет вас по миру, полному сомнительных заявлений, основанных на ложных данных. Умирают ли рэперы молодыми? Являются ли большинство получателей продовольственных карточек мошенниками? Опираясь на занимательные примеры из науки, рекламы и политики, ученые показывают, как можно использовать числа, чтобы ввести вас в заблуждение, как на самом деле работает машинное обучение и почему диаграмма не всегда служит доказательством.

4. Альберто Кайро. «Графики лгут. Как стать информационно грамотным человеком в мире данных?». Эта книга изменит взгляд любого читателя на графики. Данные могут быть всесильными: подумайте о том, как диаграммы передают информацию, часто превращая скучные цифры в красочные выводы. Но числовая информация не всегда используются с толком. Альберто Кайро из Университета Майами показывает, как графики могут вводить в заблуждение, даже если они предоставляют верные данные. Автор объясняет, как правильно их читать, чтобы понять, что представляет собой диаграмма, и не может ли определенный взгляд на данные привести к заблуждениям. Необходимо обращать пристальное внимание на заголовок графика, легенду, масштаб, который он использует. Также необходимо подвергнуть сомнению намерения того, кто предоставил исходные данные или саму диаграмму.

5. Am I Normal? By Mona Chalabi. A podcast by TED Audio Collective. В этом подкасте Мона Чалаби, редактор данных «Guardian», копается в данных, чтобы найти ответы на повседневные вопросы. Известная своей ни на что не похожей, нарисованной от руки визуализацией данных, она показывает цифры с такой точки зрения, которая не упускет из виду людей, стоящих за ними. Сколько человеку достаточно друзей? Сколько времени — с точки зрения статистики — требуется, чтобы пережить разрыв в отношениях? На эти и другие вопросы Чалаби отвечает, тщательно анализируя данные. Каждый эпизод заставляет слушателя задаться вопросом, а что на самом деле означает «нормально»? Ее подкаст демонстрирует, что работа с числами редко бывает скучной.

6. «Закодированная предвзятость» (2020). Режиссер — Шалини Кантайя. Фильм фокусируется на алгоритмах распознавания лиц и на использовании этой информации в разных сферах человеческой жизни. То, что звучит как фантастика, во многих случаях уже стало реальностью. Документальный фильм рассказывает о том, как Джой Буоламвини — исследователь из Массачусетского технологического института - пытается раскрыть принципы работы этих алгоритмы, и найти ошибки, к которым эти разработки приводят. Она показывает, как те, кто работает с данными, могут запрограммировать расовые и гендерные предрассудки, не снабдив машинное обучение достаточным количеством разнообразных данных.

Телеграм-канал «Интриги книги»
0 Комментариев

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн