Пособие по журналистике данных
Шрифт:
Но статистика по каждому судье отдельно показала, что примерно в 1–2% случаев не было назначено ни срока, ни штрафа. Поэтому на графике, демонстрирующем закономерность наказаний, как будто бы добавленная в последний момент, появилась маленькая графа с теми случаями, где наказание отсутствовало. Когда статья вместе с графиком была опубликована, судьи в один голос возмутились: мол, «Геральд» пытается обвинить их в нарушении законов штата, требующих наказания любому нетрезвому водителю.
Тогда репортеры вновь обратились к секретарю суда, который составил для них файл с данными, с просьбой разъяснить причину ошибки. Секретарь объяснил, что в указанных делах ответчиками являлись люди неимущие, совершившие правонарушение впервые. По закону им был положен штраф, но они не могли его заплатить. Поэтому судьи приговаривали их к общественным работам (например, подметать улицы). Как выяснилось, закон, требующий наказания, был принят после создания базы данных. Поэтому все судебные секретари знали, что пропуск в графе «наказание» означал общественные работы. Но этого НЕ БЫЛО в словаре данных, поэтому «Геральд» пришлось опубликовать опровержение.
Поэтому никогда не забывайте уточнить у источника данных, существуют ли какие–то неучтенные данные, новые коды, изменения в структуре файла и прочее. Кроме того, внимательно изучайте результаты анализа на предмет адекватности. Репортерам «Геральд» пришлось строить график в очень сжатые сроки, поэтому их интересовала закономерность в наказаниях, назначенных каждым судьей. Та горстка дел, где наказание якобы отсутствовало, ускользнула от их внимания. Им следовало спросить себя: а не кажется ли странным, что все судьи допустили нарушение закона, даже если только в самой малой доле случаев?
— Стив Дойг, Школа журналистики им. Уолтера Кронкайта, Университет штата Аризона
Буханка хлеба за 32 фунта
Газета Wales on Sundayопубликовала статью о том, что уэльское правительство тратит уйму денег на рекомендации употреблять продукты, не содержащие глютен. В заголовке говорилось, что правительство платит 32 фунта стерлингов за буханку хлеба, хотя на самом деле речь шла об 11 буханках по цене 2,82 фунта каждая.
В данных, взятых из письменного комментария уэльского правительства и статистики службы здравоохранения Уэльса, цифра была обозначена как стоимость одного рецепта. Тем не менее, дополнительных разъяснений относительно того, что считать рецептом и как отдельная колонка может определять его стоимость, в словаре данных не было.
Предположили, что цифра относится к одному предмету, т.е. к буханке хлеба, а не к нескольким буханкам.
Ни один человек из тех, кто составлял комментарий, ни даже пресс–служба, не заметили нестыковки, пока в понедельник не вышла статья.
Поэтому не думайте, что комментарии к правительственным данным помогут объяснить, какая информация представляется, или что люди, ответственные за сбор данных, заметят нестыковку, даже если вы озвучите свое неверное предположение.
Обычно газетам нужна информация, из которой можно сделать громкий заголовок. Поэтому, как правило, журналистам проще работать с тем, что подойдет для такого заголовка. Они не всегда щепетильно проверяют данные из страха потерять историю, особенно перед сдачей статьи. Разве что данные серьезно расходятся с их интерпретацией.
Однако, журналисты обязаны проверять нелепые заявления, даже если в результате статья сильно потеряет в скандальности.
— Клэр Миллер, WalesOnline
Начали с данных, закончили статьей
Чтобы увлечь читателя, вы должны выдать в заголовке цифру, которая заставит читателя навострить уши. Статья должна читаться так, как будто она не основана на статистике. Сделайте ее увлекательной и на любом этапе не забывайте об аудитории.
Пример: проект Бюро журналистских расследований с использованием Системы финансовой прозрачности Комиссии Евросоюза. Статья была написана как результат применения специфических запросов к массиву данных.
Мы искали ключевые слова «коктейль», «гольф» и «выездное заседание». Таким образом, удалось определить, сколько Комиссия потратила на эти пункты бюджета. В результате возникло множество вопросов и сюжетных линий, по которым пришлось провести расследование.
Но ключевые слова не всегда могут дать вам нужную информацию. Иногда приходится сесть и поразмыслить, а что вы действительно ищите. Во время этого проекта мы также решили узнать, сколько члены комиссии тратят на частные перелеты, но так как данные не содержали фразу «частный самолет», пришлось выяснять названия авиакомпаний другим способом. Когда мы узнали, услугами какого частного перевозчика пользуется Комиссия (Abelag), мы задали вопрос и выяснили, сколько денег тратится на услуги Abelag.
Таким образом, мы четко определили задачу наших запросов: нам нужна цифра, которая сделает громкий заголовок и которую можно интерпретировать так или иначе.
Еще один возможный подход – начать с черного списка и искать исключения. Проще всего написать статью о той информации, которой быть не должно! Хороший пример: совместный проект Financial Times и Бюро журналистских расследований по изучению Структурных фондов ЕС.
Мы сделали запрос на основе правил самой Комиссии о том, каким видам компаний и ассоциаций должен быть закрыт доступ к структурным фондам. Пример: затраты на табак и производители табака.
Мы запросили у базы данных названия табачных компаний и производителей табака. Выяснилось, что компания British American Tobacco получает полтора миллиона евро за фабрику в Германии.
Так как правил затрат Комиссии исключают финансирование, мы очень быстро нашли повод для статьи.
Никогда не знаешь, какую информацию можно будет получить из массива данных, поэтому будьте внимательны. Нужно быть очень предприимчивым, так как лучше всего этот метод подходит для определения очевидных характеристик, которые выявятся в процессе сортировки (самые большие или предельные значения, наиболее часто встречающиеся и т.п.).
— Селейн Барр, Citywire
Данные в статье
Иногда складывается впечатление, что журналистика данных заключается исключительно в представлении данных – визуализации, которая быстро и наглядно передает содержание цифр, или интерактивных базах данных с функцией поиска, которые позволяют, скажем, найти улицу или больницу в районе. Все это, конечно, может быть полезно, но, как и другие виды журналистики, журналистика данных предполагает написание статьи. Так какие статьи можно написать о данных? На основе моего опыта работы в BBC, я составил «типологию» статей, представляющих данные.
Думаю, стоит иметь в виду этот список – не только в процессе анализа данных, но и на стадии их сбора (ищете ли вы данные в свободном доступе или компилируете широкий набор информационных запросов).
1. Измерение
Простейшая история ; подсчет или подведение итога: «В прошлом году муниципалитеты потратили на скрепки Х миллиардов фунтов».
Зачастую сложно понять, много это или мало. Нужен контекст, который можно дать при помощи:
2. Соотношения
«В прошлом году муниципалитеты закупили скрепок на две трети своего бюджета на канцтовары»