Как измерить все, что угодно [Оценка стоимости нематериального в бизнесе]
Шрифт:
Пристрастный отбор методов выборочного обследования
Как обычный работник измерил бы популяцию рыб, обитающих в озере? Этот вопрос я всегда задаю участникам своих семинаров. Обычно в ответ слышу: «Осушил бы озеро». По мнению, например, среднего бухгалтера или даже менеджера среднего звена по ИТ, «измерить» означает «пересчитать». Поэтому когда речь заходит о численности (популяции) рыб, такие люди полагают, что их просят назвать точный итог, а не просто уменьшить неопределенность. С этой мыслью они и предлагают осушить озеро и, несомненно, сумели бы организовать дело так, чтобы каждая мертвая рыбешка была подобрана, брошена в кузов грузовика и сосчитана вручную. Возможно, кто-то пересчитал бы рыбу в грузовике еще раз и осмотрел бы дно осушенного озера, чтобы убедиться в точности подсчетов. Затем они сообщили бы, что всего в озере обитали ровно 22 573 рыбы, так что прошлогодние усилия по пополнению рыбных запасов озера не пропали даром. Правда, теперь вся эта рыба погибла.
А вот если поручить биологам измерить численность рыбной популяции в озере, то уж они не спутают слова «измерить» и «пересчитать». Взамен они, скорее всего, воспользуются методом, состоящим в выпуске пойманной рыбы и повторной ловле. Сначала биологи поймают и пометят некое число, скажем 1000, особей и снова выпустят их в озеро. После того как меченая рыба перемешается с немеченой, они отлавливают еще некое число особей. Допустим, поймали опять 1000 рыб, из которых 50 меченых. Это означает, что помечено 5 % всех имеющихся в озере рыб. Зная число первоначально меченых рыб — 1000, биологи делают вывод: в озере около 20 тыс. рыбин (1000 — это 5 % от 20 000).
Такого рода выборка подчиняется так называемому биномиальному распределению, но для больших чисел можно считать такое распределение нормальным. Ошибку оценки рассчитывают практически так же, как и ранее. Все, что нужно сделать, — это изменить порядок расчета дисперсии выборки, остальное не меняется. В данном случае дисперсию определяют как долю объектов в группе, численность которой мы пытаемся узнать, умноженную на долю объектов вне группы. Иными словами, берем долю меченой рыбы (0,05), умножаем ее на долю немеченой рыбы (0,95) и в результате получаем 0,0475.
Дальнейший порядок расчетов тот же. Делим дисперсию выборки на размер выборки и извлекаем квадратный корень из суммы: SQRT(0,0475:1000) = 0,007. Чтобы получить 90-процентный CI для доли меченых рыб в озере, к этой доле (0,05) прибавляем и вычитаем из нее 0,007, умноженные на 1,645 (z-значение 90-процентного CI). Результат: помечено 3,8–6,8 % всех рыб в озере. Мы знаем, что пометили 1000 рыб, тогда всего в озере от 1000/0,062 = 16 256 до 1000/0,032 = 25 984 особей.
Кому-то такой интервал покажется широким. Но предположим, что первоначально он выглядел как 2000—50 000 особей. Допустим также, что цель состояла только в том, чтобы определить, растет популяция или вымирает, и что ранее в озеро запустили 5000 мальков. Любое число свыше 6000 скажет нам о том, что популяция, как минимум, растет, а цифра свыше 10 000 — что запускать новых мальков больше не нужно. С учетом первоначального интервала значений и соответствующего порога полученная новая степень неопределенности — явный шаг вперед, а погрешность в данном случае вполне приемлема. На самом деле, и в первый, и во второй раз улов мог состоять не из 1000, а только из 250 рыб, но все равно мы были бы уверены, что популяция увеличилась так, что ее численность превысила 6000 особей.
Приведенный пример наглядно показывает, что выборочное обследование позволяет получить информацию даже о том, что никто не видит. Метод дает возможность определять, например, сколько человек остались не учтенными Бюро переписи населения США, сколько видов бабочек до сих пор не открыто в бассейне Амазонки, сколько несанкционированных попыток доступа в информационную систему было предпринято за прошедший период, а также сколько потенциальных клиентов не сумели выявить менеджеры компании. Если нельзя увидеть целиком какую-то группу объектов, это еще не означает, что измерить их численность тоже невозможно.
Метод выпуска пойманной рыбы и повторной ловли — лишь один из многочисленных приемов выборочного обследования. Несомненно, новые, более эффективные способы еще будут разработаны. Однако даже поверхностное знакомство с основными методами выборки позволяет правильно оценивать наблюдения и получать информацию, необходимую для решения самых разнообразных проблем.
ПРЕДНАМЕРЕННАЯ ВЫБОРКА
Преднамеренную (разовую) выборку можно сравнить со случайной моментальной фотографией людей, процессов или предметов в отличие от постоянного наблюдения за ними в течение некоего периода времени. Например, желая узнать, какую часть своего рабочего времени сотрудники тратят на данный вид деятельности, вы проверяете в один из дней, чем наугад выбранные люди заняты в настоящий момент. Окажись, что в 12 случаях из 100 работники участвовали в селекторном совещании, вы сделаете вывод: 12 % своего времени они тратят на селекторные совещания (90-процентный CI составляет 8–18 %). В этом примере, как и в случае с измерением численности рыбной популяции, мы имеем дело с биномиальным распределением. В каждый конкретный момент времени люди либо занимаются данным видом деятельности, либо нет, а вы просто спрашиваете, какую часть своего времени они на это тратят. И здесь размер выборки позволяет, как и ранее, считать распределение нормальным.
Но что, если удалось разово отобрать только 30 человек, из которых лишь пятеро занимаются интересующим вас видом деятельности? Достаточно ли этой информации? И вновь все зависит от степени исходной неопределенности до проведения выборочного обследования. Для ее снижения, возможно, этих данных и хватит. Рисунок 9.2 предоставляет способ быстрого определения 90-процентного CI для доли генеральной совокупности на базе малой выборки. Следуя указаниям на данном рисунке, вы получите такие результаты: нижняя граница 90-процентного CI — примерно 9 %, а верхняя — около 31 %. Предположим, что предыдущая оценка интервала дала итог 5–50 %, а порог, начиная с которого на базе той же информации придется принимать другое решение, — 40 %. Выборка такого размера вполне достаточна для принятия подобного решения.
КЛАСТЕРНАЯ ВЫБОРКА
Кластерное выборочное обследование — это случайная выборка из групп, проведение полного наблюдения или осуществление более концентрированной выборки в полученной группе. Например, если вы хотите узнать, какой процент семей имеет спутниковые тарелки или отделяет пластмассу от других бытовых отходов, иногда проще всего выбрать случайным образом в городе несколько кварталов, а затем провести сплошное обследование семей, проживающих в каждом из этих кварталов (на обследование семей, проживающих в разных концах города, ушло бы слишком много времени). В подобных случаях мы не можем исходить из того, что число объектов в случайной выборке должно равняться числу объектов в группах (в данном случае числу семей). Семьи, проживающие в одном квартале, могут быть очень похожими, поэтому нельзя считать, что размер случайной выборки определяется их числом. Когда семьи в квартале практически одинаковы, за размер выборки лучше принять число кварталов.
СТРАТИФИЦИРОВАННЫЕ ВЫБОРКИ
При стратифицированном отборе разные методы и (или) размеры выборки применяются к разным группам в составе одной генеральной совокупности. Этот подход имеет смысл, когда генеральная совокупность состоит из нескольких сильно отличающихся друг от друга, но внутренне однородных групп. Если вы владеете рестораном быстрого питания и хотите определить демографический состав своих клиентов, то, возможно, следует применять разные методы выборочного обследования к клиентам за столиками и к тем, кто берет еду на вынос. Если вы директор завода и хотите проверить, как соблюдается техника безопасности, то, возможно, методы наблюдения за сварщиками, мастерами и уборщицами должны различаться.
СЕРИЙНАЯ ВЫБОРКА
В учебниках по статистике метод серийной выборки обычно не освещается. Не обсуждали бы его и мы, называйся наша книга «Как измерить большинство вещей». Но в период Второй мировой войны данный подход широко использовался для сбора разведывательной информации[25]. Он может пригодиться и сегодня для решения некоторых бизнес-проблем. В годы Второй мировой разведчики союзников собирали сведения о производстве вражеской военной техники, в том числе немецких танков «Mark V». Сведения о производстве этих тяжелых танков были очень противоречивыми, и руководство разведки союзников не знало, чему верить. В 1943 г. работавшие на союзников статистики разработали метод определения объема производства на основе серийных номеров захваченных танков. Серийные номера следовали друг за другом и включали какую-нибудь дату. Однако по одному серийному номеру еще нельзя было точно сказать, когда был произведен первый танк серии (поскольку серия могла начинаться не с номера 001). Здравый смысл подсказывает, что минимальное месячное производство должно равняться, по крайней мере, разности между последним и первым серийными номерами машин, захваченных в данном месяце. Но нельзя ли узнать из этих номеров что-нибудь еще?
Подойдя к захваченным танкам как к случайной выборке из всей генеральной совокупности, статистики поняли, что могут рассчитать вероятность производства в разных объемах. Например, если в каком-то месяце было выпущено 1000 танков, то вероятность случайно захватить 10 произведенных в этот период машин с серийными номерами, отличающимися друг от друга не более чем на 50 единиц, крайне мала. Разброс номеров 10 танков, случайным образом выбранных из 1000, должен быть больше. Если же в этом месяце было произведено только 80 танков, то захват 10 из них с такими близкими номерами, по крайней мере, возможен.