Как измерить все, что угодно [Оценка стоимости нематериального в бизнесе]
Шрифт:
Кое-что о малых выборках: подход пивовара
Точно рассчитать 90-процентный CI для среднего веса одного леденца, а не полагаться на мнение калиброванных экспертов позволяет метод, разработанный одним пивоваром. Он преподается в базовом курсе статистики и часто используется для определения погрешности выборки, состоящей всего из двух объектов. В самом начале XX века Уильяму Сили Госсету, химику и статистику ирландской пивоваренной компании Guinness, потребовалось установить, какой из двух сортов ячменя дает лучшее пиво с большим выходом. Ранее был разработан метод z-значения (z-score), или статистики нормальных распределений, позволяющий находить доверительный интервал на основе случайной выборки, состоящей из не менее чем 30 объектов. Метод дает распределения, не отличающиеся по форме от обсуждавшегося выше нормального. К сожалению, у Госсета не было возможности протестировать большое число партий пива, изготовленных из каждого сорта ячменя. Однако он не отказался от своей затеи измерить то, что как будто не поддавалось оценке, и решил вывести новый вид распределения для крайне малых выборок. К 1908 г. Госсет разработал новый эффективный метод, который назвал t-статистикой, и захотел опубликовать результаты своей работы.
Однако у Guinness уже были проблемы с разглашением коммерческой тайны, и служащим компании было запрещено публиковать любую информацию о бизнес-процессах. Госсет понимал значение своей работы, но ему сильнее хотелось рассказать о своей идее, чем добиться немедленного признания. Поэтому он опубликовал статью под псевдонимом «Стьюдент». И хотя истинный автор давно известен, практически во всех работах по статистике метод называется t-статистикой Стьюдента.
Вид распределения Стьюдента напоминает обсуждавшееся нами ранее нормальное распределение. Но в случае очень малых выборок его форма становится намного уплощеннее и шире. Рассчитанный с помощью t-статистики 90-процентный CI намного шире (то есть неопределеннее), чем в случае нормального распределения. Если размер выборки больше 30, то график t-распределения практически совпадает с нормальным распределением.
И для одного, и для другого типа распределения существует сравнительно простой (по сравнению со многими другими статистическими методами) способ расчета 90-процентного доверительного интервала для среднего значения генеральной совокупности. Кому-то наши расчеты могут показаться слишком сложными, а те, кто уже знаком с данным методом, скажут, что мы просто пересказываем содержание учебников по статистике. Пусть первые подождут, пока мы не рассмотрим в следующей главе намного более простое решение, а вторые просто пропустят этот материал. Адресуя свои пояснения читателям, которые отнесут себя к средней категории, я старался сделать их как можно более простыми для восприятия. Вот как мы могли рассчитать 90-процентный CI в предыдущем примере, отобрав всего пять леденцов.
1. Рассчитаем сначала дисперсию выборки (этим понятием мы позднее будем часто пользоваться):
а) рассчитаем средний вес отобранных леденцов: (1,4 + 1,4 + 1,5 + 1,6 + 1,1)/5 = 1,4;
б) вычтем это среднее из каждого значения в выборке и возведем полученные результаты в квадрат: (1,4–1,4)2 = 0; (1,5–1,4)2 = 0,012 и т. д.;
в) суммируем все квадраты и разделим на размер выборки минус единица: (0 + 0 + 0,01 + 0,04 + 0,09)/(5–1) = 0,035.
2. Разделим дисперсию выборки на ее размер и извлечем из полученного результата квадратный корень. В электронной таблице мы записали бы «=SQRT (0,035/5)» и получили 0,0837.
(В работах по статистике это называется средним квадратичным отклонением.)
3. Найдем в таблице 9.1 (таблице упрощенных значений t-статистики) значение t, соответствующее размеру выборки: для выборки, состоящей из пяти объектов, t = 2,13. Обратите внимание, что для очень больших выборок t близко к z-значению (нормальное распределение) 1,645.
4. Умножим найденное t-значение на результат этапа 2: 2,13 x 0,0837 = 0,178. Это ошибка выборки в граммах.
5. Суммируем ошибку выборки и средний вес леденца, чтобы получить верхнюю границу 90-процентного CI, а затем вычтем ее из среднего веса, чтобы получить нижнюю границу: верхняя граница = 1,4 + 0,178 = 1,578; нижняя граница = 1,4–0,178 = 1,222.
Итак, выбрав всего пять леденцов, мы получили 90-процентный CI, составляющий 1,222–1,578. Аналогично рассчитывают доверительный интервал и для более крупных выборок. Единственная разница заключается в том, что z-значение, необходимое для этого, всегда будет составлять 1,645 (с ростом размера выборки оно не увеличится).
На рисунке 9.1 представлен общий результат решения другой гипотетической задачи с использованием t-статистики. Это могло быть определение средней партии пива, сваренного в компании Guinness, среднего времени, проводимого покупателями в очередях, или среднего размера обуви жителей штата Небраска. В любом случае необходимо определить 90-процентный CI для среднего значения генеральной совокупности, хотя по каким-то причинам (экономические факторы, ограниченность во времени или несогласие жителей штата Небраска на измерение размеров их ног) размер выборки из подобных совокупностей составлял бы не десятки и сотни, а всего несколько образцов.
На этом рисунке нижняя ломаная линия — график значений выборки, пунктир — истинное среднее значение генеральной совокупности. Одни значения выборки выше этого среднего, другие ниже. Фактических значений на рисунке нет, но для наших целей смысл понятен. В верхней части рисунка вы видите три кривые, левые края которых образуют своеобразную «воронку торнадо». Средняя линия — график скользящей средней выборки (сначала среднее из первых трех значений, затем среднее из первых четырех значений и т. д.), которая сравнивается с истинным средним генеральной совокупности, представленным прямой пунктирной линией. Две внешние кривые — графики верхней и нижней границ 90-процентного доверительного интервала, пересчитываемого после каждого нового пополнения выборки.
Обратите внимание, что пока выборка невелика, 90-процентный CI достаточно широк, быстро сужаясь всякий раз, как она пополняется. Разброс значений в выборке по-прежнему велик, но скользящее среднее значение все больше приближается к истинному среднему. Заметьте и то, что при 30 членах выборки 90-процентный CI намного уже, но ненамного уже, чем при 20 или 10 членах. Когда выборка насчитывает 30 объектов, снижение ошибки вдвое требует увеличения ее размера в четыре раза (120 объектов). Чтобы сократить ошибку в четыре раза, нужно увеличить размер выборки в 16 раз (480 объектов). Короче говоря, каждое уменьшение ошибки выборки вдвое требует умножения ее размера на четыре.
И t-статистика, и нормальная z-статистика — разновидности так называемой параметрической статистики. Она предполагает конкретную форму распределения. Во многих случаях можно смело допустить, что распределение переменных является нормальным, но это не всегда так. Поэтому хотя параметрическая статистика и не опирается на субъективные оценки калиброванных экспертов, она все равно начинается с достаточно произвольного допущения о типе распределения.
В конечном счете разница между субъективным и объективным может не иметь большого значения, во всяком случае, на эффективность этих методов она не влияет. Единственное, что должно нас беспокоить, — как они работают на практике. Какая оценка интервала на основе малой выборки точнее — сделанная калиброванными экспертами или полученная с помощью параметрической статистики? Не ошибаются ли эксперты чаще, чем параметрическая статистика?
В эксперименте с калиброванными экспертами и леденцами специалисты постоянно давали более широкие (хотя и ненамного) интервалы значений, чем t-статистика. Это означает, что дополнительные несложные расчеты позволяют уточнить оценки калиброванных экспертов. Когда мы выбрали восемь леденцов, интервалы, предложенные самым осторожным и самым уверенным в себе экспертом, составляли 0,5–2,4 и 1–1,7 грамма соответственно. При выборке такого же размера t-статистика дала бы 90-процентный CI для среднего веса конфеты 1,21–1,57 грамма. Мы видим, что последний гораздо уже, чем самый узкий из интервалов, предложенных специалистами. Но хотя снижение неопределенности в нашем эксперименте и не было таким заметным, как можно ожидать, оно все равно оказалось значительным по сравнению с исходным состоянием. И как мы еще увидим в главе 10, дальнейшие исследования подтверждают эти выводы.
Итак, мы установили, что:
• когда исходная неопределенность высока, для ее существенного снижения достаточно изучить несколько объектов из генеральной совокупности;
• калиброванные эксперты сумели снизить неопределенность, отобрав из генеральной совокупности всего один объект, чего не может традиционная параметрическая статистика;
• оценки калиброванных экспертов обоснованны, но осторожны. Чтобы снизить неопределенность еще больше, нужно провести дополнительные расчеты.