Как измерить все, что угодно [Оценка стоимости нематериального в бизнесе]
Шрифт:
Простейшие статистические методы получения выборок
Ясно, что эксперты могут сильно снизить исходную неопределенность, сделав всего нескольких наблюдений, а параметрический метод позволяет сократить ее еще больше. Но всегда ли калиброванные оценки уступают результатам, полученным с помощью параметрической статистики? Нет, не всегда. И t-статистика, и нормальная статистика учитывают только значения в выборочной совокупности, не принимая во внимание условия выборки, предварительную информацию, имевшуюся у эксперта перед проведением оценки, или наличие иных факторов. Другими словами, параметрические методы не позволяют воспользоваться многим из того, что мы называем здравым смыслом, так как не принимают во внимание информацию, интуитивно учитываемую калиброванными экспертами.
Предположим, что вместо взвешивания леденцов мы спросили у руководителей отделов продаж, сколько времени у них отнимает работа с отстающими торговыми представителями. Допустим, мы выбрали всего пять руководителей и они сказали, что тратят на эти цели 1, 6, 12, 12 и 7 часов в неделю. Применив t-статистику, получаем 90-процентный CI, составляющий 3,8–13 часов. Однако в статистическом уравнении не учтен тот факт, что 1 час — это временные затраты Боба, у которого, как всем известно, больше проблем с персоналом, чем у кого-либо другого, и который наверняка намеренно занизил этот показатель. А калиброванный эксперт, напротив, обязательно использовал бы эту дополнительную информацию. Оценка эксперта субъективна и поэтому кажется ненадежной, но в среднем она почти не уступает, а иногда и превосходит по точности оценку «объективной» статистики.
Более того, при очень малых выборках t-статистика часто дает доверительный интервал, который не имеет смысла с учетом известных ограничений. Предположим, что вы проанализировали ведомости учета рабочего времени и увидели, что ни один руководитель отдела продаж не тратит на общение со своими торговыми представителями более 12 часов в неделю, а затраты времени на общение с отстающими работниками еще меньше. И торговые представители, имеющие неважные показатели, утверждают, что общаются с руководителями не более 12 часов в неделю. Тогда верхняя граница нашего 90-процентного CI (13 часов) выглядит нереалистичной, но это лучший расчет t-статистики.
Я придумал другой, более простой подход, позволяющий не привлекать калиброванных экспертов и использующий только значения выборки. Вместе с тем он свободен от недостатков t-статистики. В главе 3 мы вскользь обсуждали Правило пяти. Как вы помните, оно гласит, что если выбрать случайным образом пять объектов из любой генеральной совокупности, то существует вероятность 93,8 % того, что медиана этой совокупности окажется в интервале между наибольшим и наименьшим значениями выборки. Но это лишь одно из правил, касающихся малых выборок. Если бы мы нашли метод определения 90-процентного CI непосредственно по значениям выборки, то быстро находили бы его без всяких расчетов.
Если выбрать восемь объектов, то наибольшее и наименьшее их значения зададут CI, гораздо более широкий, чем 90-процентный (в действительности, это был бы примерно 99,2-процентный CI). Но оказывается, что если взять вторые наибольшее и наименьшее значения в этой выборке, то получим интервал, гораздо более близкий к 90-процентному (примерно 93 %). При выборке из 11 объектов интервал окажется еще ближе к 90-процентному для третьих наибольшего и наименьшего значений.
Таблица 9.2 показывает, выборки какого размера позволяют получить CI, близкий к 90-процентному, просто взяв одно из самых высоких и одно из самых низких значений из нее. Например, при выборке 18 объектов верхняя и нижняя границы CI, близкого к 90-процентному, будут примерно равны шестым наибольшему и наименьшему значениям. Осторожности ради я специально выбирал размеры выборки, позволяющие получить не 90-процентный, а несколько более широкий CI. Третий столбец «Фактическая степень уверенности» показывает вероятность того, что медиана окажется в интервале, границами которого служат я-ное наибольшее и я-ное наименьшее значения. Не беспокойтесь о том, как использовать этот столбец. Достаточно знать, что получаемый CI максимально близок к истинному 90-процентному и не слишком узок (то есть является довольно осторожной оценкой).
Я называю этот 90-процентный CI определяемым без математических расчетов, так как все, что от нас требуется, — это записать несколько цифр, касающихся наибольшего и наименьшего значений выборки. Вам не придется рассчитывать ее дисперсию, извлекать квадратные корни или использовать таблицы t-значений. Составляя данную таблицу, я пользовался некоторыми непараметрическими методами и проверил полученные результаты методом Монте-Карло для малых выборок. Не стану утруждать вас подробностями, но ее использование существенно упрощает определение 90-процентного CI на основе малых выборок. Постарайтесь запомнить, что имея выборку из 5, 8, 11 или 13 объектов, для определения на ее основе границ 90-процентного CI нужно взять, соответственно, ее первое, второе, третье или четвертое наибольшее и наименьшее значения. Теперь можно быстро оценить 90-процентный CI, отобрав лишь несколько объектов для наблюдения, не доставая из кармана калькулятор.
Если говорить коротко, данный прием работает потому, что при расчете 90-процентного CI «середина» ряда значений особой роли не играет. Чтобы объяснить почему, нам придется еще раз вернуться к параметрическим методам. Они, как мы видели на примере параметрической t-статистики, требуют расчета дисперсии выборки. Из каждого значения в выборке вычитается среднее по выборке, а полученный результат возводится в квадрат. Сумма всех этих квадратов и есть дисперсия. Выполнив эти простые расчеты, вы обнаружите, что величина дисперсии почти целиком зависит от значений, намного отличающихся от среднего. Даже у больших выборок дисперсия обычно лишь на 2 % зависит от средней трети значений и на 98 % — от других двух третей наибольших и наименьших значений выборки. Когда размер выборки не превышает 12 объектов, дисперсия определяется всего двумя экстремальными точками — наибольшим и наименьшим значениями выборки.
Данный не требующий расчетов метод позволяет получить 90-процентный CI, лишь чуть-чуть более широкий, чем при использовании t-статистики, без связанных с ней проблем. Вспомним пример, в котором пять руководителей отделов продаж указали, что тратят на общение с отстающими торговыми представителями 1, 6, 12, 12 и 7 часов в неделю. С помощью t-статистики мы установили, что верхняя граница интервала — 13, но знаем, что по другим соображениям она должна быть ниже, и с помощью нашего не требующего расчетов метода получим интервал 1–12. Мы знаем, что 12 — вполне возможное значение верхней границы интервала, так как это одно из значений нашей выборки. Если отобрать еще шесть руководителей с затратами времени 4, 5, 10, 7, 9 и 10 часов в неделю, то выборка составит 11 объектов. Таблица показывает, что при таком размере выборки границами CI, близкого к 90-процентному, служат третьи наибольшее и наименьшее ее значения. С учетом этого получаем 90-процентный CI, составляющий 5–11 часов в неделю. А t-статистика в этом (довольно редком) случае даст нам несколько более широкий интервал 4,5–11,3 часа в неделю.
Важно отметить, что использованный мной непараметрический метод в отличие от t-статистики определяет 90-процентный CI для медианы, а не для среднего значения. Медианой генеральной совокупности называют такое значение, выше которого располагается ровно одна половина ее значений, а ниже — другая. Среднее генеральной совокупности — это сумма всех ее значений, деленная на размер. При смещенном (асимметричном) распределении генеральной совокупности медиана не совпадает со средним значением. Однако если допустить, что распределение близко к симметричному, то медиана и среднее совпадут. В этом случае наша таблица позволит определить 90-процентный CI и для медианы, и для среднего значения.
В некоторых случаях данное допущение оказывается натяжкой, но вообще-то в параметрической статистике мы делаем гораздо более сомнительные допущения. В параметрической статистике мы обязаны придать графику нашего распределения вполне определенную форму. А оценивая медиану по таблице 9.2, мы не делаем никаких допущений о распределении значений генеральной совокупности. Оно может быть и нерегулярным — горбатым (camel-back) (как график распределения населения США по возрасту, форма которого объясняется произошедшим после войны демографическим взрывом), и равномерным (как график распределения выигрышей при игре в рулетку). Таблица 9.2 позволяет определить диапазон значений медианы и в том, и в другом случаях. Но если распределение к тому же симметрично, неважно, равномерное оно, нормальное, горбатое или типа «бабочка» (bow-tie), то таблица годится и для определения диапазона среднего значения.