читайте также
Давний клиент глобальной компании из сферы финансовых услуг, с которой мы работали, случайно подал одну и ту же заявку сразу в два ее офиса. Казалось бы, сотрудники, рассматривающие заявки, везде следуют одним и тем же правилам, а значит, примут одинаковые решения. Однако два офиса выставили совершенно разные сметы. Озадаченный этим клиент обратился к конкуренту. С точки зрения компании, сотрудники, делающие одну и ту же работу, абсолютно взаимозаменяемы, но это иллюзия. И, к сожалению, типичная.
Во многих организациях специалистов для выполнения конкретных видов работ выбирают произвольно — это относится к людям разных специальностей. От них ждут последовательных и единообразных действий: одинаковые случаи предполагают похожий — и даже единственно возможный — подход. Но люди не автоматы, их решения не всегда надежны. На их выводы сильно влияют разные факторы: сиюминутное настроение, погода, желание заморить червячка. Такой зависящий от случая разброс выводов мы называем «шумами». Это невидимый налог на финансовые результаты многих компаний.
Некоторые виды работы не подвержены «шумам». Банковские или почтовые сотрудники выполняют сложные операции, но они обязаны соблюдать четкие правила, которые минимизируют субъективность их выводов и гарантируют, что идентичные случаи будут идентично же рассмотрены. Что же касается врачей, сотрудников кредитных учреждений, судей, топ-менеджеров, то все они принимают решения по ситуации, руководствуясь не столько жесткими правилами, сколько опытом и общими принципами. И если они находят не совсем тот ответ, какой получили бы другие на тех же должностях, то это приемлемо; именно это мы имеем в виду, говоря, что решение — это вопрос личного суждения и оценки. Если в фирме сотрудники руководствуются собственным суждением, то вряд ли их решения будут полностью защищены от «шумов». Но очень часто уровень «шумов» значительно превышает тот, который топ-менеджеры сочли бы допустимым, — если бы понимали, что происходит.
Неизбежность «шумов» доказана исследованиями. Ученые не раз подтверждали, что выводы специалистов, сделанные ими ранее, часто противоречат предыдущим выводам, если им дают те же данные, но в иных обстоятельствах. Например, разработчиков ПО попросили в разные дни ответить на один и тот же вопрос: сколько им нужно времени для выполнения конкретного задания? Цифры, названные ими в разные дни, расходились в среднем на 71%. Патологоанатомы дважды оценивали результаты биопсии. Корреляция между их оценками составила лишь 0,61 (из 1, что означало бы полную корреляцию). То есть они довольно часто ставили несовпадающие диагнозы. Вероятность расхождения выводов, сделанных разными людьми, еще выше. Исследователи подтвердили, что специалисты, оценивающие стоимость акций, недвижимости или эффективности работы, выносящие приговоры преступникам, проверяющие финансовые отчеты и т. д., часто грешат непоследовательностью. Неизбежный вывод состоит в том, что чаще всего их решения сильно отличаются от решений коллег, от их собственных предыдущих решений и от правил, которые они, по их словам, соблюдают.
«Шумы» весьма коварны: даже сильные компании теряют из-за них значительные деньги. Насколько значительные? Чтобы это понять, мы предлагали руководителям одной из изучаемых нами организаций одну и ту же задачку. Предположим, объективная стоимость работы — $100 тысяч. Отвечающий за нее специалист оценивает ее в $115 тысяч. Каковы в этом случае издержки организации? И какими они были бы, если бы работу оценили в $85 тысяч? Издержки оказались высокими. Когда мы суммировали издержки ежегодных оценок, цена «шумов» выросла до нескольких миллиардов. Если уменьшить «шумы» хотя бы на несколько процентов, можно сэкономить десятки миллионов. Но до наших расспросов организация полностью игнорировала эту проблему.
Давно известно, что прогнозы и решения, полученные с помощью простых статистических алгоритмов, часто оказываются точнее составленных экспертами, даже если они оперируют большим объемом информации, чем формулы. Куда менее известно, что главное преимущество алгоритмов — их неподверженность «шумам». Формула, в отличие от человека, по любой конкретной введенной информации всегда выдает один и тот же результат. Идеальная последовательность позволяет даже простым и несовершенным алгоритмам быть точнее любого специалиста.
В статье мы объясняем, чем «шум» отличается от искажений, и рассказываем, как руководители могли бы отслеживать уровень «шумов» и их последствия у себя в организациях. И далее мы описываем недорогой и простой метод создания алгоритмов, устраняющих «шумы», а также рассказываем, как гарантировать «чистоту» решений, когда вариант с алгоритмами не годится.
Идея коротко
Проблема
Организации ждут от своих специалистов точных и единообразных решений. Однако, когда люди делают выводы, на них обычно воздействуют посторонние факторы вроде погоды или предыдущего случая из практики. Но главное, разные специалисты принимают разные решения по одному вопросу. Зависящий от посторонних факторов разброс выводов называется «шумами», и эти шумы очень дорого обходятся компаниям.
Отправной момент
Руководителям нужно проводить аудит шумов, в ходе которого сотрудники подразделения, работая независимо друг от друга, оценивали бы весь набор ситуаций. Уровень «шумов» определяется степенью расхождения их решений. Скорее всего, он будет гораздо выше, чем думает руководство.
Решение
Самое смелое решение проблемы «шумов» — замена алгоритмами выводов экспертов. Создать алгоритмы технически несложно, но обычно их не применяют по политическим или производственным причинам. Если это так, то компаниям нужны процедуры, которые помогали бы специалистам сокращать разнобой в решениях.
«Шумы» vs искажения
Когда обсуждают ошибки в выводах и решениях, то обычно говорят о социальных предубеждениях вроде стереотипных представлений о меньшинствах или о когнитивных заблуждениях — например, о чрезмерной уверенности или необоснованном оптимизме. Ненужный разброс вариантов, который мы называем «шумом», относится к ошибкам другого типа. Чтобы понять, в чем разница, представьте себе свои напольные весы. Мы считаем их неточными, если они всегда слишком завышают или занижают наш вес. Если показания зависят от того, как вы ставите ноги, у вас «зашумленные» весы. Если же настоящий вес всегда занижается на пару килограмм, весы врут, но не «шумят». Весы, выдающие два разных значения, когда вы дважды на них встаете, «зашумлены» в два раза сильнее. Многие ошибки измерения объясняются сочетанием искажений и «шумов». Дешевые напольные весы обычно и не совсем точны, и довольно сильно подвержены «шумам».
Чтобы наглядно представить себе разницу, посмотрите на мишени, изображенные во врезке «Как шумы и искажения сказываются на точности». Перед вами — результаты стрельбы по мишеням команд, состоявших из четырех человек. Каждый из них сделал по одному выстрелу.
- Команда А точна: все попали в «яблочко» — и близко друг от друга.
- Команда В подвержена «шумам»: пули попали рядом с «яблочком», но разброс очень широк.
- Для команды С характерны искажения: никто не попал в «яблочко», но все выстрелы сосредоточены на одном участке.
- Команда D продемонстрировала и «шумы», и искажения.
Если мы сравним команды А и В, то увидим, что чем выше уровень «шумов», тем заметнее снижается точность, если нет искажений. Если они есть, то это может в порядке счастливой случайности привести к меткому попаданию, судя по примеру команды D. Понятно, что ни одна компания не станет возлагать надежды на счастливый случай.
Организациям полезно знать, что в решениях их сотрудников есть и «шумы», и искажения, но собрать информацию об этом непросто. При оценке подобных ошибок возникает немало проблем. Главная — что результаты решений можно оценить лишь в отдаленном будущем. Например, нередко лишь спустя годы специалисты по кредитам могут понять, правы ли они были, одобрив кредит, и обычно им почти ничего не известно о судьбе заявителя, которому они когда-то отказали.
«Шумы», в отличие от искажений, можно измерить, не зная точного результата. Представьте себе, что вы рассматриваете снятые со стенда мишени, в которые целились стрелки. Вы не сможете ничего сказать о точности команд, но вы поймете, что что-то не так с командами В и D, у которых сильный разброс выстрелов. Где бы ни находилось «яблочко», никто в него не попал. Чтобы измерить «шумы» в выводах, нужно попросить нескольких специалистов оценить независимо друг от друга разные реальные ситуации. Опять-таки, разброс мнений можно увидеть, не зная точного ответа. Такие эксперименты мы называем аудитом «шумов».
Аудит «шумов»
Аудит «шумов» проводят не ради отчета. Его конечная цель — повысить качество решений, и диагностика будет удачной, только если руководители подразделения готовы признать ее неприятные результаты и соответственно им действовать. Чтобы итоги аудита касались каждого, в нем нужно участвовать всем сотрудникам.
Недавно мы помогали диагностировать «шумы» двум финансовым фирмам. Должностные обязанности и профессиональные знания двух групп сотрудников сильно различались, но и те, и другие оценивали сравнительно сложные данные и должны были принимать решения относительно сотен тысяч долларов. В обеих организациях мы действовали по одному и тому же протоколу. Прежде всего мы просили группы придумать несколько правдоподобных ситуаций для проверки. Чтобы не было утечки информации, все мероприятие мы проводили в один день. Примерно половину дня сотрудники анализировали от двух до четырех случаев. В каждом они должны были, как обычно, определиться с денежной суммой. Чтобы люди не сговаривались, им не сказали, что предметом исследования была надежность решений. Сотрудникам одной организации объяснили, что цель эксперимента — понять ход их рассуждений, понять, насколько эффективно они пользуются профессиональными инструментами, и улучшить обмен информацией между коллегами. В мероприятии участвовало около 70 человек из компании А и примерно 30 — из В.
Для каждой вымышленной ситуации мы создавали индекс «шумов», чтобы он помог нам понять, насколько различаются выводы двух произвольно выбранных сотрудников. Количество различий мы выражали в процентах от их среднего значения. Допустим, два специалиста оценивают кредит в $600 и $1 тысячу — соответственно. Среднее значение их оценок составляет $800, а разница между этими оценками равна $400, так что индекс «шумов» для этой пары — 50%. Такие же вычисления мы выполнили для всех пар сотрудников, а потом подсчитали общий средний индекс «шумов» для каждой проанализированной ситуации.
Перед аудитом мы провели интервью с топ-менеджерами каждой организации. Эти руководители предполагали, что решения их специалистов будут различаться в пределах от 5 до 10%, — это они считали приемлемым для решений «оценочного характера». Результаты исследования их потрясли. В организации А, там рассматривали шесть случаев, индекс «шумов» колебался между 34 и 62%, а общее среднее составляло 48%. В компании В сотрудники проанализировали четыре ситуации. Там индекс «шумов» колебался между 46 и 70% при общем среднем 60%. Досаднее всего, пожалуй, что профессиональный стаж не играет роли. Среди специалистов с опытом работы пять лет и больше среднее расхождение достигало 46% в организации А и 62% в организации В.
Такого никто не ожидал. Но руководители обеих организаций признали, что выводы их специалистов были ненадежны и что с этим надо что-то делать. Поскольку выводы не противоречили заключениям предыдущего исследования, они нас не удивили. Озадачило другое — тот факт, что обе организации даже не подозревали, что у них проблемы с надежностью решений.
Проблему «шумов» в мире бизнеса как будто не видят: когда мы высказываем сомнения в надежности экспертного мнения, наши собеседники всегда очень удивляются. Что мешает компаниям признать наличие «шумов» в выводах своих сотрудников? Ответ прост. Во-первых, опытные специалисты весьма уверены в своих выводах, а, во-вторых, они высокого мнения о знаниях своих коллег. И оба этих фактора приводят к тому, что слишком переоценивается сама возможность более или менее единого экспертного суждения. Одна из причин незаметности проблемы «шумов» кроется в том, что люди не анализируют свой жизненный опыт и не рассматривают правдоподобные альтернативы своим выводам.
Думать, что другие с вами согласятся, иногда оправданно, особенно если заключения требуют столь высокой квалификации, что делаются интуитивно. Высокий уровень игры в шахматы и вождения — вот типичные примеры того, как можно в выполнении задачи дойти почти до совершенства. Все мастера, оценивающие ситуацию на шахматной доске, придут к очень похожим выводам о состоянии игры — о том, что, допустим, у белых под угрозой ферзь или у черных слабо защищен королевский фланг. То же относится и к водителям. Управление автомобилем было бы делом чудовищно опасным, если бы мы не были уверены, что другие водители на перекрестках и кольцевых развязках пользуются теми же правилами, что и мы. На высоком уровне мастерства «шумов» почти или совсем нет.
В шахматах и вождении мастерство нарабатывается годами в особой обстановке: действия человека оценивают профессионалы, безотлагательно и четко. К сожалению, мало кто из специалистов попадает в такие условия. Чаще всего люди учатся делать выводы, слушая объяснения и замечания начальников и коллег, а это гораздо менее надежный источник знаний, чем анализ собственных ошибок.
Подводя итог сказанному, предлагаем такой афоризм: «Где выводы, там и “шумы”, причем их обычно больше, чем вы думаете». Вообще мы считаем, что ни специалисты, ни их начальники не могут правильно оценить надежность своего мнения. Единственный способ получить точную оценку — провести аудит «шумов». И, хотя бы иногда, проблема окажется настолько серьезной, что потребует немедленных мер.
Снижение уровня «шумов»
Самое смелое решение проблемы «шумов» — замена выводов, сделанных человеком, алгоритмами составления прогноза или решения с использованием данных о конкретной ситуации. Последние 60 лет люди соперничали с алгоритмами в точности, прогнозируя и продолжительность жизни онкологических больных, и успехи выпускников. Примерно в половине случаев алгоритмы были точнее специалистов, а в остальных прогнозы примерно совпадали.
Конечно, использовать алгоритмы не всегда рационально. Невозможно применять правило, если входящая информация специфична или ее трудно кодировать в одном и том же формате. Или когда речь идет о выводах и решениях с элементами многомерности или зависящих от переговоров с другой стороной. Но, если все складывается удачно, то разработка и внедрение алгоритмов — на удивление простое дело. Считается, что алгоритмы требуют статистического анализа огромных объемов данных. Однако мало кто знает, что надежные алгоритмы можно разрабатывать вообще без данных о результатах — и с входными данными лишь о небольшом количестве случаев. Предиктивные формулы, создаваемые без данных о результатах, мы называем «разумными правилами», поскольку они основаны на здравом смысле.
Формулирование разумных правил начинается с выбора нескольких переменных, однозначно связанных с прогнозируемым результатом. Если, скажем, результат — невозврат кредита, то нужно учесть активы и денежные обязательства. Следующий шаг — придать этим переменным равный вес в прогностической формуле, снабжая каждую подходящим к случаю знаком: «плюс» — активам, «минус» — денежным обязательствам. Затем путем некоторых простых расчетов выстраивается правило (см. врезку «Как создать разумное правило»).
Очень часто разумные правила почти так же точны, как статистические модели, основанные на входных данных. В стандартные статистические модели закладывается некий набор предиктивных переменных, вес которых зависит от того, как они связаны с прогнозируемым результатом и друг с другом. Но часто этот вес неустойчив статистически и малозначителен практически. Простое правило, которое уравнивает вес избранных переменных, ничем не хуже. Алгоритмы, придающие одинаковый вес переменным и не зависящие от входных данных, хорошо себя зарекомендовали при отборе персонала, прогнозировании результатов выборов и футбольных матчей и т. д.
Дело в том, что, если вы собираетесь с помощью алгоритма снизить уровень «шумов», не надо ждать данных о результатах. Выбирайте переменные, руководствуясь здравым смыслом, соединяйте их, следуя самому простому правилу из возможных, и пожинайте плоды.
Конечно, независимо от вида используемых алгоритмов, их нужно постоянно контролировать. Надо отслеживать и корректировать случайные изменения во многих ситуациях. Кроме того, менеджеры должны следить за отдельными решениями и в очевидных случаях не принимать алгоритм в расчет. Если, например, фирма узнает, что человек, подавший заявку на кредит, арестован, решение о предоставлении кредита нужно временно отложить. Но главное, руководителям надо решить, как действовать с учетом вывода алгоритма. Алгоритм, например, покажет, какие из заявок на кредиты относятся к 5% лучших или 10% худших, но кто-то должен решить, что делать с этой информацией.
Иногда специалисты, которые принимают окончательные решения, рассматривают алгоритмы как промежуточный источник информации. В качестве примера можно назвать Public Safety Assessment (Оценка общественной безопасности), формулу, которая помогает американским судьям решать, можно ли без риска освободить обвиняемого до суда. За первые шесть месяцев применения алгоритма в штате Кентукки преступлений, совершенных обвиняемыми, выпущенными до суда, стало на 15% меньше, а людей, освобожденных до суда, — больше. Очевидно, что окончательное решение должны принимать судьи: общество бы возмутилось, узнав, что правосудие вершится по формуле.
Исследования показывают, что люди лучше всего умеют собирать данные, которые закладываются в формулы, а сами формулы выдают более точные и надежные окончательные решения. Если цель — избежать ошибок, то менеджерам настоятельно рекомендуется отвергать выводы алгоритмов лишь в исключительных случаях.
Как упорядочить выводы
Если суждения специалистов «зашумлены», стоит подумать о замене их заключений выводами, сделанными алгоритмами. Но обычно такое решение выглядит слишком радикально и нецелесообразно. Есть другой вариант: разработать процедуры, которые способствовали бы большей согласованности мнений, то есть, следуя им, сотрудники, занимающие одинаковые должности, одинаковыми методами добывали бы информацию, на ее основе формировали свое представление о ситуации и, отталкиваясь от этого представления, принимали бы решение.
Конечно, решающую роль играет профессиональная подготовка, но даже у специалистов, которые учились вместе, со временем вырабатывается свой собственный «почерк». Иногда компании пытаются привести все к единому знаменателю, устраивая «круглые столы», чтобы люди, принимающие решения, вместе обсуждали те или иные случаи. К сожалению, «круглые столы» обычно проходят так, что всем очень легко договориться, поскольку участники быстро признают правильными выводы, которые были высказаны первыми или с полной уверенностью. Чтобы избежать мнимого единодушия, участники «круглого стола» должны изучать каждый случай независимо друг от друга, сформулировать мнение, которое они будут отстаивать, и до начала совещания сообщить о своих выводах тому, кто будет вести совещание.
В качестве альтернативы «круглым столам» можно проводить опросы, которые дадут ориентиры при сборе информации о каждом конкретном случае, подготовке промежуточных оценок и окончательного решения. Нежелательный разброс мнений появляется на каждом из этих этапов, и компании могут проверять, насколько все эти методы его уменьшают. В идеале, люди, которые пользуются этими методами, должны рассматривать их как средства, помогающие им грамотно делать свою работу. К сожалению, опыт показывает, что задача создания надежных методов экспертной оценки, которые были бы еще и удобными, сложнее, чем кажется многим руководителям. Контролировать «шумы» трудно, но организации, которые оценивают издержки шумов в деньгах, поймут, что сокращение случайной вариабельности — дело, которым стоит заниматься.
Как создать разумное правило
Для создания полезных предиктивных алгоритмов входные данные не нужны. Можно, к примеру, сформулировать разумное правило, которое вполне надежно прогнозирует невозвраты кредитов, даже если не известно, были ли возвращены прежние ссуды. Все, что нужно, — это некоторое количество заявок на кредит. Дальнейшие шаги таковы.
- Выберите 6—8 переменных, отличающихся друг от друга и явно связанных с прогнозируемым результатом. Активы и доходы (положительный вес) и финансовые обязательства (отрицательный вес), безусловно, следует включить в список, как и некоторые другие данные заявок на кредит.
- Возьмите данные из своего набора случаев (все заявки на кредит за последний год) и рассчитайте среднее и стандартное отклонение каждой переменной в этом наборе.
- Для каждого случая из своего набора рассчитайте «индекс стандартного отклонения» для каждой переменной: разницу между стоимостью конкретного случая и средним значением всего набора надо разделить на стандартное отклонение. При наличии индекса можно выразить все переменные в одном масштабе, сопоставить их и вывести их среднее значение.
- Рассчитайте для каждого случая «сводный индекс» — среднее значение индексов стандартного отклонения его переменных. Это результат работы разумного правила. Ту же формулу можно применять к новым случаям, используя среднее и среднее квадратичное отклонение исходного набора случаев и периодически корректируя.
- Распределите случаи в своем наборе в порядке убывания сводных индексов и определитесь с адекватными мерами для разных диапазонов индексов. Скажем, в случае кредитных заявок меры могут быть такими: «10% лучших заявителей получат скидку», «30% худших заявителей получат отказ».
Теперь вы готовы к тому, чтобы применять правило к новым случаям.
Алгоритм будет рассчитывать сводный индекс для каждого нового случая и выдавать решение.
Главная задача авторов этой статьи — ознакомить руководителей с концепцией «шумов» как источника ошибок и объяснить, чем «шумы» отличаются от искажений. Термин «искажения» стал столь привычным, что зачастую его употребляют в значении «ошибка». Но повысить качество решений можно не только уменьшением общих искажений. Руководители, которых заботит точность, должны еще бороться с вездесущей несогласованностью профессиональных мнений. «Шумы» труднее оценивать и учитывать, чем искажения, но от этого они не становятся менее реальными и менее затратными.
Об авторах. Дэниел Канеман (Daniel Kahneman) — почетный профессор психологии Принстонского университета. В 2002 году получил Нобелевскую премию по экономике «за применение психологической методики в экономической науке» и исследования (вместе с Амосом Тверски) когнитивной основы для типичных заблуждений в использовании эвристик. Эндрю Розенфилд (Andrew M. Rosenfield) — генеральный директор и управляющий партнер The Greatest Good Group (TGG Group). Линнеа Ганди (Linnea Gandhi) и Том Блейзер (Tom Blaser) — управляющие директора TGG Group.