читайте также
Уже почти полгода в мире то тут, то там возникают вспышки Covid-19. В целом они развиваются по одному сценарию: начальный этап с небольшим количеством зараженных и ограниченными ответными мерами сменяется резким подъемом пресловутой эпидемической кривой — и страна закрывается на карантин, чтобы спрямить эту кривую. Затем, когда кривая достигает пика, правительствам приходится принимать решение, которое президент Трамп назвал самым важным в его жизни, — когда и как снимать ограничения.
Во время пандемии все понимают, что каждая страна (особенно Китай) должна делиться с другим информацией о распространении болезни. Если государство не делится такой информацией, на это тоже обращают внимание. А вот о том, что справиться с Covid-19 было бы легче с помощью продвинутых технологий обработки данных, которые преобразили множество компаний за последние двадцать лет, говорят относительно мало. В этой статье мы рассказываем, как правительства могут заставить эти технологии бороться с грядущими пандемиями — и, возможно, даже с текущей, на ее финальных стадиях.
Могущество персонализированного прогноза
В инструментарий по борьбе с Covid-19 политикам стоит внести подход, основанный на персонализированных прогнозах, который преобразил многие отрасли за последние 20 лет. Используя машинное обучение и искусственный интеллект (ИИ), фирмы, специализирующиеся на обработке большого массива данных (от технологических гигантов до финансовых, туристических, страховых компаний и СМИ), советуют клиентам, что купить, и разрабатывают для них индивидуальные предложения в области ценообразования, управления рисками, кредитования и т. д., опираясь на собранные ими данные о потребителях.
В недавней статье в HBR Мин Цзэн, бывший директор по стратегии Alibaba, описал, как Ant Financial (подразделение его компании, специализирующееся на кредитовании малого бизнеса), может в реальном времени оценивать кредитоспособность претендентов на ссуды, анализируя данные об их сделках, заключенных на коммерческих платформах Alibaba, и сопутствующей переписке. А такие компании, как Netflix, оценивают предпочтения и другие характеристики потребителей, чтобы предсказать, что они захотят посмотреть дальше.
Этот подход может сработать и для борьбы с пандемией — и даже оказать влияние на течение Covid-19. Используя множество источников данных, можно было бы с помощью моделей машинного обучения оценивать, насколько для каждого человека велик клинический риск тяжело заболеть в случае заражения Covid-19. Какова возможность, что ему понадобится реанимация, доступ к которой ограничен? Какова вероятность, что человек умрет? Данные могут включать в себя базовый анамнез людей (в случае с Covid-19 тяжесть симптомов, по-видимому, нарастает с возрастом и при наличии сопутствующих диагнозов, таких как диабет или гипертония) и другие сведения вроде состава семьи. Например, молодой, здоровый человек (которого в противном случае отнесли бы к группе «Низкий риск») может попасть в группу «Высокий риск», если он живет с пожилыми или болезненными людьми, которым с высокой вероятностью понадобится реанимация в случае заражения.
Этот прогноз можно затем использовать для тонкой настройки ограничительной политики и распределения ресурсов на уровне отдельных людей и домохозяйств с учетом стандартных склонностей к заболеваниям и медицинских рисков. Это позволит в частности целенаправленно вводить социальное дистанцирование и прочие защитные меры только для тех, кто наберет много баллов при оценке клинического риска, а тем, у кого окажется мало баллов, разрешить жить более или менее нормально. Критерии для распределения населения по группам высокого и низкого риска, конечно, нужно разработать, принимая во внимание доступные ресурсы и компромиссы, связанные с угрозой осложнений и прочими рисками. Однако подходы к обработке данных, которые потребуются для этого, стандартны и используются в самых разных целях.
У персонализированного подхода множество преимуществ. Он может способствовать созданию группового иммунитета и одновременному снижению смертности — притом быстрому. Он также позволит быстрее и справедливее распределять ресурсы, например, редкое медицинское оборудование (вроде наборов для тестирования, защитных масок и больничных коек).
Эти преимущества распространяются и на стратегию снятия ограничений на более поздних стадиях пандемии — следующую ключевую меру по борьбе с Covid-19 для большинства стран. Вопрос, с каких людей начать снятие ограничений, по природе своей — задача классификации, знакомая большинству фирм, специализирующихся на обработке данных. Некоторые правительства уже назначают условия отмены ограничительных мер, ориентируясь на возраст как индикатор риска. Это относительно грубая классификация, которая позволяет упустить из виду других входящих в группу риска — например, упомянутых выше молодых людей, живущих с пожилыми.
Классифицируя людей на основе большого массива данных и с использованием моделей составления прогнозов, основанных на ИИ, можно подготовить почву для решений по поводу ограничительных мер, более безопасных на общественном уровне и гораздо менее затратных для каждого человека и экономики страны. Мы знаем, что ключевые черты Covid-19 — исключительно высокая заразность, относительно слабая выраженность опасных симптомов и низкая смертность. По имеющимся данным, более 90% зараженных переносят заболевание бессимптомно или с легкими симптомами.
Теоретически при наличии надежного прогноза относительно того, кто именно относится к этим 90%, мы можем снять ограничения со всех этих людей. Даже если они заразят друг друга, у них не будет тяжелых симптомов. Они не перегрузят систему здравоохранения и не умрут. Эти освобожденные от ограничительных мер 90% человечества с низким клиническим риском также могли бы помочь быстро сформировать групповой иммунитет, после чего ограничения сняли бы и с остальных 10%.
Если бы прогноз не оправдался, последствия коснулись бы только «самых защищенных» людей, раньше всех освобожденных от ограничений. Их можно было бы вылечить с использованием доступных медицинских ресурсов, не перегруженных лечением оставшихся 10 или более процентов людей, подверженных высоком риску осложнений, которые находились бы в самоизоляции. Конечно, на практике мы снимали бы ограничительные меры более постепенно, начиная с группы людей, для которой клинический риск минимален, и со временем создавая групповой иммунитет.
Разумеется, у нас нет идеальных моделей прогнозирования клинического риска, точно так же, как нет идеальных систем сортировки пациентов в больницах или моделей прогнозирования риска невозврата кредита. Однако это не мешает банкам кредитовать множество компаний и людей, которые, при наличии достаточно хороших инструментов оценки заемщиков, как правило, выплачивают кредиты. Разумеется, в данном случае ставки существенно выше, чем при невыплате ссуды, поэтому нужно сделать модели как можно более достоверными. Но это не означает, что их нельзя использовать.
В отличие от тестов, которые дорого стоят и медленно работают (и их не так много), этот подход к назначению и отмене защитных мер, основанный на цифровой персонализации с опорой на клинические данные, позволяет работать быстро и удобен для масштабирования. При наличии правильных моделей он может позволить разработать процесс снятия ограничительных мер, который будет быстрее и безопаснее нынешних передовых практик по борьбе с Covid-19, основанных на схеме «анализ-отслеживание контактов-изоляция», подразумевающей, что зараженные и контактировавшие с ними остаются на карантине, даже если риск тяжелых симптомов у них невысок.
Как получить нужные данные
Сейчас получить доступ к данным, необходимым для оценки клинического риска, возникающего при заражении человека определенным вирусом, непросто. Правительства, конечно, могут нарастить объемы медицинской информации, собираемой в государственном масштабе, создав или внедрив более полные формы для ведения историй болезни, но ценность этой информации может оказаться ограниченной, так как для выявления паттернов зависимости между анамнезом жертв коронавируса и влиянием на них Covid-19 потребуется время.
В контексте пандемии, которая может быстро затронуть миллионы людей по всему миру, вероятно, лучше применить подход, основанный на создании и распространении модели, «обучаемой» с использованием данных о первичной вспышке. Массив данных, в котором информация о пациентах, получивших серьезные осложнения (нуждающихся в реанимации), уравновешена сведениями о гораздо большем количестве людей, переболевших Covid-19 в легкой форме (с незначительными симптомами), достаточно велик, чтобы обеспечить определенный уровень персонализации прогнозов, качество которых повышается по мере поступления новых данных.
Как только модель будет создана и запущена, ее можно передавать в другие города или даже страны, находящиеся на ранних этапах распространения инфекции, так как лежащие в ее основе базовые биологические и физиологические данные из анамнеза людей примерно одинаковы по всему миру (все мы стареем, а диабет в Ухане протекает так же, как в Балтиморе). Если некий вирус поражает две страны с похожим населением, есть вероятность, что распространение инфекции в этих государствах приведет к похожим результатам. А значит, они могут использовать одну и ту же модель прогнозирования клинического риска, не предоставляя друг другу саму медицинскую документацию, использованную для обучения модели. Конечно, паттерны, выявляемые в данных о разных странах, могут отличаться друг от друга, скажем, в связи с разницей в демографической обстановке (в Японии больше пожилых людей, чем в Мексике) либо в культуре или стиле жизни (итальянские бабушки и дедушки могут активнее участвовать в воспитании детей, чем немецкие). Однако анализ данных позволяет переработать модель с учетом этих отклонений, если данные были собраны в соответствии со стандартом или протоколом, разработанным для всеобщего использования.
Вот как это могло бы сработать для Covid-19. Когда коронавирус появился в Ухане, данных сначала почти не было и прогнозирование с помощью модели было невозможно. В тот момент имел смысл подход, основанный на ограничительных мерах: закрытие городов, введение всеобщего социального дистанцирования, жесткая слежка, отсутствие существенных исключений. Это, очевидно, помогло сдержать распространение болезни, но также дало китайскому правительству возможность собрать все доступные данные, пригодные для обучения модели предсказания клинического риска. Поднебесная могла бы поделиться этими данными с другими странами, которые, в свою очередь, смогли бы добавить свои обучающие данные, чтобы еще больше усовершенствовать модель.
Приватность как препятствие
Однако внедрение описанных выше технологических новинок потребует изменения законодательства. Политика защиты личной информации и кибербезопасности, действующая сейчас, а также ее интерпретации, различающиеся от страны к стране, в большой степени неблагоприятна для персонализированного подхода к борьбе с пандемией, который мы предлагаем.
Дело главным образом в том, что нынешние законодательства не делают различия между входными данными (используемыми для обучения моделей), самими прогностическими моделями и выходными данными (прогнозами, которые выдает обученная модель). Если закон косвенно или прямо запрещает предоставлять данные третьим лицам или требует хранить данные на серверах внутри страны, он касается всего, что можно с юридической точки зрения отнести к данным, в том числе модели и их параметры. Поэтому мы призываем законодателей провести грань между обменом моделями и обменом данными.
Мы также надеемся, что правительства разных стран согласуют протокол для определения ситуаций, в которых государство может предоставлять свои данные. Например, ВОЗ или ООН могли бы принять декларацию о том, что особенно серьезная вспышка, признанная пандемией, — это повод приостановить действие привычных законов о защите личной информации ради обмена анонимизированными данными. Возможно, в такие времена многие из нас решатся на исключительных и временных основаниях по уместным и безопасным каналам предоставлять свои данные, чтобы обучать модели, которые могут послужить опорой для принятия политических решений, судьбоносных для общества и экономики. Если это произойдет, современная наука об обработке данных и ИИ многое сделает для смягчения последствий текущей пандемии и подготовит нас к обезвреживанию следующей.
Об авторах
Теос Евгениу (Theos Evgeniou) — профессор теории принятия решений и управления технологиями в бизнес-школе INSEAD.
Дэвид Хардун (David R. Hardoon) — старший советник по данным и искусственному интеллекту в UnionBank (Филиппины) и бывший директор по обработке и анализу данных в Валютном управлении Сингапура, приглашенный профессор Сингапурского университета управления, Национального университета Сингапура и Университетского колледжа Лондона.
Антон Овчинников (Anton Ovchinnikov) — профессор анализа потребительского поведения в Школе бизнеса Смита (Королевский университет, Канада), приглашенный профессор бизнес-школы INSEAD.