Специалист по данным: самая востребованная профессия XXI века
Дейвенпорт Томас , Пэтил Д.Дж.В июне 2006 года Джонатан Голдман начал работу в LinkedIn (социальная сеть для поиска и установления профессиональных контактов). Тогда казалось, что компания еще не вышла из возраста стартапа. Сеть уже привлекла около 8 млн пользователей, и понятно было, что дело на этом не остановится, так как завсегдатаи сайта приглашали туда своих друзей и коллег, хотя сами завязывали контакты с уже зарегистрированными на сайте не так активно, как хотелось руководителям компании. Чего-то создатели сети явно не учли. Один менеджер LinkedIn сказал так: «Ты словно приходишь на банкет и понимаешь, что никого не знаешь. И тебе остается только стоять в углу, потягивая выпивку, и пораньше смыться». Голдмана, получившего PhD по физике в Стэнфорде, заинтересовало, как все-таки завязываются контакты и почему профили пользователей столь многообразны. Данные были беспорядочны, анализировать их было неудобно, но, изучая связи пользователей, Голдман стал понемногу понимать, что к чему. Он сформулировал несколько гипотез, начал тестировать свои догадки, выявлять закономерности и в итоге научился предсказывать, к сети какого пользователя подойдет тот или иной профиль. Он считал, что открытые им правила помогут дополнить сайт новыми полезными для пользователей функциями. Но программистам LinkedIn, увязшим в проблемах масштабного расширения сайта, было не до того. А некоторые коллеги об идеях Голдмана высказывались более чем пренебрежительно. Зачем это нужно пользователям, чтобы LinkedIn каждому предлагал сеть контактов?
На сайте и так есть импортер адресов электронной почты — при желании можно включить все контакты конкретного человека. К счастью, Рид Хоффман, соучредитель и гендиректор LinkedIn (сейчас он — исполнительный председатель ее совета директоров), верил в аналитику, особенно по опыту работы в PayPal, и потому предоставил Голдману существенную автономию. Прежде всего — позволил действовать в обход обычного цикла запуска нового продукта и выкладывать на самых популярных страницах сайта небольшие модули в форме рекламы. С помощью одного такого модуля Голдман проверял, что будет, если предложить пользователям имена людей, с которыми они еще не установили связь в сети, но, возможно, знакомы, — скажем, с бывшими одноклассниками, однокурсниками или сослуживцами. Каждому пользователю рекомендовались три лучших, судя по его профилю на LinkedIn, новых контакта. Через несколько дней стало ясно, что происходит нечто необычное. Ни одна ссылка не получала такого количества «кликов». Голдман продолжал доводить до ума принцип отбора подходящих контактов, учитывая разные идеи, касающиеся взаимосвязей людей, например: если вы знаете Ларри и Сью, то, вероятно, Ларри и Сью знакомы друг с другом. Теперь пользователь мог ответить на предложение контакта, лишь один раз нажав «мышью». Руководство быстро поняло, как хороша идея, и у сайта появилась новая стандартная функция. С этого все и началось. У рекламного объявления «People You May Know» доля кликов в общем числе просмотров достигла 30%. Это выше, чем у всех прочих ссылок на другие странички сайта. Общее количество просмотров страниц увеличилось на миллионы. Благодаря только этой функции траектория роста LinkedIn пошла резко вверх.
Новое поколение
Голдман — специалист по данным, и именно такие, как он, становятся ключевыми фигурами в организациях. Это профессионал, занимающий высокое положение в корпоративной иерархии, который благодаря образованию и природной любознательности умеет и любит делать открытия в мире «больших данных». Название «специалист по данным» появилось несколько лет назад. (В 2008 году его предложили Д.Дж. Пэтил, один из авторов этой статьи, и Джефф Хаммербахер. Тогда они возглавляли работу с данными и аналитикой на LinkedIn и Facebook*, соответственно.) Но тысячи специалистов по данным уже работают и в стартапах, и в компаниях-старожилах. Их внезапное появление на сцене говорит о том, что компании силятся справиться с информацией, которая поступает в невиданном прежде объеме и «ассортименте». Если ваша организация хранит петабайты информации, если самые важные для нее данные существуют не в виде рядов и колонок цифр, а в виде электронных форм или если ответы на самые важные вопросы требуют работы с разными источниками информации, значит, вам никуда не деться от «больших данных». Сейчас энтузиасты «больших данных» в основном разрабатывают технологии, позволяющие обуздать информационный поток. Речь идет, например, о Hadoop (популярная программа для распределенных файловых систем) и сопутствующем свободном ПО, облачных технологиях и визуализации данных. Все это — важные изобретения. Но не менее важны люди, которые благодаря своим профессиональным навыкам (и особому складу ума) могут с выгодой пользоваться ими. Но на этом фронте предложение отстает от спроса. В некоторых секторах так остро не хватает специалистов по данным, что это уже становится серьезной проблемой. Greylock Partners, одна из старейших венчурных компаний, стоявшая у истоков Facebook*, LinkedIn, PaloAlto Networks, Workday, настолько обеспокоена дефицитом кадров, что создала собственную рекрутинговую группу, чтобы поставлять специалистов предприятиям из своего портфеля. «Раз у них есть данные, значит, им позарез нужны люди, умеющие с ними работать», — говорит Дэн Портилло, глава этой группы.
Кто эти люди?
«Большие данные» принесут вам выгоду, только если вы найдете специалистов. То есть перед руководителями встает задача находить таких профессионалов, брать их на работу и сделать их труд продуктивным. А как этого достичь, не ясно. Начать с того, что в университетах нет пока программ подготовки специалистов по данным. Нет и единого мнения о том, какое место отвести этим кадрам в структуре организации, каким образом их работа будет способствовать успеху компании и как оценивать их труд. Значит, прежде всего надо проанализировать, что, собственно, они делают на предприятиях, какие у них должны быть профессиональные навыки, где, в каких сферах больше всего людей, ими уже обладающих? Если говорить о том, чем именно занимаются специалисты по данным, то в первую очередь они совершают открытия, купаясь, так сказать, в информации. Для них это самый естественный способ освоения мира. В цифрах они чувствуют себя как рыба в воде, а потому могут структурировать огромные массивы аморфной информации и делать ее пригодной для анализа. Они находят мощные источники информации, объединяют их с другими, предположительно неполными, и фильтруют получившуюся смесь. В бизнесе все время возникают проблемы, причем всегда разные, а поток информации не останавливается ни на минуту, и специалисты по данным помогают руководителям компаний перейти от спонтанного ее анализа к непрерывному изучению.
Специалисты по данным понимают, что возможности нынешних технологий не бесконечны, но это не мешает им искать новаторские решения. Сделав открытие, они рассказывают о том, что узнали и как именно это знание можно было бы применить на новых направлениях бизнеса. Обычно они уделяют большое внимание визуализации информации, умеют понятно и интересно подать обнаруженные закономерности. Они доносят до руководителей и менеджеров по видам продукции выводы, важные для решений о продуктах компании, ее процессах и стратегии. Поскольку эта профессия еще только формируется, специалистам по данным приходится чаще всего самим изобретать методы работы и проводить исследования. Yahoo, одна из фирм, в которых уже давно работают специалисты по данным, сыграла решающую роль в создании Hadoop. В Facebook* придумали язык Hive для Hadoop. Свою лепту в развитие проекта внесли многие другие специалисты по данным, особенно из таких компаний, как Google, Amazon, Microsoft, Walmart, eBay, LinkedIn и Twitter. Что это за люди? Какие таланты нужны им? Считайте, что это — хакер, аналитик, штатный «умник» и консультант в одном лице. Очень мощный «коктейль» — и очень редкий. Прежде всего, наделенный всеми этими качествами человек должен уметь писать программы.
Вряд ли так будет и через пять лет, когда людей, пишущих на визитках «специалист по данным», станет больше. Наверняка дольше будет цениться другое: умение доносить — вербальным способом или визуальным, а в идеале обоими — до слушателей информацию и объяснять ее значение. Но главной особенностью специалистов по данным мы бы назвали ненасытную любознательность: желание разобраться в сути проблемы, докопаться до ее истоков, сформулировать ясные гипотезы, которые можно проверить. Обычно такие люди от природы наделены ассоциативным мышлением, что характерно для большинства настоящих ученых.
Мы знаем специалиста по данным, изучающего компьютерное мошенничество, который видит в проблеме немало общего с секвенированием ДНК. Сопоставив эти несопоставимые миры, он с коллегами нашел решение, позволившее существенно сократить убытки от мошенничества. Надеемся, вы начинаете понимать, почему к представителям этой нарождающейся профессии подходит слово «ученые». К примеру, физики-экспериментаторы тоже создают экспериментальные установки, собирают данные, проводят эксперименты и описывают их результаты. Так что компаниям, которым нужны люди для работы со сложной информацией, стоило бы искать их среди тех, у кого есть диплом или опыт работы в области физики или социологии. Среди лучших специалистов по данным есть обладатели ученых степеней в «трудных» науках вроде экологии или системной биологии. У Джорджа Румелиотиса из Intuit, в которой он руководит специалистами по данным, докторская степень по астрофизике. Многие специалисты по данным, работающие сейчас в бизнесе, — программисты, математики или экономисты по образованию, но это не так впечатляет. Подобные специалисты могут появляться в любой области знаний, где большую роль играют данные и вычисления. Важно держать в голове именно образ ученого, потому что слово «данные» легко может завести ваши кадровые поиски куда-нибудь не туда. Дэн Портилло из Greylock Partners уверен, что «профессиональная подготовка, которая обычно требовалась 10—15 лет назад, сейчас никуда не годится». Специалист по количественному анализу наверняка мастерски анализирует свои данные, но это еще не значит, что ему по силам обработать массив неструктурированной информации и сделать ее пригодной для анализа. Эксперт по управлению данными может виртуозно структурировать и организовывать информацию, но сумеет ли он превратить неструктурированные данные в структурированные и, собственно, проанализировать их, — вопрос. И если в обычных «информационных» профессиях навыки общения не обязательны, то специалисты по данным должны быть людьми в высшей степени коммуникабельными. Джордж Румелиотис говорит, что таланта в сфере статистики или аналитики для него не достаточно, чтобы он взял человека на работу. Поиск специалистов он начинает с ответа на вопрос: способен ли претендент создать модель на языке программирования типа Java. Румелиотиса интересуют и профессионализм человека (глубокие познания в области математики, статистики, теории вероятности и информатики), и склад ума. Ему нужны люди с коммерческим чутьем и пониманием нужд потребителей. А уже все это, говорит он, надо дополнить обучением на рабочем месте.
Сейчас программы для будущих специалистов по данным составляют несколько университетов, а в уже существующие программы по аналитике кое-где спешно включают семинары и курсовые работы по «большим данным». В некоторых компаниях пытаются самостоятельно готовить специалистов по данным. Корпорация ЕМС, купив фирму Greenplum, провайдера ПО для хранилищ данных и аналитических инструментов для облачных вычислений, решила, что в проблему специалистов уткнутся многие фирмы. И ее образовательное подразделение разработало программу подготовки и сертификации специалистов по данным и аналитике «больших данных». Учиться могут и сотрудники, и клиенты. Некоторые выпускники уже участвуют в проектах по «большим данным». Будет больше образовательных программ — будет и больше специалистов. К тому же поставщики технологий для сбора и анализа «больших данных» стараются упростить их. Уже предложено творческое решение проблемы дефицита кадров. Джейк Кламка, по образованию — физик-ядерщик, разработал Insights Data Fellowship Program для научных сотрудников с докторской степенью. За шесть недель ученые осваивают новую профессию под началом специалистов из Facebook*, Twitter, Google, LinkedIn и т.д. и занимаются реальными проблемами «больших данных». Программа была рассчитана на десять человек, но Кламка согласился взять 30, выбрав их из 200 с лишним подавших заявки. Сейчас к нему выстроилась очередь из организаций, желающих участвовать в его программе. «Спрос колоссальный, — рассказал нам Кламка. — Компании просто не могут найти профессиональные кадры».
* деятельность на территории РФ запрещена