ПОД КОЛПАКОМ BIG DATA: МОЖЕТ ЛИ ЧЕЛОВЕК ЗАЩИТИТЬ ЛИЧНУЮ ИНФОРМАЦИЮ?

ПОД КОЛПАКОМ BIG DATA: МОЖЕТ ЛИ ЧЕЛОВЕК ЗАЩИТИТЬ ЛИЧНУЮ ИНФОРМАЦИЮ?Cейчас главный страх всех людей в том, что некие злые корпорации или некое злое государство используют его данные и наживаются на этом.

Но хорошая новость в том, что нет единой супермегакорпорации, которая владела бы всей информацией. Да, Uber знает о ваших перемещениях, Сбербанк знает, сколько денег вы тратите на картошку. Но до сих пор нет никого, кто знал бы и то, и то. Мой подход — узнавать такие всевозможные сведения из открытых источников. Поэтому сегодня я расскажу о том, что можно узнать о человеке из открытых источников, с парочкой интересных примеров.

А потом мы плавно перейдем к истории о том, как защититься от того, чтобы все эти злые государственные или корпоративные алгоритмы не узнавали ваши секреты и не использовали их в своих целях.

Первое, с чего я начну, это то, что я называю открытыми данными. Потому что терминов очень много. Для меня открытые данные — это все, до чего можно дотянуться без пароля: соцсети, блоги, форумы, приложения для знакомств и так далее. Большие данные в моем личном понимании — это более миллиарда строк, либо более петабайта. Потому что сейчас термин «бигдейт» (big data, большие данные) настолько на слуху, что очень сложно понять, что есть что. Поэтому если я говорю «большие данные», я имею в виду именно вот это. Начнем мы с того, как люди представляют большие данные. Большинство представляют их как большое-большое количество чего-то. Но на самом деле все технологии big data основаны на разносторонних данных, и из этих маленьких кусочков собранных данных создается гигантская картина.

В данном случае это — склеенная пятерочка из фотографий в Instagram. Кстати, задний план на фотографиях в соцсетях большинство людей никогда не проверяют. А это 60–70% всех инсайтов, которые можно получить на человека,— есть ли ремонт в квартире, а это уровень дохода, что видно из окна, всевозможные достопримечательности для определения геолокации. Потом из этого множества маленьких фотографий умный алгоритм может собрать полную картину того, что находится вокруг человека. Так что будете фотографироваться для социальных сетей, проверяйте задний план.

И никогда не фотографируйте документы. Это сейчас бич. Фотографии паспортов в 2017 году было процентов на 17 больше, чем в прошлом. Причем большинство людей, которые это делают, это мамы или папы маленьких детей, которые только что отправились за границу. Типа: «Смотрите, наш ребеночек получил загранпаспорт».

Все представляют анализ big data как нечто магическое, но на самом деле у этого процесса есть четкая структура: сбор, обогащение и анализ. У меня есть немного статистики, которую я уже миллион раз показывал.

В нашей стране живет некое количество людей, и на всех них есть данные в открытых источниках. Это не обязательно социальные сети. Потому что в социальных сетях у нас 120–130 миллионов активных пользователей.

Про кого-то известны только фамилия и имя, а про кого-то мы или другие злые товарищи знаем все, вплоть до любовницы, машины, квартиры, дохода. Часть этого знания основана на социальных сетях, часть — на открытых источниках типа Федеральной службы судебных приставов. Судебное производство — гигантский кладезь очень неструктурированных знаний, потому что большинство судов выкладывают в открытый доступ описания дел, где в тексте написано: сюда подставить фамилию судьи, или сюда подставить имя прокурора. Но на самом деле там есть и паспорта, и номера паспортов, и имена, фамилии. Перелопатив массив этой информации, можно сделать интересные выводы.

Помимо соцсетей есть так называемый Tor — та часть теневого защищенного интернета, пользователи которого считают, что они недосягаемы ни для злого государства, ни для злых корпораций. Но на самом деле, по крайней мере в крупных городах типа Москвы, Tor и прочий теневой веб давно уже не очень теневой. Потому что есть всевозможные злые провайдеры, которые отслеживают трафик, и «пакеты Яровой» позволяют на основании доступа и анализа верхнего уровня трафика понять как минимум где человек находится. Поэтому — пункт два: если вы делаете что-то плохое, то сидите не просто в «Торе», а в каком-нибудь кафе, желательно — из которого вы собираетесь минут через тридцать уйти.

Второй момент, о котором всегда говорят, когда речь идет об анализе открытых источников, это то, что соцсети — нечто поверхностное, некие виртуальные персонажи, а не реальные люди. По крайней мере, мы всегда так говорим, когда приходит Роскомнадзор и заявляет: вы нарушаете закон о персональных данных. А мы говорим: не факт, что вот этот Артур настоящий. К чему я веду? В электронных источниках есть огромное количество того, что называется фейками. Это дублированные персонажи, люди, которые удаляют свои аккаунты, потому что они хотят сделать что-то плохое или что-то хорошее,— неважно, но им кажется, за ним следят. Они создают таких виртуальных персонажей, копии себя. Но проблема номер один здесь заключается в том, что в этот момент человек думает, что он полностью скрылся от всевидящего ока. На самом деле это не так. И если определенное количество времени следить за определенными пользователями, за тем контентом, который они лайкают, потребляют, смотрят, за тем, какие сайты они посещают, то можно составить представление о человеке, и в тот момент, когда он решит удалить свой настоящий аккаунт и создать искусственный, его можно с большой точностью идентифицировать.

Пример. Есть некий Акбар Джалилов — питерский террорист, который взорвал метро. Не знаю, правда это или неправда,— неважно. В один прекрасный момент он решил удалить свой основной аккаунт и создал в социальной сети второй, дублирующий. Там была другая фамилия, другие инициалы, но контент, который он потреблял, и люди в друзьях остались точно те же. Поэтому идентифицировать его большого труда не составило. А если посмотреть на всю его сеть, его друзей, друзей друзей, то среди всевозможных правых и ультраправых есть очень популярный паттерн поведения. Когда человек ведет определенную активность в интернете, неважно — плохую или хорошую, в один прекрасный момент к нему приходят и говорят: ты себя неправильно ведешь в интернете, за тобой следят, тебе нужно удалить свой аккаунт. Он удаляет свой аккаунт, создает второй, дублирующий, но при этом продолжает вести себя как прежде. Паттерн поведения этого человека не меняется. Поэтому шаг номер три: если вы вдруг решите скрываться от кого-то, первое, что вам нужно делать, это удалить информацию о себе. Отправить во всевозможные «ВКонтакте», Facebook и нам заявление на удаление себя из индекса. Потому что история — это 80–85% всей информации, которая есть о вас. То есть вы можете еще вроде как ничего плохого не сделать, но информация уже есть.

Какие еще есть источники, на основании которых элементарно собрать информацию о вас?

Это может быть человек, может быть алгоритм, который будет таргетировать на вас рекламу. Самые популярные источники, понятно, соцсети, блоги, форумы и мои любимые невоспетые герои — cian, avito, avto.ru. На них огромное количество населения, которое вроде бы ничего о себе не пишет, но когда женщина продает коляску, она ее продает либо рядом с домом, либо рядом со своей работой, с которой удобно эту коляску забирать. На основании этого объявления элементарными методами, просто немного понаблюдав, можно выяснить, где этот человек работает, либо где он живет.

Лидером моего интереса в 2016–2017 году был Tinder. Кто не знает, это такое приложение для знакомств. Листаешь влево-вправо мальчиков и девочек, ставишь лайки. Но суть в том, что в этих всевозможных приложениях для знакомств показывается расстояние до человека. Кто более или менее знаком с математикой, знает, что есть нехитрые методы, позволяющие из нескольких разных точек, зная расстояние до человека, определить его местоположение. Понятно, что всевозможные сервисы и социальные сети реальное местоположение никогда не показывают. Они защищают пользователя и указывают плюс-минус пару метров. Где конкретно этот человек находится, понять нельзя. Но средний москвич обновляет свой Tinder около 18 раз в день. Обновляя эту информацию, можно понять, как человек перемещался, где находился.

Однажды мы делали исследование — какое количество аккаунтов в Tinder находится на территории госучреждений. Лидер — Министерство обороны. Там около 30 аккаунтов. А недавно был очень крутой кейс с приложением Strava — это фитнес-трекер. Вы бежите, а он записывает ваш трек. Они сделали крутую вещь — гигантскую тепловую карту всего мира, где чаще всего пользуются этим приложением. И все такие: «Классно! Инфографика! Дата-журналистика!» Но никто, мне кажется, в первый день даже не сообразил, что подсвечено большинство военных баз. Военные бегают, сливают в трекер (приложение для подсчета физической активности и тренировок) информацию, и потом на основании этого делается огромное количество расследований. А буквально за два-три месяца до этого Минобороны выпускало серию плакатов на тему: «Солдат, если тебе нечем заняться и ты сидишь в соцсетях, не пали свою геолокацию!» Это на самом деле смешно, но это очень популярная история, потому что геолокация — первое в списке того, что можно узнать о человеке, потому что если судить по тому же закону о персональных данных, вроде как ваш домашний адрес — это ваша персональная информация, и ее никто знать не должен. Например, в соцсетях она в закрытом доступе. Но если взять все ваши публикации, посмотреть, где вы находились, для большинства — реально для 99% — пользователей 80% геоточек — это два кластера: дом и работа. При этом то, что ближе к центру города,— это работа, то, что дальше,— дом. Понятно, что есть исключения, но эти исключения на уровне статистической погрешности.

Я лично, когда заказываю еду домой, всегда заказываю ее в соседний дом. Потому что в Tor и в теневом вебе есть большое количество ресурсов, где всякие крутые хакеры меряются тем, как круто они взломали что-то, выливая семплы каких-то баз данных. Например, приложения для доставки еды или перевозчиков. Их, конечно, можно аккуратненько собирать и там искать секретную информацию о пользователях, но на самом деле так кто-то может и до вашего места жительства добраться. Но это из области небольшой конспирологии.

Что можно узнать? Есть краткий перечень того, что можно узнать из открытых источников. Есть куча всевозможных исследований, где рассказывается, что за 30 лайков можно узнать все о человеке. И это действительно так. Есть какие-то сложно детектируемые слои населения, например студенты. Студента среди серой массы определить сложно. А вот, например, домохозяйки, мои любимые мамы с детьми — одна из самых активных аудиторий. Потому что беременная женщина, у которой есть аккаунт в социальной сети, хотя бы раз делала публикацию. Нет практически ни одной, которая не сделала бы хотя бы один пост типа: «Привет, ребята! Я на третьем месяце». Или: «Ура, мы рожаем!» И это используется всеми подряд. Если тут есть мамы, которым внезапно приходили подарки от каких-нибудь брендов детского питания, знайте, это не случайно. У вас наверняка есть потенциал для привлечения аудитории и несколько алгоритмов.

Еще есть скрытый набор дополнительных параметров. Мои любимые — лайки эротического контента. Вроде как порнография — штука не очень приличная, но на самом деле открывающая огромное количество идей для анализа. Я приведу парочку примеров. Крупнейший порнотрекер в нашей стране — «ВКонтакте». Не знаю уж почему. Но вы можете ради интереса провести эксперимент: если вы смотрите обычные ролики во «ВКонтакте», вам реклама будет показываться каждый восьмой-десятый видеоролик, а если вы смотрите порнографию, то каждый второй-четвертый. Кто-то может сказать, что они делают на этом деньги, но это неважно. Во «ВКонтакте» каждый восьмой пользователь лайкает эротический контент. Не знаю почему. Уже четвертый год задаюсь этим вопросом. Кто-то говорит, что они так просто сохраняют в сохраненное, кто-то — что они случайно что-то нажимают. Но факт есть факт. Если вы соберете большое количество эротического контента и проанализируете его, то это будет в среднем каждый восьмой пользователь.

Но, допустим, приходите вы в банк. В банках есть очень крутая зависимость: если мужчина женат и лайкает молодых девушек, значит, он с вероятностью 85% заинтересуется кредитной картой. Нельзя сказать, в чем тут логика — молодая любовница или что-то другое, и очень много банкиров пыталось это объяснить, но реально топ-15 банков эта штуку отрабатывает практически всегда. С этим ничего не сделаешь. А если это страховая компания, то примерно такая же вероятность, что брак распадется и потом будут какие-то санкции. Поэтому эту часть взрослые исследователи обычно не трогают, как-то не очень приятно. Но я отношусь к категории исследователей, которым неважно, какие метрики о человеке используют, главное — чтобы был результат.

Когда, например, кто-то программирует скрипт, который показывает вам в интернет-магазине товары «еще», он тоже пользуется открытыми данными. В каких-то магазинах это происходит от балды, в более продвинутых — «из той же товарной категории», где-то на каждый товар есть сопутствующий. Но на самом деле, если говорить о среднестатистическом магазине женской верхней одежды, то самый элементарный и самый эффективный скрипт будет: 1) погода. У женщин цвет одежды, стиль и фасон зависят от погоды. Если вы — владелец интернет-магазина, можете провести у себя внутри исследование и сопоставить атмосферное давление и количества солнца с тем, какой цвет выбирается; 2) человек заходит в интернет-магазин, авторизуется, как-то себя идентифицирует, и умная машина просматривает быстренько все публикации этого человека, и, как правило, по цветовой гамме можно предложить ему что-то новое.

Есть еще один пример — из серии, как не надо делать и почему у нас люди очень боятся, что за ними следят. Есть у меня друзья, которые держат очень крупную сеть магазинов интимных товаров. Как-то мы с ними проводили эксперимент: они ставили счетчик, предлагали человеку авторизоваться через социальную сеть, в данном случае «ВКонтакте», и через десять секунд после авторизации интернет-магазин полностью подстраивался под интересы пользователя. Вот прямо — эта категория товаров, потому что вы лайкали такое-то видео и состоите в такой-то группе. Знаете, насколько увеличилась вовлеченность? Ни на сколько. Люди закрывали окно и сразу же убегали с этого сайта. И это на самом деле очень плохо, потому что такие истории культивируют страх того, что за всеми следят. А потом они приходят домой, смотрят видео и пишут мне в Facebook: «Вы — сволочи, следите за всеми. Да как так?» Но на самом деле 99% тех метрик, которых мы можем узнать о человеке, основаны на том, что человек сам о себе рассказывает. Когда он приходит, например, к работодателю, а ему работодатель отказывает, почему это происходит? Потому что три с половиной месяца назад он написал «ненавижу свою работу, в жопу всех» и так далее. Но человек, конечно, винит тех, кто собрал эти данные, проанализировал и посчитал метрику. По факту же, если вы хотите сменить работу, просто не пишите такого в соцсети.

А еще в соцсетях есть такая штука — сториз и всевозможные типа удаляемые материалы. То есть ты снял видео, оно повисело и через два-три часа или через день удалилось. Не верьте! Они тоже все сохраняются. По крайней мере, мы сохраняем сториз, и это реально 2–3% из всех государственных запросов — террористы, экстремисты и так далее. Потому что люди, когда снимают быстроудаляемое видео, городят там какую-то чушь, показывают военную базу или еще что-то. Соответственно, это все можно распознать, понять, кто и где, и проанализировать. Возвращаясь к истории питерского террориста. Сам он нам не очень важен, но важно, что у него среди друзей есть некая категория товарищей. Например, был такой Иван. Ивану сказали: «Ты слишком большой экстремист. За тобой скоро придут». Он решил свой аккаунт удалить и создавать новый. Но продолжает общаться с теми же людьми. Не обязательно он будет с ними друзьями. Но в один прекрасный момент он поставит лайк под комментарием или еще что-то — и все, умный алгоритм сразу же сопоставит этих двух товарищей. Для этого не нужны банковские данные этих людей, не нужно взламывать Uber или знать об их перемещениях. Достаточно одной связи. Это все, что касается первой истории о том, что некоторые люди не очень доверяют открытым источникам, потому что там якобы есть фейки.

Раньше люди считали, что если тебя нет в соцсетях, то о тебе нет информации. На самом деле это не так. Соцсети — это такой безумно крутой механизм, в котором есть все. Неважно, кто вы — 95-летняя бабуля с дачи, которая сажает георгины, или еще кто-то. И вот пример — условный человек в один прекрасный момент получает повестку в армию, решает удалить себя из всех открытых источников и просто исчезнуть. Он удаляет соцсети, переезжает в другой город и продолжает вести активную жизнь. Но он забывает, что его друзья тоже ведут некую социальную жизнь, делают с ним фотографии, выкладывают в интернет и что по фотографиям, выложенным другими людьми, этот человек очень легко идентифицируется. Для этого даже не надо обладать какими-то гениальными системами распознавания лиц — сейчас уже Facebook присылает тебе запрос: «Не хотите ли добавить этого человека в друзья?» Эти механизмы всем известны. Если человек уехал в другой город, но посещает мероприятия, у этих мероприятий есть аккаунты в соцсетях, и там по грифам клубов можно понять, где это находится, это вообще не составляет труда. Так что, если у человека нет аккаунта в соцсетях, это не значит, что его самого там тоже нет.

Это примерный объем аудитории среднестатистического пользователя российской соцсети. В него входят сам пользователь, его друзья, друзья друзей, друзья друзей друзей. О чем говорит эта картинка? Сейчас соцсети придумали идиотские механизмы умной ленты, которая якобы должна сделать нашу жизнь лучше, и мы должны видеть интересный контент. Хотя на самом деле это все сделано для увеличения просмотров какой-то рекламы, как мне кажется. Но суть в том, что это увеличило объем аудитории, которой вы можете коснуться. С одной стороны, некий условный блогер Саша может дотянуться до какой-то новой аудитории, а с другой — загребущие ручонки тех, кто анализирует вашу информацию, могут рано или поздно дотянуться до вас. То есть вы есть, вы этот контент распространяете, внезапно он до кого-то дойдет, и этот человек доберется до вас.

Понятно, что у всех алгоритмов есть хорошее применение. Один раз мы делали алгоритм для поиска хозяев животным из приюта по наличию у них квартиры, автомобиля, близости к приюту, предыдущих животных и лояльному отношению к определенным политическим фигурам. Не знаю, как это влияло на животных, но приют так попросил. Но, само собой, у этого есть и плохие применения. Слово «антитерроризм» всегда всех напрягает, потому что у нас, к сожалению, государство иногда прикрывает им какие-то свои действия. Но тем не менее. Если уж говорить про какую-то государственную историю, то есть данные о 100 тыс. самых крупных государственных закупок в нашей стране, которые используют налоговые и все прочие органы для отслеживания плохих активностей.

Небольшое отступление — у неких товарищей была такая работа с налоговой. Налоговая передавала информацию об индивидуальных предпринимателях, у которых есть карточки, привязанные к счету компании. А товарищи анализировали открытые источники этих предпринимателей и понимали, кто машину купил, кто какой-то дорогой товар, и сопоставляли траты с реальной активностью в соцсетях. Много людей погорело. Так вот, в центре галактики данных о госзакупках есть те, кого налоговая называет счастливчиками. Это такие ИП, который внезапно выиграли какой-то тендер на миллиард, а до этого десять лет ничего не делали и после десять лет ничего не делали.

Собственно, они первые кандидаты, к кому кто-то придет и будет общаться. А еще об этом человеке известно ФИО, город, возраст, а они известны обо всех участниках торгов, его можно найти в онлайн-источниках, понять, где он живет, на какой яхте ездит, куда к бабушке ездит отдыхать и так далее. Поэтому: если вы собираетесь совершать экономическое преступление, не фотографируйтесь и не выкладывайте в соцсети.

К сожалению, есть момент, что наше государство не очень использует всевозможные улики, привязанные к открытым источникам. Очень сложно с юридической точки зрения доказать в суде. Но это и неважно. Важно понять, где человек находится, для того, чтобы отправить к нему судебных приставов. Поэтому, что касается прогнозов в этой области, я думаю, что через три-пять лет у нас поменяется часть законодательства, связанная с использованием всех этих цифровых следов именно как улик в судах. Потому что мы давно уже занимались такой очень неприятной историей, как педофилы. Они есть. Их много. Люди об этом не говорят, но тем не менее. Мы давным-давно разрабатывали ботов, которые общаются с ними в сети, узнают какую-то информацию для того, чтобы как-то взаимодействовать с этими людьми и подтвердить их незаконопослушность. Но проблема в том, что с точки зрения нашего законодательства именно в этой узкой проблеме никакие цифровые следы не могут привести к тому, что к человеку придет его тюремный срок. Даже если он выкладывал фото и видео. Нужно, чтобы участковый пришел и схватил за руку. А это очень сложно. Но это не значит, что можно оставлять цифровые следы, и ничего не будет. Это я все к тому, что до любого человека можно добраться. Неважно, кто он — крупное юридическое лицо, физлицо или бабуля, которая сидит где-то на грядках. До бабули, конечно, дотянуться нельзя, у нее наверняка даже аккаунта в «Одноклассниках» нет. Но наверняка когда-нибудь к ней приедет внук и сфотографируется с ней, потому что в 2017 году около 20% фотографий — со своими бабушками. Это был реальный тренд 2017 года. Соответственно, эту связь между ними можно сразу установить. А бабушка — это желтые страницы. Можно понять, где она живет, куда ребенок съездил и так далее. Из этого можно вычленить огромное количество информации.

Как выглядят обычные пользователи для некого алгоритма

В любом срезе обязательно есть какой-то кусочек непонятных товарищей-ботов, которые дружат друг с другом. Они очищают медиапространство. Но есть и всевозможные грустные истории, связанные с социальным терроризмом. В частности, в последние два-три года очень популярный его вид — молодежь выкладывает свои обнаженные фотографии куда-то, а по ним их деанонимизируют. Я не родитель, просто разбираюсь в теме, и в 2017–2018 годах у молодежи панацея — выкладывать свою обнаженку в анонимные паблики. Но вы как люди умные должны понимать, что ничего ни в какие анонимные паблики выкладывать нельзя, потому что все это идентифицируется. Зачастую, кстати, опять-таки по заднему плану на фотографиях. Потому что обычно людям лень делать специальную фотографию для этой группы. Они берут какую-то обычную и обрезают, а все остальное на ней остается. До социального терроризма, конечно, далеко, но у меня лично много таких историй, когда, например, мне ЖКХ не отвечает на звонок, я нахожу главного инженера, его жену, детей в соцсетях и начинаю писать. Закон не запрещает это делать, потому что они госслужащие и ты пытался с ним прокоммуницировать. Это не очень этично — звонить директору в школу детей и говорить, что их папа свет не включает в подъезде. Но мы к этому идем.

Все спрашивают, что будет через пять лет — все будут за всеми следить? Да, так и будет. Но не все за всеми будут следить, как это обычно представляют. На самом деле мы просто придем в состояние тотальной прозрачности, где все будут обо всех знать. Кто занимается околопсихологическими вещами, знает, что есть очень много зарубежных исследований на тему, насколько людям становится сложно врать в современном цифровом мире. Есть очень крутое исследование, к сожалению, не назову автора, в котором изучается феномен людей с определенным психологическим заболеванием, когда постоянно врут. Так вот, за последние пять лет количество таких людей резко уменьшилось. Потому что очень сложно всем врать, когда есть социальные сети и все можно подтвердить. С другой стороны, в соцсетях увеличивается количество людей, которые ставят, например, «левые» геометки. И они это делают не потому, что скрываются от кого-то и изменяют свои алгоритмы, а потому, что «я сегодня в Москве, а завтра в Дубаи». Но это к тому, что если вы таким образом решите скрываться от вездесущих алгоритмов, вам это не поможет, потому что вы просто окажетесь статистической погрешностью. Как я уже говорил, практически у всех пользователей 80% точек — это дом, работа, дом, работа и редкие путешествия. Основная проблема всех людей, которые пытаются от кого-то скрыться,— это модель их поведения. То, как они потребляют контент, как они коммуницируют.

У меня также есть несколько наблюдений на тему того, насколько одинаково потребление контента внутри «ВКонтакте» и Facebook. Конкретный инфоповод — открытие парка «Зарядье». Вот модель поведения «ВКонтакте» — много-много точек, они все сгруппированы в маленькие группки, каждая группка — это отдельный инфоповод, большого количества связей между ними нет. Потому что во «ВКонтакте» определенная модель потребления — контент пролетает мимо людей, и они читают только заголовки. «А, Олег Тиньков...» — и уже неважно что. А в Facebook тот же инфоповод среди тех же людей выглядит по-другому — это гигантская куча связанных друг с другом людей, мимо которых не просто пролетел инфоповод, а они месяц это все поднимали, обсуждали, писали гневные комменты, исходили желчью.

А есть группа представителей госорганов, разных пресс-служб и так далее, которые просто у себя вешали новость: «Парк "Зарядье" открылся». И все. И никаких гневных комментариев не получали. Разница моделей поведения между соцсетями и между разными слоями населения где-то большая, а где-то и нет.

Сейчас гигантская проблема больших данных в том, что собирать данные умеют уже все

Этим давно никого не удивишь. Но до сих пор никто не умеет из этого делать правильные выводы. Люди остановились в той точке, где они считают, что чем больше данных, тем точнее будет твой прогноз. Это зачастую так. Но проблема в том, что если ты берешь огромную аудиторию, огромный объем данных, то он просто представляет собой непонятную серую жижу. Очень простой пример. Приходят люди и говорят: «Нас интересуют интересы наших пользователей». У нас есть банк А и банк Б, возьмите и сравните, чем отличаются интересы этих пользователей. Ничем. На любой группе больше 100 тыс. человек большинство параметров одинаковые. Вот что с этим ни делай, но топ групп, на которые люди подписаны, и источники, из которых они потребляют контент, практически одинаковы. Поэтому все уходит в микротаргетинг, микровзаимодействие с конкретными людьми, идентификацию каждого конкретного человека. Поэтому, собственно, нам всем и нужно скрываться — вы Googleите покупку штор, а потом еще неделю в Instagram или Facebook получаете идиотскую рекламу, которая не понимает, что вы уже купили, все произошло. Сфотографируйтесь со шторами.

Кстати, по поводу слежки все всегда рассказывают одну байку: «Я ехал в машине, разговаривал по телефону, навигатор что-то услышал и начал давать рекламу». Может, это, конечно, нам не повезло, но мы проводили такой эксперимент несколько раз. Не сработало. И мне кажется, правильно, потому что если бы «Яндекс-навигатор» в реальном времени анализировал у каждого пользователя его аудио, то дата-центр «Яндекса» был бы размером, наверное, с этот зал, а экономическая эффективность была бы совсем маленькая. Поэтому можете спокойно разговаривать. Проводили мы и другие эксперименты. Делали чистый аккаунт в соцсети, никак не связанный с реальностью, и начинали что-то писать людям. Например, я лично проводил такой эксперимент, писал своему другу: «Давай слетаем в Сыктывкар!» Я даже на карте этот город не покажу, но суть в том, что через пару дней мы начали получать рекламу билетов туда. Аккаунт чистый, ни с кем не взаимодействовал. Поэтому соцсети это тоже видят.

Думаю, ни для кого не секрет, что здесь есть обратная сторона — все всегда считают, что и государство тоже смотрит всю переписку в соцсетях. Вы, конечно, можете мне не верить, но это реально очень сложно. Какому-нибудь рядовому московскому оперуполномоченному получить доступ к личным сообщениям — вообще непосильная задача. Потому что это суды, на разрешение уйдет от семи месяцев до полутора лет. А сами понимаете, за это время мало-мальски грамотный убийца забудет вообще все детали, где он там что в соцсетях писал. Для суда же важно доказать, что вы считаете, что он именно в соцсетях устроил сговор или написал, где труп закопал. В общем, не стоит, наверное, таких вещей бояться, но лучше и не писать. Мало ли что. Было очень много независимых исследований, что «ВКонтакте» не удаляет никакую информацию, как и другие соцсети, но и в паранойю впадать не стоит.

Вы наверняка слушали историю про тот же Tinder, когда одна пользовательница написала туда письмо-запрос и попросила выдать всю информацию, которую хранит о ней приложение. И якобы, как пишут все СМИ, она получила 800 страниц информации о себе. И все такие: «О господи! Приложение для знакомств хранит о тебе 800 страниц информации!» Но на самом деле только один, наверное, журналист из тысячи попросил у нее этот документ посмотреть, а там была просто личная переписка. То есть не количество сексуальных партнеров, не то, с кем она ходила на свидание, в какой одежде, что заказывала, что ела. Ничего такого нет, просто переписка. А из этого сделали историю, что приложение для знакомств вдоль и поперек тебя изучает. Кстати, после этого, если изучать статистику активности Tinder, она очень сильно обвалилась. Потому что люди решили, что нельзя пользоваться приложением, которое столько о тебе узнает.

Тем не менее главный посыл тут в том, что скрыться от камер наблюдения вряд ли получится, но всегда получится обмануть алгоритм. Потому что, какой бы крутой он ни был, какие бы ни были нейросеть, машинное обучение и все эти умные слова, которые любит говорить Герман Греф,— неважно, любой алгоритм основан на взгляде на большинство. Поэтому если вы в один прекрасный момент пойдете домой не прямо, а как-нибудь обойдете, вы нарушите статистику. Приведу пример, который наверняка всем понравится. Есть такие товарищи, которые продают наркотики. Некая компания одно время разрабатывала алгоритм, который покупал наркотики у разных людей и смог их деанонимизировать с помощью Tor. С кем-то он общался, кто-то случайно указывал ник, который где-то засветился пять лет назад на какой-то почте, и связывал их между собой. Задача же была определить, где живут эти люди и куда они ездят делать закладки с наркотиками. Реально у 95% тех, кто этим занимается, одна и та же модель поведения — ехать по диагонали. То есть они считают, что если они живут на «Войковской», но поедут с этой «Войковской» куда-то диагонально, то их вообще невозможно будет отследить. Сделать из этого выводы можно разные. На этом у меня все.

Источник: Коммерсант - https://www.kommersant.ru/doc/3549191

Опубликовано: 2.11.2020