МАШИННЫЙ СБОР ДАННЫХ

МАШИННЫЙ СБОР ДАННЫХВ отрасли информационных технологий есть такой распространенный термин "Big Data", который переводится, как "большие данные", что не отражает сути.

Гораздо ближе к сути - "всеобъемлющие данные".

Под этим термином чаще всего понимается то неструктурированное хранилище, куда наш Большой Брат складывает данные, собранные с наших компьютеров, телефонов, камер наблюдения, узлов сотовой связи и т.п.

Он (по меньшей мере на данный момент) не имеет отношения к официальным государственным системам прослушки типа "СОРМ", "Эшелон" и им подобным.

В первую очередь Big Data - это игрушка транснациональных корпораций и способ их заработка (а во вторую - проект ЦРУ).

Все современные пользовательские операционные системы (на уровне ядра, кроме linux), все современные смартфоны оснащены механизмами, которые целенаправленно собирают различные данные о пользователе и отсылают их на сервера Big Data, принадлежащие разным корпорациям.

Что оно умеет?

К собираемым данным (в целом) относится:

- фотографии пользователя и всех мест, где он бывает.

- его учетные записи во всех сервисах и пароли от них.

- контакты, с которыми общается пользователь, отношения с ними, интенсивность общения, причины общения и темы общения.

- все поисковые запросы пользователя.

- темы, о которых пользователь говорит вслух в присутствии устройства - распознаются по ключевым словам.

- психологический портрет пользователя, его характер, склонности, верования и пороки.

- биологические показатели пользователя, медицинские данные и его состояние здоровья.

- финансовое состояние пользователя, карта его потребления, его отношения с финансовыми организациями, кредитная история, манера ведения дел.

- географическое перемещение пользователя, его фактическое место работы и проживания.

- особенности пользования устройствами и интернетом, установленные программы, действия пользователя в них, соблюдение пользователем авторских прав.

Различные сервера Big Data собирают разные данные, в зависимости от интересов корпорации, их создавшей. Кто-то собирает меньше, кто-то больше, кто-то собирает довольно обезличенные данные, а кому-то нужно знать о "жертве" тотально всё. Все эти собираемые данные практически не наблюдаются и не анализируются живыми операторами, весь сбор и анализ данных полностью автоматизирован.

Если коротко о сути Big Data, то Большой брат не столько следит за нами, сколько оцифровывает нас.

Самые объемные и подробные хранилища Big Data имеют Google, Эппл, Микрософт, Яху, Facebook. Из наших наиболее отличились Яндекс, Вконтакте и Мейл.ру. Есть еще множество более мелких компаний, собирающих доступную им Big Data на свои собственные сервера.

От "прошаренности" аналитического сервера Big Data зависит и возможности его применения: например, умеет ли он анализировать лингвистически ваши комментарии на предмет эмоционального отношения к комментируемой теме.

Зачем всё это нужно?

Большинство самых крупных компаний, собирающих Big Data - теневые посредники (англ. shadow brokers). Это означает, что они собирают, покупают, воруют и продают информацию, и существуют на заработки от этого.

Несколько примеров того, как на практике используются данные из Big Data

Один из кейсов «Билайна» — геоаналитика для правительства Москвы, на основании которой можно определить плотность населения, матрицу корреспонденции между районами и между станциями метро, динамику перемещения людей. Анализ нагрузок на базовые станции дает возможность давать в агрегированном виде отчеты, благодаря которым администрация города может принимать решения. Например, о новых маршрутах автобусов и троллейбусов, о нужном количестве школ, детских садов, больниц.

Кейс операторов связи

Абонент собирается лететь за границу. Если в зале ожидания аэропорта предложить ему подключиться к роумингу или перейти на специальный тариф, то это будет намного эффективней предложения, полученного уже в другой стране. Но нужно предвидеть, что он туда полетит. Нет смысла посылать предложение абоненту, приехавшему в аэропорт на работу. Или встречать кого-то. Для этого анализируется его жизнедеятельность за несколько дней до данного случая: говорил ли он о поездке, писал ли он письма и СМС об отпуске или командировке, были ли у него затраты, связанные с покупкой туров, билетов, отелей.

"Операторы связи строят различные профили для абонентов, включающие уровень их доходов и состав семьи, количество человек в домохозяйстве, есть ли у абонента автомобиль. Все это позволяет более точно спрогнозировать потребности абонента, повысить эффективность рекламных кампаний и точность его оценки скоринговыми системами, например, при принятии решения о размере лимита на перерасходование средств."

Типичный банковский кейс

Банк заключает договор с теневым посредником (например с Mail.ru) в том, что тот предоставляет банку следующий информационный сервис: банк отправляет посреднику запрос с данными своего клиента, а посредник на основании выборки из Big Data выставляет скоринговый балл кредитной надежности этого человека. Например, если незадолго до обращения, человек искал в поисковых системах схемы, как ему обмануть банк, сделать фальшивый паспорт, взять кредит с целью не отдать, то скоринговый балл будет отрицательным.

"Оффлайн-розница использует большие данные, чтобы анализировать поведение покупателей, проектировать маршруты следования по торговому залу, правильно расставить товары, планировать закупки, и, в конечном итоге, повысить продажи. В онлайн-рознице на больших данных строится сам механизм продаж: пользователям предлагают товары на базе предыдущих покупок и их персональных предпочтений, информация о которых собирается, например, в социальных сетях".

Основные методы сбора Big Data

1) "Метод Facebookа". Организовать социальную сеть, в которой пользователи сами расскажут всё о себе.

2) "Метод Microsoft/Apple" - встроить в операционную систему или приложение механизмы выкачки данных о пользователе без его ведома на удалённые сервера, затем - анализ и оцифровка.

3) "Метод Яндекса" - анализировать cookies, поисковые запросы пользователя и его поведение при просмотре результатов поиска.

4) "Метод Picasa" - предоставить пользователям бесплатно облачное хранилище для всех их данных, мягко подтолкнув к закачке туда всего без ограничений по умолчанию, после чего закачанные данные проанализировать, распознать и оцифровать.

5) "Метод СОРМ 2" - лингвистический анализ разговоров на ключевые слова, темы и эмоции.

Современные монстры Big Data используют сразу весь набор приемов

Например, Google предоставляет Вам операционную систему, в которой и сама система, и почти каждое приложение собирает о вас данные, круглосуточно отсылая мониторинг вашего поведения и перемещения в сеть, предоставляет вам облачное хранилище и почту (анализируя их содержимое), Picasa для сбора ваших фотографий, а поисковый сервер Google анализирует ваши поисковые запросы, перехватывает cookie, строит картину ваших интересов и поведения в сети.

GOOGLE: ЗЛОВЕЩАЯ ЧЕРТА

Обратите внимание, что каждый из современных крупных поисковиков (Google, Яндекс, Mail.ru и т.п.) стремится разработать собственный веб-браузер и собственные приложения для смартфонов. Причем, все эти приложения - удобные и бесплатные.

Разумеется, это делается для того, чтобы пользователь поставил встроенные в них механизмы сбора данных на свои компьютеры и смартфоны и дал тем самым теневым посредникам более широкий доступ к своим данным для их сбора и оцифровки.

Поставьте себе на компьютер и телефон сетевой экран, перехватывающий обращение системы и приложений к сети, и вы даже за первые полчаса их работы увидите крайне много интересного.

Например то, что смартфон на Android отсылает данные в сеть на различные сервера буквально раз в 30 секунд.

Электронный концлагерь?

Теперь ожидаемый вопрос. А где же здесь рассказы про то, как мировое правительство собирает данные о нас, чтобы потом изощренно угробить всех, кто пытается выйти из системы?

Big Data действительно, при должном подходе, позволяет изощренно угробить как конкретного индивида, так и любую выборку индивидов по набору параметров: это тот самый универсальный инструмент, который годится как для форсированного процветания человечества, так и для форсированной деградации, всё дело в морали заказчиков данных. Посредник же является серым по той причине, что он не расчитывал свой инструмент ни на то, ни на другое.

В данный момент Big Data сфокусирована на предоставлении сервисов, позволяющих зарабатывать деньги, и деньги - её основная цель.

Разумеется, у крупных и известных посредников есть некий морально-законодательный кодекс, кому они могут предоставлять данные из Big Data, и как.

Например, вряд ли я могу прийти в Google, и просто так взять и заключить с ними договор на поставку мне данных о моральных пороках руководителей конкурирующих со мной организаций. Законодательство о защите персональных данных и страх перед финансово-репутационными рисками всё же не позволяют посредникам продавать данные о нашей частной жизни всем подряд. Доколе продлится такое повсеместное совестливое человеколюбие - покажет практика.

А практика показывает, что Facebook уже многократно попадался на том, что сливал личную информацию своих пользователей.

А как будет использоваться Big Data в случае обострения противостояния ведущих держав до горячей войны? Вопрос...

Big Data - один из очень хороших разведовательных инструментов

Что будет, например, если аналитик разведки, имеющий доступ к базам геолокации пользователей Android, наложит эти данные на официальную карту местности, чтобы сопоставить ожидаемую и реальную плотность населения? Правильно: он получит данные о недекларируемых местах скопления людей, например о военных гарнизонах и их примерной численности. Или он обнаружит, что некое государство, предположительно завышает/занижает свою численность населения, чтобы предоставить противнику ложную информацию о своей оборонительной мощи.

Также крайне ценную информацию предоставят попавшие в Big Data данные о финансовых транзакциях по банковским картам и медицинские карточки населения, содержащие сведения о группах крови, прививках, обращениях к врачам и диагнозах.

Также, естественно, Big Data позволяет спецслужбам (а они имеют законное право получать оттуда данные бесплатно) найти компромат на любого неудобного им гражданина, и они этим отлично пользуются.

Здесь следует напомнить историю про бывшего директора-распорядителя Международного валютного фонда Доминика Стросс-Кана: он был снят с должности благодаря обнародованной видеозаписи, где он якобы домогается до некой горничной в гостинице, в номере которой "совершенно случайно" оказалась скрытая видеокамера, снимавшая происходящее как раз под нужным ракурсом.

Учитывая, что человек такого возраста и положения вряд ли набросится на первую попавшуюся горничную, рискуя всем достигнутым, "горничная" была подобрана специально, исходя из подробнейшего анализа сексуальных симпатий и предпочтений господина Стросс-Кана. Фактически, спецслужбы, проанализировав его психологические нюансы, прислали ему тщательно подобранного и проинструктированного "суккуба", против соблазна овладеть которым он устоять гарантированно бы не смог.

В данный момент сервера Big Data еще не обладают той степенью интеграции, чтобы называться полным электронным концлагерем, но это вопрос примерно 7-8 лет развития.

И, разумеется, стоит напомнить о том, что Big Data не знает, что делает человек, если его не видят интегрированные в неё камеры наблюдения, а при себе у него нет устройства, позволяющего выходить в сеть.

Опубликовано: 08.04.2021