ПОИСКОВЫЕ СИСТЕМЫ ИНТЕРНЕТ

Просмотров

HTML Counter

МАЛОИЗВЕСТНЫЕ ПОИСКОВИКИ: КТО И ЗАЧЕМ ИХ ДЕЛАЕТ

Может показаться, что крупные поисковики монополизировали рынок настолько, что создавать новые поисковые сервисы с нуля бессмысленно. H&F нашёл пять компаний, которые на это решились.

DuckDuckGo (http://duckduckgo.com/)

DuckDuckGo

Когда в 2008 году Гэбриэл Уайнберг придумал DDG, многие вокруг подумали, что он сошёл с ума — мол, кому нужен ещё один поисковик?

 

Но он сделал ставку на новый подход: разработал алгоритм Instant Answers, который позволял собирать нужную информацию со сторонних ресурсов и показывать её в виде готового ответа на вопрос пользователя. Не прошло и полугода, как в Google появилась аналогичная функция, преимущество было утеряно.

ЭВОЛЮЦИЯ ПОИСКОВЫХ СИСТЕМ

Тогда на первое место вышла идея об анонимности и защите личных данных, что не осталось незамеченным. В 2012 году компания получила $12 млн инвестиций от небезызвестного Фреда Уилсона из фонда Union Square Ventures, который заметил, что считает сайт способным составить конкуренцию Google: «Мы инвестировали в него, потому что нам нужен конфиденциальный поисковик. Мы сделали это для людей, сидящих на Reddit и читающих Hacker News, для всех интернет-анархистов». А уже в следующем году оказалось, что безопасность информации интересует не только интернет-анархистов.

 

Мир обратил внимание на DuckDuckGo  в июне 2013 года, на волне произошедшего со Сноуденом. Количество ежедневных поисковых запросов за месяц возросло в три раза и с тех пор продолжало увеличиваться. Дело в том, что DuckDuckGo, в отличие от Google и Yandex, поставил во главу угла конфиденциальность личных данных, отказ от записи, хранения и использования какой-либо информации о пользователях. DDG не хранит IP-адреса, не ведёт лог ваших поисковых запросов, просмотра страниц и кликов по рекламным блокам. Каждый раз, когда вы вбиваете новый запрос в DDG, для поисковика вы — новый человек. Благодаря этому на выдачу никаким образом не влияет эффект «пузыря фильтров».

 

Так, например, Google использует 57 критериев при оценке того, насколько тот или иной контент будет вам интересен, и в соответствии с этим фильтрует результаты выдачи и таргетирует рекламу. Условно говоря, в Google ответ на один и тот же вопрос для каждого пользователя звучит по-разному, а в DDG — максимально объективно.

  Wolfram Alpha (https://www.wolframalpha.com/)

Wolfram Alpha

WolframAlpha — уникальный по амбициозности проект, над которым его создатель, Стивен Вольфрам, работал в течение 25 лет. По сравнению с его ответами выдача Google кажется удивительно неэффективной, бесформенной горой информации. WA «понимает» естественный язык, а точнее — считывает логику отношений между словами в запросе, а не просто отмечает отдельные слова и их последовательность, как Google. WA использует информацию не из открытых источников, а из собственной обширной базы, которая постоянно пополняется на основе запросов пользователей. Основу этой базы составляют точные науки, математические, физические, астрономические, биологические данные, различного рода статистика.

Эти данные не статичны, WA может с ними работать, сопоставлять и анализировать. Например, можно спросить, где именно сейчас находится конкретная космическая станция, какая была погода в день, когда вы родились, какую долю рынка спортивных товаров занимает Nike в Великобритании, какая из серий «Звёздных войн» стала наиболее успешной. Сам Стивен Вольфрам считает, что «оцифровать» можно весь мир, так что WA в скором времени будет знать ответы на все вопросы. Но эти заявления вызывают сомнения у других учёных. К мнению Вольфрама, вообще, принято относиться с осторожностью. После того как он издал книгу A new Kind of Science, за ним закрепилась репутация безумца и эгоманьяка. Есть и те, кто называют его гением, замысел которого не понятен обычным смертным. Основная идея книги заключалась в том, что сложность любой системы — мнимая и на самом деле всё на свете есть лишь производные формы очень простого алгоритма. «Вселенная — это лишь код длиной в 5 строчек», — однажды сказал он.

Samuru (http://www.samuru.com/)

Samuru

Брэндон Виртц долгое время работал SEO-менеджером и отлично знал то, как можно «обыграть» Google. В какой-то момент он заметил, что выдача поисковика становится всё менее качественной, так как в первую десятку результатов всё чаще попадают ссылки не на полезные ресурсы, а на сайты, профессионально обработанные такими же, как он, SEO-шниками. Виртц решил встать по другую сторону баррикад и создать более эффективный, защищённый от спамеров поисковик. В отличие от Google, Samuru не придаёт большого значения количеству обратных ссылок. Его технология Liquid Helium преобразует содержание страниц в математические значения и алгоритмы для их последующего анализа и использования. Liquid Helium считывает информацию о структуре текста, использовании различных частей речи, грамматике, стиле, пунктуации и других показателях, на основе которых можно определить, насколько текст релевантен запросу и был ли он специально изменён под требования поиска.

Главная задача разработчиков Samuru — сделать так, чтобы его было невозможно перехитрить. Поисковик оценивает текст по 100 признакам качества. Кроме того, он учитывает и другие факторы, например срочность и тип запроса. Так, если вы ищете информацию на тему спорта и развлечений, поисковик понимает, что вас в первую очередь интересуют недавние или предстоящие события, а не то, что происходило несколько лет назад. Если вбить в Google запрос «Как делать капкейки», он покажет все страницы с этими словами, в том числе главную страницу пекарни, на которой написано «Мы знаем, как делать лучшие капкейки». Samuru же понимает, что запрос «как делать капкейки» — это поиск инструкции, и ищет тексты, которые, во-первых, содержат данные слова и, во-вторых, написаны в форме инструкций. Также Samuru может определить, является ли автор статьи экспертом в данной области, основываясь на том, насколько часто он пишет на смежные темы. Основной риск для Samuru — в том, что Google может легко скопировать эти нововведения.

ThisPlusThat (http://www.thisplusthat.me/)

ThisPlusThat

В августе прошлого года в блоге Google Open Source Blog появилось сообщение о новом Open Source инструменте word2vek. При помощи машинного обучения без учителя (unsupervised machine learning) на основе нейронных сетей инструмент применяет «распределённые представления» текстовых данных для обнаружения связей между концептами. Лицензия исходного кода (Apache License 2.0) позволяет встраивать его в коммерческие приложения. Так, на его основе астрофизик Кристофер Муди всего за три недели создал новый поисковик — ThisPlusThat. Основная идея заключается в том, чтобы представлять слова не как не связанные друг с другом единицы, а в виде векторов, которые задают значение слова, опираясь на контекст. Грубо говоря, одно направление показывает, что мужчина, женщина, король и королева относятся к категории «люди», другие векторы будут связаны с понятиями «пол», «члены королевской семьи» и т.д.

Муди «натренировал» алгоритм, используя базу знаний IMDB, CrunchBase, а затем и всей Wikipedia, так что сейчас поисковик «понимает» как смысл обычных слов, так и концептов. Пользоваться поисковиком можно, отсекая или добавляя необходимые векторы к основному слову. Например, если задать «Король – Мужчина + Женщина», результатом будет «Королева». Более тонкий запрос «The Matrix – Thoughtful + Dumb» в результате покажет фильм Blade 2. Безусловно, векторный подход не обеспечивает безупречной точности. Так, например, если задать «Майкл Джордан – баскетбол + гольф», ThisPlusThat не выдаст имя Тайгера Вудса в первой строке, а покажет Мэджика Джонсона и Шакила О'Нила, видимо отобрав их по принципу «звёзды баскетбола, которые успешно занялись бизнесом после окончания спортивной карьеры». Однако в целом идея о «понимании» смысла слова через определение семантических полей, частью которых оно является, кажется весьма перспективной.

Blippex (https://www.blippex.org/)

Blippex

Blippex — совсем юный поисковик, качество которого напрямую зависит от количества пользователей. Его создатели — немцы Макс Коссац и Джеральд Баек — отталкивались от того, что, если они попробуют конкурировать с Google, имитируя его технологию поиска и индексирования страниц, они обязательно проиграют. Поэтому решили придумать «Wikipedia для поиска». Пользователи Blippex должны установить специальное расширение для браузера, которое будет анонимно отправлять информацию о посещённых ими страницах, тем самым помогая строить поисковой индекс и влиять на оценку важности той или иной информации. Придуманный Коссацом и Баеком алгоритм DwellRank (названный по аналогии с гугловским PageRank) оценивает сайты по количеству времени, проведённого на них пользователями, а также по общему количеству посетителей, длине контента и популярности в целом.

О том, что количество времени, проведённого на странице, действительно является показателем качества контента, известно давно. Хорошо то, что данные, собираемые Blippex, полностью анонимны — никакой персональной информации о пользователях поисковик не собирает. Плохо то, что качество выдачи напрямую зависит от того, сколько людей установили расширение для браузера, так что пока некоторые результаты выглядят странными. Так как русских пользователей у Blippexa почти нет, то и русскоязычные сайты поисковиком практически никак не индексированы. Однако основатели не унывают, считая, что это естественная стадия любого краудсорсингового проекта, — в Wikipedia вот тоже когда-то почти не было информации.

Источник: Hopesandfears.com

- http://www.hopesandfears.com/hopesandfears/ideas/cloud/126463-search-engine

Опубликовано: 20.03.2014