Релевантность поиска: что это такое простыми словами, как увеличить релевантность страницы

Программный комитет еще не принял решения по этому докладу

Андрей Аксенов: Добрый день! Меня зовут Андрей Аксенов, я специалист по поиску в Sphinx

Сегодня я буду рассказывать про качественный поиск. Доклад будет про то, что можно сделать для улучшения качества поиска на вашем сайте в меньшей части, в большей части. Как устроена в современном мире загадочная штука под названием «релевантность», как она считается, до чего дошла (доросла) наука о веб-поиске.

Могу пока заранее ответить на вопросы какие-нибудь!

Реплика из зала: Список литературы посоветуйте.

Андрей Аксенов: Список литературы посоветуйте… Литературы для чего?

Реплика из зала: По работе с поиском…

Андрей Аксенов: Поиск – это гигантская штука. Тем не менее, список литературы попробую посоветовать. Если есть желание почитать про базовые концепты – это одно, про современные инновации на тему качества – это другое, обработка естественных языков – третье и так далее.

Это гигантская наука. В год защищается немало диссертаций и делается немало публикаций. Есть несколько хороших книжек… Я не читал ни одну, к несчастью. Говорят, что работа Маннига «Introduction to Information Retrieval» – хорошая. 

Зачем нужен этот доклад?

Скорости растут (в смысле, скорости «железа»). Как ни удивительно, со временем выясняется, что скорость  поиска сама по себе, блин, для 99 % людей не важна. Реально не важна! Какая разница, 300 запросов в секунду с ядра или 150 запросов в секунду с ядра, если ядер все равно 16, а пользователей на сайте все равно 10 в день? Это во-первых.

Во-вторых. К несчастью, «свободные» сервисы, которые не берут с пользователей денег, чтобы делать веб-поиск (типа Google, Yandex, Bingo и так далее) приучают людей к достаточно качественному поиску. Потребность есть. 

«Из коробки» с любой системой получается не очень. Более того, я убежден, что «из коробки» не может получиться хорошо. В любом случае, если у вас есть конкретная ниша, нужна конкретная предметная область – конкретный магазин с конкретной спецификой (но необязательно магазин), вам нужно специализироваться под эту область. Нужно всячески «тюнить» свой поиск на предмет релевантности и не только.

Краткий выборочный опрос показал, что мало кто понимает, что такое релевантность, а тем более – что можно делать помимо нее, что относится к магической релевантности, а что нет. Вот поэтому и появился мой доклад, да и в целом это интересная тема.

Все началось с коротенького блиц-доклада на прошлом РИТ меньше года назад. Доклад успел вырасти до 40 с чем-то минут. Ну, поехали!

Что такое релевантность?

Многие думают, что есть некая магическая функция релевантности, которую ты посчитал, и у тебя все хорошо. Неправильно думать, что она, в принципе, в природе есть. Это не совсем так.

Так называемая релевантность возникает ровно в тот момент, когда кто-нибудь где-нибудь что-нибудь ищет и находит, к несчастью своему глубокому. Очень плохо, если это новинки. Надо понимать, что у меня прицел сбит, потому что я разработчик этого всего добра.

Мне глубоко неприятно, когда кто-нибудь что-то ищет и находит, потому что в этом случае необходимо работать над результатами, ранжировать их и тратить на это много ресурсов. Это не круто!

Самая лучшая оптимизация – это работа, которую ты не делаешь. Самый лучший запрос – пустой. Ну, или хотя бы который не дал результатов. Если он их все-таки нашел, то приходится работать – в частности, ранжировать, выстраивать их по-разному.

Но ранжировать их сложно. Попробуем разобрать один случайный запрос. Это крайне сложно – этим никто в мире не умеет заниматься: человек не так устроен. Тем не менее, попробуем поставить себя на место пользователя, который что-то искал.

Вот один случайный запрос – я выбрал вот такой. К несчастью, он на английском (может быть, наоборот – к счастью) «battle ship».

Что имел в виду человек?

Может быть, он искал вот этот корабль: информацию по поводу того, когда его, наконец, спустят на воду. Или он интересовался правилами игры «Морской бой», или может быть, искал что-то более футуристическое. Может быть, он вообще сдалал опечатку и совсем не это имел в виду… Копирайт корпорации «Google» – отличная реклама. Я очень люблю.

Шокирующая истина

Внезапно, шокирующая истина! Запрос может быть одним и тем же, но разные люди могут хотеть найти разное. Кто-то правила «Морского боя», а кто-то просто не знал, что эта штука на английском называется не «battle ship».

Что же это за шокирующая истина? 

Нет никакой релевантности! Нет никакой ложки! Нет никакой объективной релевантности, если угодно, данной нам в ощущениях, существующей как идеальный концепт в платоновском мире мета-идей.

Так называемая релевантность: это всегда «красота – в глазах смотрящего». Для разных людей одному и тому же запросу релевантно совершенно разное. Хуже того – в разные моменты времени для одного и того же человека этому запросу может быть релевантно совершенно разное. 

Семантика коротенького полнотекстового запроса меняется в зависимости от того, пьян я или не пьян, в каком городе нахожусь и что конкретно ищу. Тоска!

Почувствуйте мою боль: мы делаем поисковый движок, и ранжировать результаты поиска нам все равно придется. Что же делать? Как же быть?


Умные люди решили, что у нас в момент полнотекстового поиска все равно ничего нет, кроме документа и разнообразных свойств этого документа. Я специально использовал слово «свойств», потому что его можно толковать очень широко.

Часть из этих свойств – это текст документа, с одной стороны, и текст запроса, с другой стороны.

Мы можем посмотреть на запрос, на текст. Посмотреть, какие конкретно слова совпали, сколько их совпало, насколько частотные это были слова, где они совпали. Рядом они находятся или далеко, в точности они совпали или после того, как к ним применили жесточайшую морфологическую обработку. Еще много всего приходится «выжимать» из этих самых слов запроса и документа.

Все это называется по науке «полнотекстовыми факторами».

Очередная слегка шокирующая истина

Во многом всё и всегда базируется ровно на одном факторе под названием BM25. Функция ВМ25 выглядит так. Совершенно несложная для тех, кто учился на технических специальностях. Гуманитарии, поверьте, она несложная.

Грубо говоря, тут по всем терминам, по всем ключевым словам запроса всего-навсего суммируется некая магия, которая растет, если слово редкое, и если слово встречается в документе часто. Соответственно, если слово слишком частое, то значение меньше. Если встречается в документе мало, то показатель падает.

Эту функцию 30 лет назад придумали. С тех пор никто не может придумать ничего, что концептуально лучше. Все равно на выходе получается ВМ25 и вариации на ее тему. Это, конечно, не основной, но один из очень важных, сильно влияющих на все подряд и постоянно использующихся в любом поисковом движке факторов. От него никуда уйти не удается.

Вообще-то факторов много. Наука о веб-поиске дошла до того, что надо учитывать больше факторов. Не только внутритекстовые факторы, которые считаются по тексту запроса и документа, но и факторы внетекстовые, которые привязаны к самому документу.

PageRank снаружи посчитали на основе того, сколько входящих ссылок на документ существует и насколько они авторитетны. Насколько длинный документ? Давно ли домен зарегистрирован? Сколько входящих ссылок на эту конкретно страницу, сколько на ней исходящих ссылок.

Очень важный фактор – определение того, порносайт это или нет. Очень разные результаты поиска надо показывать: особенно картиночные – вообще разные.

Предыдущий слайд – это сильное преуменьшение, потому что современный веб-поиск (подчеркиваю, именно масштаба веб) очень сложен. Люди, которые этим плотно занимаются, пользуются не десятком факторов, а реально тысячей. И все они учитываются в поиске.

Еще немаловажное отступление для тех, кто все-таки будет читать литературу. В англоязычной литературе обычно используется слово «сигнал». Не буду настаивать, что оно типичное… Может использоваться и слово «фактор», и слово «сигнал». Я мало читал или просто за статистикой не следил – определенного мнения не составил.

Итак, что мы выяснили?

У нас есть некоторое количество полнотекстовых факторов, которые мы считаем по тексту документа и запроса. У нас может быть некоторое количество нетекстовых факторов, которые мы просто знаем про документ (длина, «возраст» домена, PageRank, прочий «фарш»).

Что делать дальше? Что и зачем мы считаем, когда хотим посчитать магическую релевантность? Нам нужен ответ на несуществующий, субъективный вопрос – релевантен документ или нет, интересует он пользователя или нет.

Как положено в науке, мы считаем некую целевую функцию. На входе в нее много чисел, которые характеризируют все перечисленные факторы, которые поиск решил использовать. На выходе она должна сворачивать все в одно число.

Очередная небольшая (и поэтому без картинки) шокирующая истина заключается в том, что конкретные числа, которые вам выдаст функция релевантности, вообще не важны. Абсолютно! Умножь их все на 10, подели на 100 – что изменится? Ничего. Важен порядок документов, который порождается функцией релевантности. То есть, загадочная функция релевантности вообще не важна.

Значение релевантности вашей главной страницы в Yandex – 123.45 при поиске по конкретному запросу. И что? Абсолютное значение неважно совершенно – важен порождаемый порядок.

Есть и вторая вещь, которая важна, потому что надо работать с качеством. У нас есть субъективная функция непонятного вида – ничего с ней не сделать. Есть порядок, который этой функцией порождается. Но все еще непонятно, с чем работать. Непонятно, к чему применять научный подход, когда расчехлять калькулятор и что на нем считать.

А вот что. В большой науке про релевантность все начинается с человеческих оценок качества. Они субъективны и, к глубочайшему моему несчастью, никакими другими быть не могут.

Не существует, не существовало и не будет существовать программы, которая возьмет запрос и документ и скажет: «Это релевантно!»  Подчеркиваю: не просто не существует – это субъективно, это факт.

Что мы тогда делаем? Правильно: не можем написать программу, не можем построить робота – сажаем за работу миллиард китайцев. Живые люди сидят и кликают, оценивают пару «запрос-документ», ставят им оценки.

Иногда это просто бинарные числа 0 и 1. Иногда это оценки по шкале от 2 до 5, как в советской школе, или от А до F, как в американской. Для простоты давайте дальше говорить о бинарных оценках: релевантны или нет.

Конечная цель, про которую не надо забывать ни на секунду, – зачем мы все это делаем? Чтобы уметь сравнивать два разных отклика: одной поисковой машины или двух разных откликов двух разных поисковых машин, или двух разных версий одной и той же поисковой машины. И считать цифры, которые хоть что-то нам позволяют про это так называемое неуловимое субъективное качество сказать.

Пример. Кто-то поискал в Google слово Sphinx. Нашел вот что. Поскольку поиск открывал нормальный человек, который не интересуется этим всем – поиском и системой генерации документации Python – ему без затей подавай египетского сфинкса (два документа про это).

Второй и третий результат для него релевантны (подсвечены), а остальные нет.

Другой пример отклика, другая поисковая машина. Это придуманный пример, если что. Результаты я, правда, из Google взял, а как их «ремиксанул», не помню. Другой пример: то же самое, но результаты выше. Интуитивно понятно, что это лучше, потому что человек, который что-то искал, нашел это в первых рядах.

Еще один пример отклика. Результаты еще сильнее поменялись местами. Один совсем вверху (№ 1), а второй релевантный сполз вниз. Как быть? Как сравнивать эти три отклика, что с ними делать?

Метрики качества

Наука разобралась, что с ними делать. Вводятся так называемые метрики качества: их десяток уже точно придуман. Есть ряд совершенно примитивных метрик, которые вообще не смотрят на порядок документов: Precision и Recall – это как раз они. Это может звучать страшно, но на самом деле, когда начинаешь смотреть на формулы и вдумываться в них, ничего страшного в этом нет.

Precision

Precision – это всего-навсего количество релевантных результатов в показанном пользователю «куске» результатов поиска. Во всех этих трех случаях Precision одинаковый. Он равен 0,5. Два результата из четырех релевантны.

Recall

Recall тоже довольно примитивная штука. Мы знаем или предполагаем, что всего в индексе есть 10 релевантных результатов, а поиск каким-то образом возвращает только 8. Значит, Recall 80 % (0,8). Ничего страшного.

Это недостаточно: никак не различаются такие результаты, где порядок разный. Чисто интуитивно пользователю всегда приятнее, когда у него нужное идет 1-м результатом, а не 10-м. Ни с помощью Precision, ни с помощью Recall отличить два таких результата нельзя. Приходится что-то еще придумывать.

Есть стандартные метрики Average Precision, DCG (Discounted cumulative gain), BPREF, pFound от Yandex.

Я не буду никого утруждать точными формулами. Кому сильно интересно, почитает сам. Полезно думать, что, по большому счету, это просто взвешенная свертка нулей и единиц. Вес результата – 0 либо 1 в первой позиции умножается на большой коэффициент. Во второй – на коэффициент поменьше, и так далее. Это примерно и будет верно.

Мы все еще не можем ничего сказать про общую картину. Ну, хорошо – один запрос кое-как научились оценивать, но запросов много, и людей много. По одному запросу никогда нельзя делать никаких выводов.

Есть люди, которые пишут в Интернете: «А-а-а, я поискал это в Yandex и в Google (один запрос – прекрасно), и Google выдал сильно худший результат». Либо наоборот: «Yandex выдал мне сильно худший результат».

Они, мягко говоря, некомпетентны в вопросах оценки качества поиска. Делать что-то на основе одной субъективной (твоей личной) оценки одного запроса – это полный маразм. Это делается по десяткам, сотням тысяч оценок, а то и миллионам уже.

Чтобы это сделать, оценивается куча запросов! Оценивается куча документов по куче запросов. Усредняется куча откликов. Усредняется классическим образом: какую-нибудь метрику типа Average Precision считаем для одного запроса, для другого, для третьего, для миллиона. Все складываем вместе, делим.

Ура, ура! Что произошло? Только что из чудесных ноликов и единиц, которые пользователь проставил каждому документу, который мы ему отдали по запросу, мы каким-то образом получили магическую цифру.

Неважно, какую. Может быть, Mean AP, может, средний pFound, может быть, нижний доверительный 95%-ный диапазон для нормализованного DCG. Совершенно неважно, какую, но мы получили, наконец, заветную цифру (заветную для любого научного работника), которая кое-как моделирует среднее «счастье пользователя». Мы высчитали нечто, с чем можем работать, что можем оптимизировать.

Так называемая несуществующая релевантность проходит крайне извилистый путь.

Все начинается с мега-функции, которая по каким-то факторам и числам, привязанным к документу (или к документу и запросу), берет и считает магическое число. При помощи магического числа под названием «релевантность» документы, найденные в отклике, меняются местами.

Если мы вдобавок скрестим это с пользовательскими оценками и посчитаем несколько метрик (сверток реальных) вместо того, чтобы пытаться работать с нолями и единицами (все свернем в одно конкретное число), только в этот момент у нас появится возможность оценивать именно качество поиска. Так устроена наука.

Вот она – релевантность, будь она неладна.

Упрощенный вид функции. На самом деле переменных больше, чем две, поскольку это функция не от двух аргументов, а от двухсот. Но нарисовать график в двухсотмерном пространстве сложно. Увидеть такой график тоже не получится.

Очередная шокирующая истина. Этот график – иллюзия… Точнее, иллюзией является, что вообще есть какой-то график. Это субъективная функция… Аналитически придумать некую волшебную формулу от двухсот аргументов для функции, которая просто существует, невозможно.

Что делают, когда формулу придумать невозможно?

Наша формула гигантская, несуществующая и непонятная, да и данных очень много, поэтому у ученых возникает идея: давайте задействуем не человека, а машину – используем так называемое «машинное обучение».

Скажу буквально два слова о машинном обучении. Для любых практических, низменных, примитивных целей можно считать, что это стандартная регрессия. Вот нам дали облако точек, а мы к нему как-то подогнали функцию известного вида, подсчитали коэффициенты. Только на гигантском вагоне стероидов!

От регрессии до современного машинного обучения путь очень длинный.

Можно в первом приближении думать, что нам дали гигантскую матрицу оценок для запросов, мы провернули этот «фарш» через «мясорубку» функции релевантности, порядка запросов, метрик качества и так далее. Потом мы попытались подобрать регрессии такие коэффициенты, которые есть в нашей функции релевантности, проходящей через «фарш» оценки. Засунули в обычную линейную или нелинейную регрессию.

В первом приближении это хорошая ментальная модель. Можно думать, что оно так и работает. Хотя на самом деле, конечно, не так.

Что именно регрессируется?

Оптимизируем… Целевая функция… Можно оптимизировать ту самую среднюю «метрику счастья», которая имеет высоконаучный вид, но на самом деле считается, грубо говоря, в 20 строк кода Python (может быть, в 3).

Что нам известно? Что есть на входе? Где наши Х, где наши Y?

Y – это целевая функция. Тот самый MAP. Известны оценки, которые люди поставили. Известны факторы – числа, описывающие документ.

Если кто-то помнит со студенческих лет, какую задачу решает регрессия? Она нужна, когда нам известен вид функции, но неизвестны коэффициенты. Мы подгоняем коэффициенты так, чтобы отклонение было минимальным.

Но с релевантностью есть одна проблема. Поскольку это неуловимая субъективная функция, у нее и быть не может никакого вида в принципе. Как написать уравнение для того, чего не существует? Задача очень сложная. Даже вид функции, которую мы хотим искать, неизвестен.

Как всегда со сложными задачами – шокирующая истина. Она в современной науке решается крайне просто.

Берем и тупо приближаемся к кусочно-линейной функции. Отличное решение! Это мне по нраву. Работать с линейными функциями всегда просто. Понятное дело, что это кусочно-линейная функция в двухсотмерном векторном пространстве, но какая разница?

Зачем все это вообще? А вот зачем!

Как это ни удивительно, если вы действительно хотите заниматься качеством своего поиска (в частности, находить ту самую волшебную релевантность), вам необходимо знать, что есть такая штука, как метрики. Надо их считать. Есть такая штука – машинное обучение. Можно им пользоваться.

Проверять качество поиска вручную становится нереально в настолько маленьких масштабах, что аж страшно. Ну, сами представьте – вы сделали какое-то изменение в формуле ранжирования. И чего? Вводим один запрос – ну, блин, на глаз вроде лучше стало. Вводим второй запрос – блин, а тут хуже. Вводим третий – так, ладно: тут чего-то улучшилось. Счет пока 2:1.

Потуги проверять качество вручную без того, чтобы считать конкретные численные метрики и усреднять их, «умирают» уже при 5-10 оцениваемых запросах. Допустим, вы пытаетесь считать качество на очень маленькой выборке запросов… Пусть вы пытаетесь считать его не по принципу «мне кажется, стало лучше», а аккуратно и с конкретными цифрами, но очень быстро наступает момент, когда ничего невозможно посчитать вручную.

Уже начиная всего лишь с 5 запросов, с 10 документов на запрос, возникают трудности: это, извините, уже 50 цифр, 50 нолей и единиц, которые надо перемножить с заранее проставленными оценками. Считать вручную невозможно. Так что метрики нужны сразу, если мы хотим этим заниматься.

Следующий момент касается машинного обучения. Оно нужно для подгона формулы релевантности. Эта формула может быть крайне простой, а может быть крайне сложной. Но вручную их подгонять все еще можно в отличие от проверки результатов, которые эта подгонка дала. Саму подгонку вручную крутить можно.

Хорошо, один коэффициент поменяли, посмотрели, прогнали эксперимент. На мелких формулах однозначно работает поиск вручную. В компании Google говорят, что они свою формулу тоже не совсем роботом обучают. Не знаю… Там просто очень много сигналов, поэтому как-то страшно. Может, они наняли миллиард китайцев, опять же.

Но машинного обучения тоже не стоит сильно бояться, поскольку никто в современном мире не заставит вас взять и написать 20 тысяч строк кода, которые дадут плохой результат. Современный мир устроен иначе. Уже наверняка все сделано для нас. Можно просто воспользоваться математическим или статистическим пакетом в Open Source.

Можно посчитать в нем регрессию, прогнать в нем какой-то другой алгоритм машинного обучения, реализованного в этом пакете, попробовать загнать свои результаты в свой же поиск. После этого можно прогнать их со своими оценками качества. Как ни удивительно, несмотря на сложные формулы, концепты и так далее, в итоге быстро и просто удастся понять, стало лучше или нет.

Итоги первой части

В мире большого веб-поиска есть релевантность. В чем ее особенность? Очень много документов, высокие требования к качеству, нагрузки дикие (очень много запросов).

Начинается все с оценок качества. Все они субъективны. На входе много всякого «фарша», поэтому вручную делать ничего невозможно, исключительно машинным обучением. Цель всех нудных манипуляций – это получить на выходе метрику «счастья пользователя» и максимизировать ее.

С точки зрения простого человека, у которого блог на несколько тысяч постов, все по-прежнему начинается с субъективных оценок. Только их существенно меньше, поэтому все влезет в статистический пакет на одной машине.

Не нужно реализовывать машинное обучение, которое смасштабируется на кластер из 1000 машин. Можно просто подгонять руками формулу, но при этом даже простому человеку с блогом на 1000 постов метрики качества все равно придется считать и проверять автоматически, потому что здесь сложность растет очень быстро. Считать метрики качества вручную никакой возможности нет.

Конечная цель та же самая: вводим какую-то «метрику счастья» и максимизируем ее.

Это была довольно скучная теория. Теперь будет самопиар. Я расскажу, что у нас уже есть внутри Sphinx, что мы недавно сделали и что вы можете сделать, пользуясь нашими фичами. Это самое интересное.


Подзаголовк секции: «Как все хорошо у них, как все плохо у нас».

Примерно вот так. Может быть, даже еще хуже, потому что фотографии с «Boeing» и маленькой радиоуправляемой моделью я не нашел. 

В веб-поиске используется куча сигналов и факторов. Есть куча типичных оценок, которые накоплены компанией за годы работы. Элитным «state-of-the-art» решением находится магическая целевая функция релевантности – большая и очень сложная. На меньших масштабах у вас мало факторов. Зачастую оценок качества у вас просто нет.

Никто никогда не задумывался над тем, чтобы посидеть и вбить в поиск десяток запросов, проставить оценки документам. Хотя это можно сделать за полдня, за пару часов.

Функция ранжирования в лучшем случае подобрана методом с сурово звучащим названием «ad-hoc». В переводе на русский – «методом левой пятки». Покурили, подумали: «Наверное, лучше будет. Давайте вобьем эту формулу!». – «Откуда мы знаем, что лучше будет?». – «Да мы не знаем! Просто формула нравится – давайте ее вобьем». Ну, что с них взять?

Вот и все отличия. Однако не все так плохо, как казалось. Это не значит, что «ad-hoc» – это сам по себе совершенно нерабочий метод. Подгонять параметры «левой пяткой» с оглядкой на метрики качества все же можно.

У вас и у нас не тот масштаб, что у Google: меньше оценок и документов, не такая нагрузка. Все суммарно дает отличие в несколько порядков. Даже реально подобранная «левой пяткой» формула может вполне неплохо работать. Но чтобы она начинала работать лучше, вам все равно надо измерять качество. Не надо бояться – до масштаба Google все равно не дорастем, но в своей деревне можем вполне хорошо и успешно справиться.

Живой пример

Это результаты, которые дает решение, основанное на Lucene. Научные бумаги сложно читать – все в них крайне запутано. Никогда не поймешь, что имел в виду автор, что он написал, чтобы диссертацию сдать. Постоянно этот конфликт!

Тем не менее, смотрим на график. Физический смысл графика: чем выше линия, которую рисует то или иное решение, тем лучше. Это как раз точность результатов поиска, количество релевантных результатов поиска на той или иной глубине погружения в набор результатов (англ. result set). Она далеко не на первом месте, но, слава Богу, и не на последнем.

Соревновались они при этом с коммерческими решениями – с тем же Yandex, по-моему, тоже.

Как мы это делаем?

Как и положено – «левой пяткой». У нас есть несколько встроенных функций ранжирования: API-метод такой. Можно выбирать его «на лету» буквально в одну строчку. Для каждого запроса брать свой. Есть одна «наколка» техническая: метод ранжирования работает только в том случае, если вы включили режим синтаксиса запросов, поэтому через API надо вызывать еще вот такой метод.

Чего можно хотеть от Sphinx?

Какие рамки рассмотреть, если вы хотите быстро и просто внести однострочное изменение в код приложения и, может быть, улучшить качество.

С качеством у нас связано ровно 3 ранкера – все они уже перечислены. Они, как я и говорил, «пробиты» в код (hardcode). Других встроенных ранкеров, которые вы можете включить в одну строку и которые при этом заранее есть «в коробке», может быть, уже и не будет.

Пункт № 3. Появился мега-функционал, который мы давно сделали и выпустили в релизе.

Это вещь под названием «expression ranker». Выглядит она буквально вот так. Вот синтаксис, с помощью которого ей можно воспользоваться через SphinxQL-интерфейс. Подсвечена строчка, в которую вы забиваете свою формулу для ранжирования со всеми факторами, которые вам Sphinx посчитал и показал. Считаете релевантность, как можете и хотите. 

Кстати, формула, которая туда «вбита» сейчас – это та самая примитивная формула из двух факторов, которую использует Sphinx. Два фактора – это много лучше, чем один, который использует чуть ли не каждый первый поисковик.

Да, этим настолько просто пользоваться. Действительно, это очень простая формула ранжирования по умолчанию. Однако формулы, которые вы можете делать, могут быть гораздо более сложными. Показывать два фактора через этот интерфейс было как-то совсем стыдно, поэтому мы создали много разных факторов, которые сами придумали, да и пользователи попросили. Делать новые факторы нам нетрудно, и вам будет нетрудно их использовать. Если каких-то не хватает, то обращайтесь.

Этот слайд про технические подробности, думаю, не буду его рассматривать. Лучше задайте мне потом вопросы.

Наш самый сложный встроенный ранкер выглядит так. Концепт при этом все равно прост, как дрова. Но формула немного мутная. Смысл – точное совпадение полей – мы «бустим» на самый верх. Более точное совпадение фразы мы «бустим» в связи со степенью совпадения фразы. В самом конце используем стандартный фактор ВМ25, потому что нельзя игнорировать 30 лет истории. 

Я совершенно уверен, что теперь вы можете сделать поиск значительно лучше, чем в Lucene. Ранжирование значительно лучше, чем встроенное в Lucene в Sphinx, неважно где. Интерфейс доступен, факторы описаны, экскурс в теорию был. Дерзайте! Те, кому интересно этим заниматься, имеют все возможности и удобства.

Что еще можно делать с качеством поиска, кроме расчета релевантности?

Это очередная шокирующая истина, на самом деле. Качество поиска, вообще говоря, это не только и не столько релевантность. Мы ищем магическую функцию, которой считаем числа, переставляем результаты, которые уже видит пользователь.

Чудесной релевантностью дело же не ограничивается. Еще желательно корректировать опечатки. Еще есть такое понятие, как «занудность» поиска. Классическая ошибка любой поисковой формы: «А давайте поищем все слова, гы-гы». – «Ой, ничего не нашлось». – «Ну, давайте покажем 0 результатов». Прекрасно!

Что мешает в случае, если вы нашли 0 результатов, релаксировать требования и все ключевые слова, введенные пользователем? Ваш электронный магазинчик конечной целью имеет «хоть что-то продать». Это не обязательно должен быть тот товар, в котором все ключевые слова совпали с запросом. Что вам мешает убрать одно слово из запроса и показать другой набор результатов?

Ничего не мешало, но это мало кто это делает. Amazon делает, и у них все в жизни хорошо.

Стоит поднять еще тему морфологии. Она, как ни удивительно, на практике не сильно проблемна. Серьезные требования к морфологии возникают далеко не сразу, но иногда поддерживать морфологию полезно.

Существуют еще синонимы, расширение запросов, правильная индексация, номера моделей и прочие фокусы, связанные с вертикальным поиском.

Также можно делать анализ запросов типа «двухкомнатная квартира в Бибирево» и «натягивать» их на фильтры. Делается анализ полнотекстовой части, из нее выбрасываются ключевые слова, происходит натягивание на «фильтры», которые есть в базе.

Очередная шокирующая истина. Придется немного поработать руками, как ни печально это для веб-разработчиков. Но реализовать все это можно – технологии позволяют: и Sphinx, и, думаю, Lucene и Solr, и новомодный Elastix. Любая другая вменяемая технология позволит вам это все сделать с тем или иным количество ручной работы. Скорее всего, как ни странно, много работать не придется.

Как бороться с опечатками? У нас есть демонстрация по этой теме.

Бороться с занудностью можно с помощью оператора кворума. В переводе на русский: взяли запрос в кавычки, дописали некоторое количество слов. Все. Запрос из «давайте поищем все слова» стал куда менее нудным, и найдется что-то более интересное.

Можно всячески анализировать запросы. Для этого у нас есть полезные и удобные инструменты. Образно говоря, это кубики, из которых вы можете уже что-то свое построить.

Бороться с морфологией того или иного языка, номерами моделей тоже можно. Для всего этого уже есть функционал: надо читать документацию и не стесняться экспериментировать.

Вот, в общем-то, и все. Лимит времени совсем исчерпан, поэтому подробности уже точно будут в кулуарах.

У нас кое-что есть про релевантность, с одной стороны, и про нерелевантность, с другой стороны. Пользоваться можно вот так. Дерзайте!

Времени уже нет, наверное, даже на полвопроса. Или на полвопроса есть?

Вопросы и ответы

Реплика из зала: В формуле ранжирования можно использовать атрибуты документов?

Андрей Аксенов: Конечно. Любые и сколько угодно – и математические функции, и даже UDF можно написать и подгрузить «на лету». 

Это мое проклятье!

Реплика из зала: Привет, Андрей. Как размечать данные хорошо?

Андрей Аксенов: В смысле?

Реплика из зала: В выборке поиска.

Андрей Аксенов: Как хорошо размечать данные в выборке поиска… Проблема не в том…

Реплика из зала: Как пользователя заставить проставить оценки?

Андрей Аксенов: Ты никак не заставишь пользователя проставить оценки.

Реплика из зала: А ты не думал, что ты нерелевантен со своими оценками?

Андрей Аксенов: Ты этим должен начать хоть как-то заниматься сам. Пользователя ты можешь заставить (это, кстати, интересная тема) хоть как-то размечать, когда это пользователю зачем-то нужно.

Таких случаев почти не бывает, но в моей практике один был. Тогда пользователь был буквально заинтересован собственным доходом, и ему надо было проставить оценки качеству поиска. Была интрига. Про этот случай я расскажу в кулуарах.

Содержание

Релевантный. Релевантность информации страниц что это простыми словами

Говоря о поисковых системах, специалисты очень часто обращаются к термину «релевантность». На уровне интуиции его значение понятно каждому.

По сути своей, релевантность — это то, насколько определённый документ или текст соответствует запросу пользователя. Грубо говоря, чем точнее контент отвечает на вопрос пользователя, тем выше уровень его релевантности по этому запросу.

Как это работает?

Чем отличается от нерелевантного результата релевантный? Это проще всего понять, рассмотрев простой жизненный пример.

Итак, вы — школьник или студент, которому задали написать реферат по определённой теме. Мало кто в наши дни тратит часы в библиотеке для поиска и анализа всей информации. Ведь намного проще подыскать подходящую работу в сети, возможно — немного переиначить её и выдать за результат своего труда. Оставим вопросы морали в стороне и посмотрим на это с другой точки зрения.

Что вам нужно найти прежде всего? Абсолютно верно: сайт, на котором публикуются готовые рефераты. Вы открываете страницу поисковой системы (будь то Google, Яндекс или любая другая) и вводите в строке поиска слово «рефераты». Поисковая система моментально просматривает базу проиндексированных страниц и обнаруживает в ней ссылки примерно на 8 млн. различных страниц, на которых нужное нам слово в общей суммарности встречается 30 млн раз.

Следует отметить, что поисковик находит это слово как на странице сайта «Банк рефератов», так и в Твиттере неизвестной нам Кати, которая «всю ночь писала реферат и хочет спать».

Вот тут и включается понятие «релевантный». Это значит, что поисковая система определяет, какая ссылка с большей вероятностью может заинтересовать пользователя. Именно поэтому ссылку на «Банк рефератов» мы видим уже на первой странице (она лучше соответствует запросу), а одинокий пост в Твиттере, посвященный жизненным перипетиям Кати остаётся где-то на …-дцатых страницах, хотя слово «реферат» в нём также присутствует.

Теперь, когда вы получили общее представление о том, и релевантный поиск, можно перейти к более интересным моментам.

Зачем вашему сайту нужен релевантный материал?

Конечно, современные поисковые системы несовершенны и, прибегнув к определённым хитростям, можно продвинуть по определённому запросу даже нерелевантные страницы. На практике вы, скорее всего, не раз с этим сталкивались: например, вы искали результаты по запросу «купить стиральную машину», а поисковик направил вас на страницу, где расписана история создания данного агрегата.

Что вы делаете в такой ситуации? Закрываете сайт и продолжаете искать дальше.

Если ваши статьи будут нерелевантными относительно тех или иных ключевых запросов, посетители вашего ресурса тоже не задержатся на нём.

Вдобавок к этому, присутствие релевантного контента на странице значительно ускоряет её продвижение и способствует повышению позиций в общем рейтинге.

Фактически, благодаря ему вы увеличиваете трафик сайта, создаете позитивную репутацию для своего ресурса и, как следствие, повышаете уровень своего дохода.

Самые эффективные советы по созданию релевантных страниц для вашего сайта!

Прежде всего нужно определить ключевые запросы, которые подходят для выбранной странички сайта. Чем точнее они будут — тем лучше. То есть, если речь идёт о страничке интернет-магазина, на которой можно заказать чайник, логичнее продвигать её по соответствующим запросам. Например: «купить чайник», «интернет-магазин чайников» и т. д. Конечно, вы не соврёте своим посетителям, если используете фразы типа «кухонные принадлежности» или «купить кухонную утварь». Но тогда, помимо ваших потенциальных клиентов, которые действительно желают обзавестись новым чайником, на сайт перейдут и люди, которым он, мягко говоря, вообще не нужен.

Так как же создать по-настоящему эффективный, максимально релевантный контент?

1. Составьте грамотный title . В данный тег заключается название страницы. Оно должно быть как можно более ярким, оригинальным и точно описывать информацию, представленную на самой страничке. Для этого в title должно присутствовать ваше главное ключевое слово.

Пример: если вы продвигаете страницу по запросу «индийский чай», то title может выглядеть примерно следующим образом: «История индийского чая», «Купить самый вкусный индийский чай со скидками» и т. д., в зависимости от основного материала.

2. Пропишите keywords . Это — отдельный пункт в коде страницы, указывающий на то, по каким запросам её нужно продвигать, этакий «маячок» для поисковиков. Не нужно увлекаться и выписывать десятки слов, фраз и их сочетаний: оптимальное количество ключевых слов — от 3 до 5.

3. Придумайте description . Description — это краткое описание страницы, которое выполняет сразу 2 функции: способствует более эффективному поисковому продвижению и показывает пользователям, о чём говорится в статье. Существует несколько «золотых правил» составления таких описаний:

  • желательно, чтобы весь description состоял из 2-х предложений;
  • в начале первого предложения, а также в середине или конце второго можно вставить ключевое слово;
  • если употребить в точном виде не получается, можно морфологически изменить их.

Главное здесь, как и во всём процессе создания релевантного контента — естественность.

4. Заголовки и подзаголовки . Не стоит пренебрегать ими. Во-первых, структурированная статья смотрится намного лучше и легче читается. Во-вторых, включая в теги h2, h3, h4 основные и дополнительные релевантные фразы, можно сделать правильные акценты и улучшить позиции страницы в поисковиках.

5. Используйте картинки! Иллюстрированный материал всегда более релевантный. Это значит, что из двух сходных по тематике и объему статей, к одной из которых будут прикреплены тематические изображения, последняя имеет больше шансов оказаться в ТОПе поисковика. Для того чтобы добиться этого, нужно прописывать описание каждой картинки (атрибут alt). В нём также желательно использовать выбранные ключевые запросы.

Учтите, что если на странице есть несколько картинок, описания alt не должны быть одинаковыми!

Поговорим о «начинке» текста

Здесь всё просто. Текст должен соответствовать тематике ключевых запросов и самой страницы. Кроме того, имеет значение его информативность. Прочитав его, посетитель должен почерпнуть для себя какую-то полезную информацию, найти ответы на волнующие его вопросы. Только в этом случае к тексту можно применить слово «релевантный».

Это касается именно «человеческого» лица вашего материала. Но есть и другая сторона, ведь наша цель — понравиться не только пользователям, но и поисковикам.

Здесь имеет значение гармоничное вхождение ключевых фраз (как в точном, так и в склонённом виде). Для большей весомости их рекомендуется заключать в тег.

Ваша статья не должна быть ни слишком короткой (менее 400 слов), ни слишком длинной (более 2000 слов). Хотя основной упор следует делать именно на информативности. Если вы сумели осветить весь вопрос в 1500 символах, не следует «лить воду», чтобы довести объем текста до нужных размеров.

Как узнать релевантность страницы?

Большинство отечественных SEO-мастеров пользуются удобным сервисом MegaIndex. Он позволяет не только узнать релевантность страницы в процентном соотношении, но и получить множество дополнительной полезной информации. Например, с его помощью вы узнаете о том, что негативно сказывается на уровне релевантности странички и что нужно исправить, чтобы сделать её привлекательней для пользователей и ботов.

Релевантность (в SEO) – это соответствие страницы web-сайта запросу интернет-пользователя в поисковой системе. Проще говоря, релевантность определяет степень удовлетворения пользователя поисковыми результатами, которые отобразились в ответ на его запрос.

Соответствие сайта запросу высчитывается различными алгоритмами поисковиков. Однако, чем больше контент страницы предоставляет пользователю необходимой информации, тем больше она релевантна и, соответственно, тем выше находится в поисковой выдаче.

Если веб-мастер, создав контент для определенной страницы, обеспечит пропорциональное соотношение ключевых слов объему самого текста, то сразу после индексации она может попасть в ТОП выдачи поисковых систем. Но сам контент может не соответствовать ожиданиям пользователя.

Например, вы можете ввести запрос: «что такое релевантность», и в результатах поиска на первом месте будет находиться страница, в которой предлагаются услуги по повышению релевантности сайта компанией, занимающейся SEO продвижением сайтов. Это нерелевантный результат.

А вот результаты поиска, например расположенные ниже, уже будут соответствовать интересующей вас тематике, то есть отвечать на запрос «что такое релевантность».

Такое явление зачастую наблюдается из-за спам-страниц или дорвеев – ресурсов, которые продвигаются по определенным запросам с целью перенаправления посетителя на другую интернет-площадку, не отвечающую его запросу.

Раньше страница, не соответствующая запросу, и дальше оставалась бы в ТОПе, но сегодня большую роль в ранжировании web-сайтов играют современные инструменты, среди которых – поведенческие факторы (поведение пользователей на странице ресурса). Разумеется, зайдя на первый (нерелевантный) сайт, вы быстро покинете его, а на последующих задержитесь подольше, так как там есть полезная для вас информация.

На заметку . Поисковые системы отслеживают поведение пользователей на страницах и, исходя из этого, определяют их соответствие запросам. Если посетители, перейдя по ссылке, вскоре ее покидают, это снижает ее релевантность и, соответственно, она теряет позиции в поисковой выдаче.

Поэтому сегодня у поисковиков в приоритете сайты с максимально раскрытым, полезным и содержательным контентом, который дает исчерпывающие ответы на вопросы пользователей. Именно такие ресурсы и пробиваются на лидирующие позиции в поисковых выдачах.

Какие есть виды релевантности поиска?

  1. Формальная . Данный вид релевантности заключается в сравнении пользовательского запроса с индексируемой страницей, и рассчитывается он по конкретной формуле, исходя из собранных роботом данных. Это основной алгоритм поисковиков.
  2. Содержательная . Определяется специалистами, которых называют асессорами. Они анализируют качество поисковых результатов, исходя из оценки соответствия найденной страницы запросу.
  3. Пертинентность . Полноценное удовлетворение пользователя необходимой информацией. Данный вид релевантности определяется поведением посетителей сайта и их удовлетворенностью содержимым документа. К такому алгоритму сегодня стремятся все поисковые машины.

Какие факторы определяют релевантность страницы?

Каждая поисковая система имеет свои инструменты, по которым она определяет релевантность ресурса. Однако есть ряд общих алгоритмов, влияющих на соответствие web-страницы запросам пользователей.

Текстовое соответствие запросу

  • мета-теги title и description;
  • URL-страницы;
  • заголовок и подзаголовки текста;
  • прямые и разбавленные вхождения ключевых слов и фраз в тексте;
  • атрибут alt тега img (альтернативный текст для изображения).

Факторы ссылочной релевантности

  • внутренняя и внешняя перелинковка;
  • анкоры (тексты) ссылок;
  • авторитетность ссылающихся сайтов (доноров) ;
  • скорость прироста ссылочной массы.

Поведенческие факторы

  • количество посетителей;
  • ресурсы, с которых они переходят на страницу;
  • время пребывания на сайте;
  • количество просмотров;
  • удобство переходов по разделам ресурса для поиска нужной информации;
  • частота отказов;
  • конверсия (количество целевых действий: регистрация, покупка, подписка и т.п.).

Заключение

Как видите, релевантность сайта зависит от многих факторов, как внешних, так и внутренних. Но если вы хотите, чтобы ваш ресурс всегда находился на высоких позициях в поисковых системах, пишите качественный контент для людей, а не для роботов. С учетом современных алгоритмов ранжирования, текстовая составляющая релевантности является одной из основных для SEO продвижения.

В более общем смысле, одно из наиболее близких понятию качества «релевантности» «адекватность» , то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.

Виды релевантности

Соответствие документа информационному запросу, определяемое неформальным путем.

Формальная релевантность

Соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.

Одним из методов для оценки релевантности является TF-IDF -метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину — то есть документ будет выдаваться раньше в результатах поиска по данному термину. Автором метода является Gerard Salton (в дальнейшем доработан Karen Sparck Jones).

Пертинентность

Примечания

См. также

Литература

  • Капустин В. А. Основы поиска информации в Интернете . Методическое пособие. — СПб.: Институт «Открытое общество». Санкт-Петербургское отделение, 1998. — 13 с (см. стр. 5 — о пертинентности)
  • Пертинентность // Краткий словарь терминов и обозначений

Wikimedia Foundation . 2010 .

Синонимы :

Смотреть что такое «Релевантность» в других словарях:

    В широком смысле мера соответствия получаемого результата желаемому результату. Релевантность в поисковых системах мера соответствия результатов поиска задаче поставленной в запросе. Различают содержательную и формальную релевантности. По… … Финансовый словарь

    релевантность — релевантный Соответствие полученной информации информационному запросу. [ГОСТ 7.73 96] релевантность степень соответствия документа запросу Слово релевантность означает соответствие между желаемой и действительно получаемой информацией. Согласно… … Справочник технического переводчика

    Уместность Словарь русских синонимов. релевантность сущ., кол во синонимов: 3 адекватность (18) … Словарь синонимов

    — (от relevant зависящий от ч. л., к. л.) англ. revalency; нем. Relevanz. Смысловое соответствие между информационным запросом и полученным сообщением. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии

    В широком смысле мера соответствия получаемого результата желаемому результату. в поисковых системах мера соответствия результатов поиска задаче поставленной в запросе. Различают содержательную и формальную релевантности. Словарь бизнес терминов … Словарь бизнес-терминов

    Релевантность — 34. Релевантность D. Relevanz E. Relevance F. Pertinence Соответствие содержания документа информационному запросу Источник … Словарь-справочник терминов нормативно-технической документации

    релевантность — Rus: релевантность Eng: relevance Fra: adequation Соответствие полученной информации информационному запросу. ГОСТ 7.73 … Словарь по информации, библиотечному и издательскому делу

    I ж. отвлеч. сущ. по прил. релевантный I II ж. отвлеч. сущ. по прил. релевантный II Толковый словарь Ефремовой. Т. Ф. Ефремова. 2000 … Современный толковый словарь русского языка Ефремовой

    — (англ. relevant уместный, относящийся к делу) смысловое соответствие между информационным запросом и полученным сообщением. Новый словарь иностранных слов. by EdwART, 2009 … Словарь иностранных слов русского языка

    релевантность — релев антность, и … Русский орфографический словарь

Книги

  • Релевантный поиск с использованием Elasticsearch и Solr , Тарнбулл Д.. Данная книга поможет вам раскрыть суть и механику релевантного поиска на базе библиотеки Apache Lucene. На примере поисковых систем Elasticsearch и Solr вы научитесь строго контролировать…
  • Релевантность. Сила, которая меняет взгляды и поведение потребителей и позволяет всегда опережать конкурентов , Ковилл, Андреа. Сегодня люди перегружены информацией, им некогда рассматривать и обдумывать сотни коммерческих предложений, но в то же время, приобретая даже самые простые вещи, они оценивают множество…

Применительно к SEO, релевантность страницы — это степень соответствия страницы тому запросу, который ввел пользователь в ПС. То есть другими словами, релевантная страница это тот документ, который полностью дает ответ пользователю на его запрос.

Релевантность страниц сайта

Как я сказал выше, релевантные страницы это те страницы, которые отвечают на искомый вопрос. Давайте разберем на примере. Допустим вам надо найти информацию, как составить СЯ .

Вы идете в поисковик, и вбиваете запрос «как составить семантическое ядро». В данном случае релевантной будет страница, которая содержит именно эту информацию, например страница моего блога на которую я поставил ссылку.

То есть, та информация как сделать СЯ самому. А если вы попадете на какую-нибудь контору, которая делает это за деньги, то это уже не то что вы искали, а значит нерелевантная страница. Отсюда вытекает следующее понятие.

Что такое релевантность поиска

Что такое релевантность поиска — это соответствие введенного запроса результатам выдачи. Допустим, пользователь ввел в Яндексе запрос «секреты продвижения сайта ».

Если ему Яндекс выдал мой учебник по продвижению сайтов или аналогичный, то это будет релевантный результат поиска. Пользователь ведь и искал именно это.

А если в ТОПе затесался сайт какой-нибудь сео конторы, которая продвигает сайты за деньги, то это уже нерелевантный этому запросу сайт. Я привел упрощенный пример, что бы было понятно.

Поисковики все время стремятся сделать свой поиск наиболее релевантным запросам пользователей. Но не всегда это удается, так сами пользователи не всегда правильно задают свои вопросы. И поисковик точно не знает, что юзер хочет найти.

Отсюда можно сделать вывод, что релевантность поиска зависит от ПС не на 100%. Тут еще есть «человеческий фактор». Вот, например, возьмём запрос «ноутбуки». Что хочет найти пользователь, введя этот запрос в поисковую строку?

Он хочет найти новые модели ноутбуков? Узнать цены и адреса магазинов? Или найти что-то другое… Мне лично не понятно, что он ищет.

Вот и поисковики не всегда могут это определить. Конечно, у них есть много информации об этом юзере (история его поисков, демографические данные и т.д.), но тем не менее, выдать ему релевантный ответ затруднительно.

Что такое релевантные ссылки

В первом случае все должно быть понятно. Если ссылка с анкором, например, «биржа ссылок sape » ведет на страницу, где рассказывается именно про биржу Sape, то это релевантная ссылка.

Во втором случае это может быть ссылка в виде url, т.е. без ключа. Она будет релевантной, если будет идти со страницы, где говорится о ссылках, анкорах и т.д. и вести на страницу со схожей информацией. Соответствено если эти требования нарушены, то ссылка будет нерелевантной.

Тематические ссылки

Кроме релевантных, я еще выделяю тематические ссылки. Тематическая ссылка — это ссылка, ведущая с сайта схожей тематики. Например, наш сайт посвящен продаже ноутбуков. Если на наш сайт появится ссылка с любого сайта про ноутбуки, информационного или любого другого, то это будет тематическая ссылка. А вот если ссылка будет вести с сайта, который тоже продает ноутбуки, то это будет тематическая релевантная ссылка. Это один самых лучших видов ссылок для сайта.
Но есть ссылки еще круче, это ссылки, по которым есть переходы на сайт. Такие ссылки сейчас работают лучше всего. Такие ссылки получили название золотых. Ссылки, это по сути рекомендации посетить ваш сайт. Чем больше таких рекомендаций есть на других сайтах, тем он становится ценнее «в глазах» поисковых систем. Логично будет сказать, что чем больше ссылок, тем лучше. Но тут есть очень много нюансов.

Золотые ссылки в SEO

Это понятие появилось совсем недавно, и про них еще практически ни кто не написал в своих SEO-блогах. Так что я фактически первый))). Золотая ссылка — это ссылка, по которой есть постоянные переходы на сайт, на который она ведет.

Такие ссылки сейчас это самый лучший вариант продвижения. Они лучше всего работают на повышение релевантности вашего текста страницы и передают максимальный ссылочный вес. Буквально одна-две таких золотых ссылки могут вытянуть в ТОП10 очень не плохие запросы.

На первый взгляд может показаться, что все просто — купил нужных ссылок и ты в шоколаде. Но на практике все намного сложнее. Мы ведь не знаем, как точно работает алгоритм ПС, мы может только догадываться на основе опыта и наблюдений, делать разные эксперименты. Далее я расскажу вам, как постараться сделать все правильно.

Как проверить релевантность страницы запросу

У нас остался не раскрытым еще один вопрос — как проверить релевантность страницы . Проверить можно в одном из онлайн сервисов. Например, бесплатно это можно сделать в megaindex.ru . Все достаточно просто, заходим «seo сервисы» — «анализ релевантности». Вводим урл страницы и свой запрос. Система выдаст нам данные по странице, возможно, найдет какие-то недоработки по оптимизации и подскажет что исправить.

Как найти наиболее релевантную страницу на сайте. Бывает надо найти на своем сайте страницу релевантную какому-либо запросу. Делается это через расширенный поиск по сайту. Идем в Яндекс, в расширенный поиск, вводим наш запрос и url сайта и жмем найти. Первая страница и будет самой релевантной по версии Яндекса.

Информатика(Что такое формальная и смысловая релевантность поиска? Как различие этих понятий отражается на результатах поиска?)

Вопросы для обсуждения 1. Что такое формальная и смысловая релевантность поиска? Как различие этих понятий отражается на результатах поиска? Релевантность — это соответствие результата ожиданиям. В контексте поисковой выдачи релевантность демонстрирует, насколько точный развернутый ответ пользователь получил на свой запрос. Формальная. Данный вид релевантности заключается в сравнении пользовательского запроса с индексируемой страницей, и рассчитывается он по конкретной формуле, исходя из собранных роботом данных. Это основной алгоритм поисковиков. Под смысловой релевантностью понимается степень соответствия отклика информационной потребности, под формальной релевантностью — степень соответствия отклика запросу. Например, если пользователь хочет найти информацию, относящуюся к городу Москве и вводит запрос «Москва», то найденная информация о кинотеатре «Москва» будет формально релевантной, но она не будет соответствовать информационной потребности. Кроме того, в выдаче поисковой системы будут отсутствовать релевантные по смыслу документы, в которых вместо названия «Москва» используется словосочетание «столица России» 2. Как вы понимаете пертинентность? Какие способы снижения пертинентности вы можете предложить? Пертинентность (от лат. Pertineо – отношусь, касаюсь) – субъективная оценка потребителя о соответствии его интересов и полученной информации по информационно-поисковому запросу. Другими словами, это соотношения необходимой информации к полученному объему. Во времена Сэлтона* информационно-поисковых систем Internet еще не было, и предложенные им алгоритмы расчета весов терминов, индексирования документов и ранжирования результатов поиска предназначались для информационно-поисковых систем, работающих только с научно-технической информацией. Существенная особенность данной предметной области состояла в уникальности каждого документа. По этой причине было интуитивно понятно, что в идеальном случае при поиске конкретного документа релевантность и пертинентность должны совпадать. Однако из-за субъективности пертинентности добиться точного совпадения нельзя: любая поисковая система настраивается на информационные нужды усредненного, а не конкретного пользователя. Для удовлетворения нужд конкретного пользователя и были придуманы разные способы коррекции результатов поиска по релевантности. Фактически, учет цитируемости документа в других документах является одним из них 3. Охарактеризуйте два основных типа информационно- поисковых систем: документальные и фактографические. Фактографические АИС накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов (информационных объектов). Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения по какому- либо факту, событию и т.д., отделенному (вычлененному) от всех прочих сведений и фактов. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области. К примеру, фактографическая АИС, накапливающая сведения по лицам, каждому конкретному лицу в базе данных ставит в соответствие запись, состоящую из определенного набора таких реквизитов, как фамилия, имя, отчество, год рождения, место работы, образование и т.д. Комплектование информационной базы в фактографических АИС включает, как правило, обязательный процесс структуризации входной информации из документального источника. Структуризация ,при этом осуществляется через определение (выделение, вычленение) экземпляров информационных объектов определенного типа, информация о которых имеется в документе, и заполнение их реквизитов. В документальных АИС единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе (входной документ), как правило, не структурируется или структурируется в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции – дата изготовления, исполнитель, тематика и т.д. Некоторые виды документальных АИС обеспечивают установление логической взаимосвязи вводимых документов – соподчиненность по смысловому содержанию, взаимные отсылки по каким- либо критериям и т.п. Определение и установление такой взаимосвязи представляют собой сложную многокритериальную и многоаспектную аналитическую задачу, которая не может в полной мере быть формализована. 4. В чем состоят различия информационно-поисковых систем с ручным и автоматическим индексированием? Приведите примеры систем обоих типов. Одной из ключевых проблем разработки технологии распределенных ИПС Internet является реализация процедуры автоматического индексирования

Релевантность интернет-поиска | Хостинг сайтов AvaHost.Ru.

В этой статье мы поговорим о термине «релевантность интернет-поиска». Но для начала следует рассказать о том, что такое релевантность в общем понимании. Как правило, под релевантностью подразумевают степень соответствия чему-либо(какого-то объекта – критериям, по которому данный объект оценивается). Обычно термин «релевантность» используется для оценки информационных, а не физических объектов, к примеру, статей, публикаций, анонсов и информации в глобальном смысле этого слова.

Что касается интернет-поиска, то здесь релевантность – это степень соответствия поискового запроса пользователя получаемым результатам (которые представляют собой страницы информационных или каких-то других сайтов, находящихся в выдаче). Что значит «степень соответствия»? Это значит, что информация, размещенная на данных страницах, должна в полной мере отвечать на запрос человека (удовлетворять этот запрос). К примеру, пользователь вводит запрос «Как приготовить борщ». В выдаче он наверняка ожидает увидеть достаточно развернутые статьи, в которыхграмотно и понятно описан процесс приготовления данного блюда – с подробным списком ингредиентов, картинками и, возможно, видеороликом. Статьи, написанные в таком формате, будут максимально релевантными данному запросу. Более низкой релевантностью (с точки зрения пользователя, сделавшего запрос) будут обладать статьи относительно небольшого объема (тут процесс приготовления описан недостаточно подробно), статьи, в которых отсутствует список ингредиентов борща, статьи, в которых описан процесс приготовления другого блюда и т.д.

Однако далеко не всегда самый исчерпывающий ответ является наиболее релевантным. К примеру, человек вводит запрос«Поисковая оптимизация – определение». В данном случае пользователя интересует лишь само определение, без дополнительного описания термина, примеров и т.д. Получается, что наиболее релевантной будет страница, на которой содержится лишь определение поисковой оптимизации. Другой пример поискового запроса – «Приготовление борща – ингредиенты». Как мы понимаем, здесь пользователя интересует лишь список ингредиентов. Подробный рецепт ему не нужен.

Каждая поисковая система заинтересована в предоставлении пользователям максимально релевантных ответов на их запросы. Ведь высокая релевантность поиска способствует формированию более лояльного отношения людей к данному поисковику (и увеличению размера аудитории). А это, в свою очередь, ведет к увеличению прибыли. Релевантность поиска зависит, прежде всего, от используемых алгоритмов ранжирования и их программного совершенства. В большинстве случаев при определении релевантности учитываются содержащиеся на странице ключевые слова, степень уникальности контента, мета-теги, поведенческие факторы, заявленная тематика ресурса и многое-многое другое.

Довольно часто низкая релевантность поиска обусловлена не плохими алгоритмами поисковых систем, а недостаточной конкретикой или неадекватностью запросов самих пользователей. Допустим, человек вводит в строку поиска любое одиночное слово, к примеру, «компьютер». В данном случае запрос является не только высокочастотным и высококонкурентным, но и слишком общим. Поисковой системе крайне сложно понять, какую именно информацию желает увидеть человек – определение слова «компьютер», товары с аналогичным названием, описание характеристик компьютераили что-то еще. Соответственно, поисковая выдача вряд ли будет в достаточной степени релевантной данному запросу. Если поисковая фраза сформулирована достаточно грамотно и точно, то страницы, присутствующие в поисковой выдаче, наверняка окажутся релевантными.

Существенно снижать релевантность выдачи может так называемый поисковый спам. Это различные методы и приемы, относящиеся к серому и черному SEO. К примеру, злоупотребление ключевыми словами в контенте и мета-тегах, массовая закупка внешних ссылок, автоматические редиректы, клоаки и т.д. От того, насколько эффективно алгоритмы поисковика могут выявлять и отсеивать такой спам, зависит качество выдачи.

Что такое релевантность страниц сайта или поиска?

Возможно, вы когда-нибудь слышали такое слово, как «релевантность». Если вас интересует тема продвижения сайтов, то, скорее всего, да. А знаете ли вы, что такое релевантность страниц сайта? Если нет, то сегодня я, как раз таки напишу, что такое релевантность поиска и страницы сайта.

Релевантность поиска – это степень соответствия найденной информации пользователем, к той, которую он хотел найти.

Например, вы ввели в поисковую систему запрос «скачать музыку». А поисковик вам выдает сайты с информацией «что такое музыка». Так вот, степень соответствия того, что вы хотели получить, к тому, что вы получили, и называется релевантностью поиска. В данном случае, вы получили совсем не то, что хотели ;-), а это значит, что результаты не релевантные поисковому запросу.

Но сейчас поисковики стали достаточно умные и если вы правильно введете поисковый запрос, то, скорее всего, получите на него ответ. Сейчас для улучшения релевантности поисковики используют множество факторов. Это показатель отказов, поведения пользователя на сайте, количество внешних и внутренних ссылок, плотность ключевых слов и т. д.

Если сеошнику получиться обмануть поисковою систему, и вывести в ТОП статью, в которой нет ответа на запрос посетителя, то через несколько дней эта статья будет понижена в выдаче. Поэтому, я всегда говорил, и буду говорить, что самое главное – это написать интересную статью, которая будет решать проблему посетителя, а уже потом, как дополнения, можно использовать и различные seo-методы продвижения. Советую также прочитать статью о том, что такое SEO, SMO и SMM.


Что такое релевантность поиска, думаю, вы поняли, ничего сложного там нет. Теперь давайте поговорим, что такое релевантность страницы или другими словами ее еще называют, техническая релевантность.

Релевантность страниц сайта – это пропорция ключевых слов, содержащихся в тексте или мета-тегах и делающих ее соответствующей поисковым запросам.

Другими словами, чем чаще ключевое слово будет встречаться в тексте и других важных тегах, тем страница будет технически больше релевантная этому запросу.

Но это не значит, что если вставлять ключевое слово в каждом предложении, то статья обязательно выйдет в ТОП ;-). Ключевые фразы нужно вставлять в статью так, чтобы посетителю было приятно ее читать. Если поисковый запрос будет встречаться в каждом предложении, то человек не будет читать такую статью, и таким образом увеличиться показатель отказов этой страницы и соответственно она опуститься вниз. Кроме того, за такой спам ключевыми словами можно получить санкции от поисковиков.

В любом случаи, если вы пишите статью под определеннее ключевое слово, то нужно всегда делать хорошую релевантность этой статьи (желательно 100%). Для этого необходимо придерживаться всего нескольких правил поисковой оптимизации. На самом деле этих правил есть очень много, но сейчас я вам расскажу основные.

1. Ключевая фраза должна присутствовать в теге Title.


Тег Title – это заголовок для поискового робота. Для того, чтобы его сделать, нужно установить плагин All in one seo Pack и делать заголовок записи. О нем, я уже писал в статье «Что такое сниппет и как его сделать для Яндекса и Гугла?» Желательно, чтобы ключевая фраза была в начале заголовка.

2. Поисковый запрос должен быть в заголовке h2.
Это заголовок для посетителя, но он также имеет большой вес. Для примера, заголовок h2 этой статьи вы можете увидеть в самом верху страницы, и звучит он так: «Что такое релевантность страниц сайта? Как сделать релевантность страницы 100%»

Заголовок h2 также должен заинтересовать посетителя, чтобы он захотел прочитать статью до конца. Если вы придумали интересный заголовок, в котором ввели ключевое слово, то можете его прописать в тег Title и h2 одновременно.

3. Ключевая фраза должна присутствовать в основном содержимом статьи.
Многие спрашивают, сколько раз вводить поисковый запрос в статью? Чтобы узнать ответ на этот вопрос, нужно ввести ключевое слово в поисковую систему Яндекс и Гугл. Потом найти сайт, который вышел в топ сразу в два поисковики, и посмотреть сколько раз, на этой странице, присутствует этот запрос. В любом случаи, меньше 2-х раз я бы не советовал вводить :smile:.

Для того, чтобы сделать хорошую плотность ключевых слов на странице, желательно также вводить запрос в каком-нибудь склонении. Если запрос «купить ноутбук в Москве», то можно ввести: «купить хороший ноутбук в Москве», «купить дешево ноутбук в Москве» и т. д.

И еще один совет, старайтесь вводить ключевые слова ближе к началу статьи и в конце. Также можно выделить запрос жирным (тег strong).

4. Ключевая фраза в url.


Для того, чтобы ввести ключевое слове в url страницы, вам сначала нужно настроить ЧПУ. Для этого советую прочитать статью: «Настройка постоянных ссылок (ЧПУ) в WordPress при помощи плагина RusToLat». Там также вы узнаете, как правильно вводить ключевые фразы в название страницы.

5. Ключевая фраза в теге ALT и Title изображений.
Когда вы публикуете какое-нибудь изображения, то к нему есть возможность прописать заголовок (Title) и тег ALT (альтернативный текст). Старайтесь там прописывать ключевые слова. Кстати, в url картинки также можно ввести поисковый запрос :smile:.

6. Ключевая фраза в подзаголовках ( h3, h4, Н4, H5, H6).
Наибольший вес имеет подзаголовок h3, потом h4 и так далее. Старайтесь делать заголовки только там, где это действительно нужно, а не просто так, чтобы ввести ключевое слово. Если вы придержались всех 5 правил, которые я описал выше, то прописывать ключевые фразы в заголовки я бы уже не советовал, поскольку поисковики это могут расценить как спам. А если хотите сделать, то хотя бы в склонении :smile:.

7. Внутренние ссылки.
Для того, чтобы указать поисковому роботу, что страница хорошо релевантная какому-нибудь поисковому запросу, нужно ссылаться с других страниц на эту и в текст ссылки прописывать этот поисковый запрос. Чем больше ссылок будет стоять с других внутренних страниц на продвигаемую, тем больший вес она получит и тем быстрее выйдет в топ.

8. Внешние ссылки.
Внешние ссылки также играют большую роль в продвижении сайта. Но здесь не все так просто. Для покупки ссылок нужно найти хорошие сайты и делать разные анкоры. Поисковые системы против покупки ссылок и если они поймут, что вы их обманываете, то будет очень плохо. На ресурс могут быть наложены различные санкции. Другими словами, покупка внешних ссылок – это тема отдельной статьи, которую я обязательно еще напишу. Не пропустите.

Как проверить релевантность страницы

Для определения релевантности в интернете есть очень много сервисов. Но, я, например, проверяю релевантность на megaindex.ru. Этот сервис указывает, что нужно сделать, чтобы улучшить релевантность страницы.

Для начала вам нужно зарегистрироваться. После регистрации перейдите в аудит сайта и наведите курсор мыши на меню «Еще» и с выпадающего списка выберите «релевантность страницы». (кликабельно)


Потом нужно ввести запрос, ссылку на страницу и нажать на кнопку «Проверить».

После этого можете посмотреть, какой процент релевантности на вашей странице и почитать рекомендации как его улучшить.

На этом у меня все. Хотел только написать, что такое релевантность сайта, а получилось намного больше :smile:. Но ничего страшного, поисковые системы любят, если на странице много текста ;-).

Релевантность текста запросам

Что такое релевантность страниц сайта? Существует два самых важных параметра, по которым роботы ПС определяют, релевантна ли (то есть, соответствует или нет) страница сайта запросам пользователей:

  1. Наличие слов из запрашиваемой в поиске фразы и их плотность в документе.

Если вы введете в поисковую строку запрос «купить телефон», то в выдаче не увидите текста, в котором нет такого словосочетания. Как, впрочем, не увидите и сайта, в материалах которого слова из запроса встречаются слишком редко. По крайней мере, такой web-сайт не будет ранжироваться высоко.

Важно соблюдать оптимальную плотность слов в тексте. Вхождений запроса должно быть достаточно для того, чтобы страница была определена поисковиком как релевантная, и не слишком много, чтобы роботы не восприняли её как поисковый спам и не отправили сайт под фильтр. Считается, что частота использования ключевого слова должна составлять минимум 3% и максимум 5% от общего количества слов в тексте. Как определить золотую середину? Писать «для людей» – в первую очередь. Если текст понравится людям, он понравится и машинам.

Чтобы текст был релевантен запросу, вписывайте ключевое слово в заголовок статьи и обязательно – в тайтл и дескрипшин (см. урок «Title и мета-данные»), употребляйте запрос в различных формах, используйте синонимы. 

  2.  Поведение пользователей, которые переходят из поиска на сайт.

Если они сразу же возвращаются в поисковик и продолжают искать нужную информацию, значит, «отвергнутый» ими ресурс не содержит полезных данных. В соответствии с заданными алгоритмами ранжирования, робот-поисковик решит, что веб-страница не релевантна запросу, и её позиции в списке результатов поиска нужно понизить.

SEO-тексты – это не только оптимизация под запросы

Опытный SEO-копирайтер умеет не только виртуозно вписывать сложные «ключи» в свои статьи. Он способен создавать действительно релевантные поисковым запросам тексты – интересные, информативные, в которых всё –  «строго по теме». Тексты, которые будут отвечать на вопросы потенциальных покупателей, и приносить хорошую прибыль владельцу сайта. Качественные продающие seo-статьи стоят дорого именно потому, что они способны зарабатывать!

Вы встречали когда-нибудь в Сети сайт (не новостной портал, а коммерческий ресурс), на котором один раздел посвящен, например, установке пластиковых окон, второй – продаже бытовой техники, а третий, допустим, – недвижимости? Конечно, нет! Даже если и существует такое веб-чудо, оно почивает на задворках поисковой выдачи, потому что тематику подобного сайта поисковикам определить очень нелегко.

Такой же принцип применим и к статьям. Если в тексте о покупке телефонов много не относящейся к теме информации, ему будет не суждено попасть на высокие позиции в выдаче поиска. Поэтому берите в работу только те заказы, в тематике которых разбираетесь, а при написании текстов избегайте отклонений от темы. Поставьте себя на место потенциального читателя: что он может искать, введя тот или иной запрос? Если вам удастся понять, что его интересует, вы сможете написать действительно полезную и релевантную статью.

Как сделать текст релевантным запросу? Резюме

  1. Используйте ключевые слова в title, description и в заголовках.
  2. Соблюдайте оптимальную плотность заданных «ключей». 
  3. Строго придерживайтесь темы, которая определена ключевыми фразами.
  4. Пишите интересные и полезные для потенциальных читателей тексты.

Подробнее о плотности ключевых слов и о том, почему важно создавать полезные людям тексты, вы узнаете из других уроков курса.

Релевантность — что это

Релевантность – что же это такое? Прежде всего давайте разберем понятие – релевантность. По сути релевантность – это уровень соответствия, даже не уровень, а степень, когда я говорю о релевантности страницы, я имею ввиду степень ее соответствия конкретному поисковому запросу.

К примеру, мы вводим в поисковике запрос «внешняя оптимизация сайта», после чего ПС выдала нам страницы содержащие информацию о том, как и что, делать с сайтом для эффективной его раскрутки. Это и есть релевантные страницы, те страницы, которые соответствуют вашему запросу. Алгоритмы поисковых систем разработаны таким образом, что обрабатывая сайт они выдают пользователю, наиболее соответствующую страницу этого сайт, введенному им запросу (если такая вообще есть).

Так же следует добавить, что релевантность поиска, зависит не только от поисковой системы. Непосредственное влияние оказывают юзеры, которые вводят поисковые запросы. К примеру, о чем может сказать ключ «оптимизация»? Для такого запроса, какая из страниц наиболее релевантная? Лично я не могу понять что хочет человек в данном случаи. Может его интересует информация о том, как самому оптимизировать сайт, может он просто хочет узнать о том, что это такое, а может он хочет заказать услугу. В общем тут может быть целая куча всяческих вариантов. Какие из сайтов будут наиболее релевантные данному запросу? Сайты в которых содержится полностью вся информация по заданной теме либо сайты имеющие наибольшее количество ссылающихся на себя анкоров ссылок со словом «оптимизация».

Релевантные ссылки

Релевантные ссылки, это такие ссылки, которые содержат анкор сходный по содержанию страницы сайта на которую и ведет ссылка. Говоря о нашем примере, ссылка имеющая анкор «оптимизация» ведущая к нам на сайт и будет релевантной. А вот ссылка к примеру «оптимизация и раскрутка сайтов», не совсем релевантная.

Тематические ссылки

Тематические ссылки – это ссылки, которые ведут с сайтов доноров на наш и схожи по тематике. То есть, наш сайт об «внутренней оптимизации», и ссылка на нас будет идти с схожего по тематике сайта, допустим о «раскрутке и продвижении сайтов». А если у этой ссылки будет еще и анкор «оптимизация», то такая ссылка будет тематическая релевантная. Такая ссылка передает очень хороший тематический вес (ссылка будет работать очень хорошо). Около тематической ссылкой будет та, которая будет вести на наш сайт с тем же анкором, но уже с сайта предлагающего заказать услугу. Эта ссылка так же передаст нам неплохой вес.

Количество тематических релевантных ссылок

Наверное исходя из заголовка, вы уже сами догадались, что чем большее количество будет тематических релевантных ссылок, тем большая релевантность будет у нашего сайта по запросу «внутренняя оптимизация». Соответственно и наши шансы попасть в первые ряды поисковой выдачи значительно увеличиваются.

Если бы оно все было бы так просто, то было бы просто замечательно. В реальности, все куда сложнее. По каким алгоритмам работают поисковые системы, не знает ни кто, кроме их разработчиков. Все что нам остается, это только проводить эксперименты, наблюдать за тем, что из этого получиться и делать выводы. Скорее всего, если на продвигаемый нами сайт будут идти ссылки содержащие абсолютно одинаковые анкоры, это вызовет подозрение в глазах поисковиков. На самом деле, так оно и есть, при чем это проверенно. 

Что такое релевантность поиска? | Синеква

Релевантность поиска определяет, насколько близко результаты поиска соотносятся с запросом пользователя. Когда пользователь вводит поиск, это означает, что он ищет ответы. Результаты поиска, которые лучше соответствуют тому, что пользователь надеется найти, являются более релевантными и должны отображаться выше на странице результатов.

В последние годы передовые поисковые системы в Интернете, такие как Google, повысили ожидания пользователей. Когда пользователи вводят запрос, они ожидают качественного взаимодействия с пользователем (UX).Они хотят, чтобы результаты поиска были точными, а также очень релевантными их запросу.

Но сегодня многим корпоративным поисковым платформам не хватает способности понимать намерения пользователя и предоставлять релевантные результаты поиска.

Чем отличается релевантность корпоративного поиска?

Корпоративный поиск заметно отличается от поиска в Интернете. Например, в то время как Интернет в основном состоит из легкодоступных страниц HTML, видео или PDF, корпоративный поиск должен иметь дело с сотнями различных типов контента, разбросанных по разным репозиториям.

В следующей таблице проводится параллель между поиском в Интернете и корпоративным поиском с точки зрения чистой оптимизации релевантности:

В поисковой системе предприятия релевантность — это больше, чем порядок ответов или то, насколько хорошо они соответствуют запросу. Важно то, насколько хорошо опыт поиска помогает пользователю достичь цели или задачи. Релевантные корпоративные поисковые системы — это те, которые способствуют внедрению инноваций, повышению производительности, улучшению обслуживания клиентов и содействию принятию решений.

Почему релевантность поиска важна?

Результаты поиска с более высоким показателем релевантности приводят к более удовлетворенным и заинтересованным пользователям. Пользователи, которые могут быстро найти нужную им информацию, с большей вероятностью сделают следующий шаг и будут регулярно повторять поиск. В зависимости от аудитории это может означать превращение потенциальных клиентов в клиентов, членов команды, выполняющих рабочие задания, или руководителей, принимающих критически важные решения.

Многие факторы могут привести к тому, что пользователи увидят результаты, не связанные с их запросом, и затруднить получение необходимых им ответов. Разочарованные пользователи с большей вероятностью воспользуются другим каналом для поиска нужной информации, даже если это займет больше времени. Вот почему релевантность поиска является такой важной частью пользовательского опыта корпоративной поисковой системы (UX).

Какие факторы влияют на оптимизацию релевантности поиска?

Для предоставления высокорелевантных результатов и избежания разочарования пользователей необходимо представлять результаты поиска в наиболее удобном порядке.Но полезность может различаться между пользователями и их профессиональным положением.

Ранжирование результатов поиска, чтобы сделать их релевантными определенному запросу, — сложный процесс. Это потому, что алгоритмы релевантности настраиваются с помощью многих переменных, которые часто меняются в соответствии с ожиданиями.

Запросы часто могут быть неоднозначными, поскольку намерение пользователя может быть неочевидным. Без дополнительного контекста может быть трудно понять, какие именно ответы они ищут.

Например, разные пользователи могут сформулировать один и тот же запрос по-разному. С другой стороны, разные пользователи могут вводить один и тот же запрос, даже если они ищут разные результаты. С одним и тем же запросом один пользователь мог только попытаться получить данный документ, в то время как второй пользователь ищет очень точный ответ, а третий ищет общий обзор заданной темы.

Вот почему на показатель релевантности может влиять ряд факторов, таких как:

  • Общий статистический алгоритм, позволяющий попытаться извлечь в лучшем случае термины запроса, который сам по себе состоит из нескольких переменных, которые оптимизируют ранжирование с помощью таких показателей, как частота терминов (TF) и количество документов, содержащих сам термин (IDF).
  • Возможности понимания естественного языка (NLU), чтобы обеспечить более гибкое сопоставление условий поиска и слов документа, а также лучшее управление вариантами поиска. Возможности NLU сильно зависят от языка пользователя.
  • Персонализация, включая прошлые пользовательские настройки, историю поиска, поведение в Интернете или индивидуальное местоположение.
  • Условия поиска, близкие друг к другу в документе.
  • Синонимов и вариантов слов со схожими значениями.
  • Орфографическая коррекция слов с ошибками или вариантов написания между пользователями из США и Великобритании.
  • Фонетическое написание других терминов с похожим произношением.
  • Более свежие документы, более важные части документов или более важные источники данных в соответствии с бизнес-правилами.
  • Повышение или понижение оценок пользователей для определенных документов или результатов.
  • и многие другие факторы релевантности, которые зависят от ожидаемого решения корпоративной поисковой системы.

Задача состоит в том, чтобы найти наилучшую комбинацию факторов, чтобы максимизировать шансы предоставить пользователю наилучшие возможности поиска, не зная ничего о его текущем намерении запроса.

Об измерении релевантности поиска и оптимизации

Релевантность — это не только сложная, но и серая зона.То, что актуально для одного человека, может не иметь отношения к другому (подумайте о разных интересах кого-то в юриспруденции и кого-то в исследованиях). Запросы могут быть сформулированы по-разному, и нюансы формулировки запросов могут привести к различиям в результатах. Из-за субъективности пользователей, множества потребностей и ожиданий и даже индексируемых данных для него не существует такого понятия, как абсолютное значение.

Релевантность трудно точно измерить, и ее нельзя сравнивать между различными системами.Только динамика вашего индикатора (индикаторов) поможет вам понять, когда ваша система улучшится, а когда нет.

Хотя поиск в Интернете регулярно совершенствуется, вы все хотите, чтобы ваши пользователи поисковой системы предприятия были счастливее, чтобы ваш поиск был лучше, а ваша релевантность была выше, но как мы определяем, что система улучшается?

Суть в том, что не существует метода абсолютной оценки релевантности поиска. Но хотя релевантность часто субъективна, со временем ее можно улучшить с помощью явных или неявных отзывов пользователей.

В следующей статье мы расскажем, как можно измерить релевантность поиска и как проект внедрения корпоративной поисковой системы при правильном управлении позволит определить, оценить и улучшить релевантность поиска.

Как BERT определяет релевантность поиска | Тодд Кук

Понимание ограничений и предубеждений BERT поможет вам лучше понять, как BERT и Поиск смотрят на мир и ваш контент.

25 октября 2019 года Панду Наяк, вице-президент по поиску в Google, объявил:

, применяя модели BERT как к рейтингу, так и к избранным фрагментам в поиске, мы можем гораздо лучше работать, помогая вам находить полезную информацию. .На самом деле, когда дело доходит до результатов ранжирования, BERT поможет Поиску лучше понимать один из 10 поисковых запросов в США на английском языке, и со временем мы перенесем это на большее количество языков и регионов. [1]

Замечания и пояснения Google вызывают некоторые ключевые вопросы:

  • Насколько лучше BERT, чем предыдущие усилия по релевантности поиска?
  • Как создаются модели BERT? Как они точно настроены?
  • Каковы ограничения и погрешности моделей BERT?
  • Как эти предубеждения могут повлиять на то, как BERT видит содержимое веб-страницы?
  • Может ли человек использовать BERT, чтобы определить, насколько хорошо его контент будет работать для определенного запроса?
  • Как «применить модель BERT» к запросу и возможным целевым страницам, чтобы получить ранжирование?

Насколько лучше BERT, чем усилия по релевантности предыдущего поиска?

В 2015 году компания Crowdflower (теперь Appen ← Figure-Eight ← Crowdflower) провела соревнование Kaggle [2], в ходе которого специалисты по данным создавали модели для прогнозирования релевантности результатов поиска по запросу, названию продукта и описанию продукта.Победитель, ChenglongChen, получил 10 000 долларов, когда его лучшая модель заняла первое место, набрав 72,189% [3]. Несмотря на то, что соревнование было закрыто в течение пяти лет, набор данных все еще доступен, а функция подсчета очков соревнования Kaggle по-прежнему работает для частной таблицы лидеров (она просто не начисляет очки сайта). Я извлек данные, точно настроил модель классификации BERT, предсказал отправку, и результат составил 77,327% [4].

(Изображение автора)

Этот победный результат, хотя и с опозданием на несколько лет, показывает, как BERT резко продвинулся вперед по сравнению с предшествующим уровнем техники.Победитель конкурса использовал ансамбль из 12 (!) моделей машинного обучения, чтобы проголосовать за лучший результат:

(Изображение Chenglong Chen [3])

Напротив, в моем более высоком результате использовалась одна модель BERT и относительно простой конвейер:

(Изображение автора)

Для моей первой модели (и последней модели) характеристика заключалась в том, чтобы «просто взять первые 505 токенов» по ​​трем элементам данных (запрос, название продукта, описание продукта) — без какой-либо специальной обработки — и они результаты, которые вы видите. В этой статье мы рассмотрим, как и почему BERT может хорошо работать с ужасными и грязными входными данными позже в этой статье.

Набор данных Kaggle Crowdflower Search Relevance содержит 20 571 помеченный образец, а для создания отправки требуются прогнозы по 22 513 тестовым образцам. Хотя это небольшой объем данных, а домен ограничен продуктами электронной коммерции — данными, на которых база BERT не обучалась — классификатор BERT, тем не менее, смог начать обучение и прогнозирование с новаторской точностью.

Как создаются модели BERT? Как они точно настроены?

BERT — это аббревиатура от двунаправленных представлений кодировщика от Transformers [5] и языковая модель.Языковая модель кодирует слова и логарифм вероятностей слов, встречающихся вместе. Первоначальные модели BERT сделали это, обучаясь на английской Википедии и Торонто Книжном корпусе. Целями обучения были предсказание следующего предложения и предсказание замаскированного слова.
Следующая задача предложения выбирает несколько соседних предложений и присваивает им положительный вес; а затем выбирает несколько случайных предложений и присваивает им отрицательные веса: таким образом, модель BERT учится определять, встречались ли два предложения последовательно или нет.Многие люди предполагают, что это дает BERT основу для некоторого понимания естественного языка (NLU), которое отображает модель. На практике кажется, что BERT знает, какие слова и предложения сочетаются друг с другом.
Задание с замаскированным словом случайным образом скрывает слово и вознаграждает BERT за способность предсказать пропущенное слово. Эта задача в сочетании с отсевом сети позволяет BERT научиться выводить более широкий контекст из окружающих слов.
На практике BERT обычно используется в качестве базового уровня для более сложной модели; например, обычно добавляется дополнительный последний слой, а затем новый слой настраивается для работы в качестве классификатора.

Я не буду здесь объяснять механику модели трансформера, читайте об этом здесь [5]. Детали лучших методов тонкой настройки все еще разрабатываются (судя по количеству опубликованных статей Arxiv), и хотя настройка гиперпараметров зависит от ваших данных, дальнейшие исследования, безусловно, будут полезными. Однако прежде чем мы перейдем к деталям, давайте не упустим главное: когда новая модель с неоптимальной настройкой гиперпараметров значительно превосходит предыдущую, поисковые компании перенимают ее.Идеальное — враг хорошего. А иногда новый , достаточно хороший , настолько хорош, что компании немедленно принимают его как стратегическое преимущество, даже если оптимальный режим тонкой настройки публично не определен.

Чтобы понять, почему BERT так хорошо предсказывает релевантность поиска, нам нужно изучить некоторые его внутренности, ограничения и предубеждения.

Каковы ограничения и погрешности моделей BERT?

1. Ограничение в 512 токенов ~ слов

Базовая модель BERT принимает максимум 512 токенов.Хотя можно построить модель BERT с меньшим количеством токенов, например. 256 токенов для твитов — или определить и обучить модель BERT с нуля, например. с 1024 маркерами для больших документов базовый уровень составляет 512 практически для всех общедоступных моделей BERT.

Если ваша страница длиннее 512 токенов или слов, поисковые системы могут:

  • Просто взять первые 512 токенов
    — если ваша страница не соответствует первым 512 токенам, поисковая система может ее даже не увидеть (вероятно, уже верно).
  • Сократите содержание вашей страницы до менее чем 512 токенов с помощью алгоритмов суммирования (TextRank, Deep Learning и т. д.) или применяя алгоритмы для исключения неважных слов и предложений — но эти вычисления являются дорогостоящими, поэтому они могут не выполняться для большинства страниц.

Примечание. Хотя мы говорим о 512 токенах/словах, на практике BERT обычно просматривает 505 токенов (при условии, что запрос состоит из 4 слов с требуемыми разделителями из 3 токенов BERT). На практике количество токенов вашего контента, рассматриваемых алгоритмом поиска, может быть намного меньше 505, как мы увидим.

2. Не все слова являются лексемами: многие общеупотребительные слова становятся одиночными лексемами; но более длинные и незнакомые слова разбиваются на части.

Хорошей иллюстрацией этого могут служить некоторые слова, которые имеют различия в написании между британским и американским вариантами английского языка. Иногда токенизация подслов может быть довольно дорогостоящей:

bert_tokenizer.tokenize(‘пижамы’), bert_tokenizer.tokenize(‘пижамы’)
[‘p’, ‘##y’, ‘##ja’, ‘## mas’], [‘пижама’]

bert_tokenizer.tokenize(‘усы’), bert_tokenizer.tokenize(‘усы’)
[‘mo’, ‘##ust’, ‘##ache’], [‘усы’]

Иногда разницы нет:

[‘цвет’], [‘цвет’]

, но часто менее знакомые варианты написания дают несколько токенов:

[‘аэро’, ‘##самолет’], [‘самолет’]
[‘ars ‘, ‘##e’], [‘ass’]
[‘jem’, ‘##my’], [‘jimmy’]
[‘ориентация’, ‘##ated’], [‘ориентация’]
[‘особенность’, ‘##ity’], [‘специальность’]

Редко, но иногда вариант британского правописания становится токенизированным с меньшим количеством токенов:

[‘potter’], [‘put’, ‘##тер’]

3.Прямые орфографические ошибки неявно наказываются:

bert_tokenizer.tokenize(‘анти-истеблишмент’)
[‘анти’, ‘-‘, ‘истеблишмент’]

bert_tokenizer.tokenize(‘анти-истеблишмент’)
[‘анти’ , ‘-‘, ‘est’, ‘##ab’, ‘##lism’, ‘##ent’]

Хотя эти штрафы могут показаться шокирующими, на самом деле они показывают, насколько прощающим является BERT; модель будет пытаться понять практически все, что вы ей даете, вместо того, чтобы отбрасывать слова с ошибками или игнорировать то, чего она раньше не видела.Кроме того, эти предубеждения не являются заговором против вариантов правописания британского языка, а скорее побочным эффектом обучающих данных: модель BERT и ее токенизатор BERT обычно имеют ограниченный словарный запас (обычно 30 000 слов, 90 122, включая 90 123 подэлемента), тщательно подобранный таким образом, чтобы практически любое слово может быть закодировано, и многие из наиболее распространенных слов представлены в виде отдельных токенов. Этот конкурс популярности слов и токенов основан на исходных обучающих данных. Первоначальные модели BERT были обучены на английской Википедии и некоторых дополнительных текстах из Toronto BookCorpus (11 038 книг, 47 004 228 предложений).Очевидно, что вариации британского правописания в этом корпусе не преобладали.

Если вы анализируете документы с вариантами правописания британского английского, вероятно, было бы полезно нормализовать правописание перед их подачей в модель BERT. Хорошо обученная модель может делать обобщения о вещах, которых она раньше не видела или на которых была обучена лишь частично, но наилучшая производительность модели достигается при использовании знакомых данных.

Со многими другими языковыми моделями и векторами слов легко определить, является ли слово новым и обучена ли языковая модель на нем, и у этих типов слов есть свой собственный термин: OOV, вне словарного запаса .Но нелегко определить, видел ли BERT слово или обучался ли он с ним повторно, поскольку очень многие слова разбиты на подлексемы. Но эта незначительная слабость является источником большой силы: на практике BERT может синтезировать значение слова на основе истории и понимания похожих соседних токенов.

4. BERT игнорирует некоторые элементы. Категорически смайлики неизвестны BERT.
— обычно BERT обозначает смайлики как неизвестные (буквально «[UNK]»), и если они не удаляются при сжатии вашей страницы, они не добавляют никакой ценности, когда модель их видит.

toker.tokenize(‘😍 🐶 ❤️’)
[‘[UNK]’, ‘[UNK]’, ‘[UNK]’]

Как эти предубеждения могут повлиять на то, как BERT видит содержимое веб-страницы?

По существу, поскольку модели BERT принимают ограниченное количество токенов (обычно < 505), если на вашей странице используются необычные слова или необычные варианты написания, содержимое вашей страницы будет разделено на большее количество токенов, и, по сути, модель BERT закончится видеть меньше вашей страницы, чем аналогичную страницу, которая использует более распространенные слова и популярные варианты написания.

Это не означает, что вы должны стремиться создавать страницы, точно имитирующие стиль Википедии. В течение долгого времени поисковые системы отдавали предпочтение статьям с общим обращением, использующим общие слова и стандартизированные варианты написания, написанным больше похожими на новости или статьи в Википедии, чем на бесцельное блуждание словоблудия. Так что в некотором смысле использование BERT изначально поддерживает лучшие практики написания контента для поисковых систем.

Почему BERT так хорошо предсказывает результаты поиска?

По сути, обе цели обучения BERT работают вместе: маскирование слов помогает BERT создать контекст для понимания, а предсказание следующего предложения, ну, — не является ли проблема релевантности содержания часто вопросом определения того, насколько хорошо один поисковый запрос «предложение ” в паре с одним результатом поиска “предложение”?

Мы уже видели, как BERT может синтезировать значения из токенов подслов и соседних слов.Этот навык дает BERT преимущество, поскольку 15% поисковых запросов содержат слова, которые никогда раньше не встречались [1]. BERT — это естественный предиктор значения неизвестных терминов, необходимый для определения релевантности поиска.

Может ли человек использовать BERT, чтобы определить, насколько хорошо его контент будет работать для определенного запроса?

Короче говоря, вряд ли; чтобы понять почему, давайте подробно рассмотрим, как BERT, вероятно, используется для оценки соответствия запроса и страницы. На высоком уровне, чтобы ответить на этот вопрос, они могут выбрать несколько страниц для проверки и выполнить ваш запрос на этих страницах, чтобы предсказать релевантность.

(Изображение автора)

Большинство поисковых запросов состоят из четырех или менее слов, а большинство сводок страниц содержат менее пятисот пяти слов (иначе это не так уж и много). Показатели релевантности поиска обычно делятся на: 1. не по теме, 2. нормально, 3. хорошо и 4. отлично. [2]

Когда инженеры машинного обучения строят модель для оценки того, насколько хорошо запрос соответствует результатам поиска, обычно они тренируются на примерно 1 миллионе примеров. Почему так много? Модель глубокого обучения нуждается в большом количестве данных, чтобы иметь возможность хорошо обобщать и предсказывать то, чего она раньше не видела.Если вы пытаетесь создать универсальную поисковую систему общего назначения, вам потребуется много данных. Однако, если ваше пространство поиска меньше, например, только технологии электронной коммерции или только продукты веб-сайта по благоустройству дома и т. д., то может потребоваться всего несколько тысяч помеченных образцов, чтобы превзойти предыдущий уровень техники. Необычные данные являются постоянным компонентом поисковых запросов:

15 процентов этих запросов — это запросы, которых мы раньше не видели
— Панду Наяк, вице-президент по поиску, Google

Конечно, миллион помеченных образцов, скорее всего, даст отличные результаты.

Как «применить модель BERT» для запроса и возможной целевой страницы, чтобы получить ранжирование?

Данные о соревнованиях Kaggle Crowdflower дают интересные подсказки о том, как дополнительные данные часто используются на практике. Как правило, в модель добавляются дополнительные функции, когда они доступны, чтобы сделать ее более гибкой и иметь возможность прогнозировать различные входные данные.
Например, ранее мы сформулировали проблему ранжирования поиска как:

(Изображение автора)

Но в данных запроса отправки Kaggle дополнительная информация доступна или иногда отсутствует, поэтому функции будут отформатированы как:

(Изображение автора) )

В некоторых тестовых случаях предоставляется только запрос и название продукта, а в реальных ситуациях может быть предоставлено мало содержимого страницы или вообще не предоставлено.
Например, если у вашей компании есть страница продукта «Sony PS6 — Founders Edition» и эта страница содержит динамический контент, такой как недавние твиты или отзывы покупателей, изображения пользователей и т. д., вполне возможно, что поисковая система может использовать только заголовок страницы. (или некоторый тип метаданных о странице) и, по сути, ничего из содержимого страницы. Урок ясен: при предоставлении веб-контента важно в первую очередь сосредоточиться на релевантной информации, которая точно отражает ваш продукт и контент.

BERT никуда не денется, и его влияние на релевантность поиска будет только возрастать. Любая компания, предоставляющая поиск своим клиентам или внутренним клиентам, может использовать BERT для повышения релевантности своих результатов. Имея очень мало данных, классификатор BERT может превзойти предыдущий уровень техники, а большее количество данных поможет получить лучшие результаты и более стабильную производительность. [1] https://blog.google/products/search/search-language-understanding-bert
[2] Релевантность результатов поиска Kaggle Crowdflower Crowdflower Kaggle
[4]
ML-You-Can-Use: поиск — релевантность результатов поиска с использованием BERT
[5]
BERT: предварительное обучение глубоких двунаправленных преобразователей для понимания языка Zhan Shi за рецензирование и комментарии к проекту этой статьи.)

Релевантность Руководство по настройке, веса и усиления | Elastic App Search Documentation [8.1]

По умолчанию App Search обеспечивает качественную релевантность поиска.

Поиск приложений, созданный на основе Elasticsearch, представляет собой управляемую, искусно созданную квинтэссенцию лучших моментов.

Предоставляет инструменты, помогающие вам дополнительно настроить процесс поиска, чтобы оптимизировать его для ваших собственных нужд.

Настройка релевантности состоит из двух основных компонентов: Грузы и Усилители .

Прежде чем мы приступим к ним, мы совершим небольшое погружение в основы полей.

Когда документы появляются в Engine, они появляются вместе со схемой.

Схема принимает все поля документа и определяет соответствующий тип.

Демонстрационный движок национальных парков имеет следующую схему:

 {
  "описание": "текст",
  "nps_link": "текст",
  "состояния": "текст",
  "название": "текст",
  "посетители": "число",
  "world_heritage_site": "текст",
  "местоположение": "геолокация",
  "акров": "число",
  "square_km": "число",
  "дата_установлен": "дата"
} 

Ваши поля будут другими, но их тип будет одним из: текст , номер , геолокация и дата .

Настройка релевантности изменяет способ взвешивания полей по отношению друг к другу или повышение релевантности при заданном значении в пределах поля.

Примечание. Для настройки релевантности необходимо иметь как минимум два поля схемы.

Добавьте документы с несколькими полями или добавьте дополнительные поля схемы с помощью панели управления или API, чтобы решить эту проблему.

Каждое поле имеет возможный вес от 0 до 10, где 10 — самый существенный вес.

Без возможности настройки веса поля вы бы столкнулись с такими неудобными ситуациями:

У вас есть одно приложение под названием Magicapp…

 {
   "название": "MagicApp",
   "subtitle": "Самое волшебное приложение из всех",
   "description": "Оригинальное волшебное приложение, с которого все началось."
 } 

… И еще один под названием Mysticapp:

 {
   "title": "Mysticapp",
   "subtitle": "Приложение, похожее на Magicapp",
   "description": "Аналогично Magicapp, но улучшено во многих областях."
 } 

Если бы кто-нибудь воспользовался нашей поисковой системой для поиска «magicapp», что бы он нашел?

Если бы все поля были равны, Mysticapp был бы первым результатом: имя Magicapp присутствует дважды в двух разных полях. Это не идеально.

Мы хотим, чтобы люди находили приложение, которое они ищут, , поэтому нам нужно расставить приоритеты в поле title .

Мы можем увеличить его вес, чтобы он был более эффективным, чем поля подзаголовка и описания .

Если бы титул имел больший вес, люди нашли бы Magicapp раньше, чем Mysticapp  —  как и должно быть, оно самое лучшее и оригинальное!

Есть два разных способа настроить вес: через панель инструментов или через API поиска.

Вес через Dashboardedit

В вашем движке нажмите Настройка релевантности .

В начальном представлении все поля вашей схемы будут отображаться с их весом по умолчанию:

Настройка релевантности, веса — Все поля вашей схемы.

Рядом с полями нашей схемы находится тестер запросов.

Мы хотим, чтобы люди, которые ищут горы, нашли парк, известный великолепием своих гор.

Итак, мы будем использовать «горы» в качестве ссылочного запроса.

Настройка релевантности, веса — В строке поиска справа мы можем тестировать запросы. Запрос «горы» возвращает довольно релевантные результаты.

Результаты, которые мы видим, включают парки, содержащие горы.

Термин присутствует в одном из текстовых полей результата: title или description , скорее всего.

Наши результаты могли бы быть более точными…

Естественно, национальные парки, которые включают термин «горы» в название , имеют красивые горные хребты.

Мы должны настроить вес поля title .

При этом результаты нашего эталонного запроса будут сдвигаться в реальном времени .

Настройка релевантности, веса — Настройка веса поля «название». Вес теперь равен «3», и мы видим более релевантные результаты в нашем примере запроса «горы».

Поле, которое мы настроили, title , теперь выделено полужирным шрифтом и отмечено значком веса.

Два наших парка выпали из тройки лучших результатов, и общий набор результатов теперь отражает более релевантные парки для тех, кто ищет «горы».

Как только мы нажмем Сохранить , изменение вступит в силу.

Веса применяются во время запроса.

В конечной точке API /search значение веса может передаваться в объекте search_fields при каждом поиске.

Объект search_field может определять поля.

В наборе результатов будут возвращены только определенные поля:

 curl -X GET '/api/as/v1/engines/national-parks-demo/search' \
-H 'Тип содержимого: приложение/json' \
-H 'Авторизация: Поиск носителя-soaewu2ye6uc45dr8mcd54v8' \
-д '{
  "поля_поиска": {
    "заглавие": {
      "вес": 10
    },
    "описание": {
      "вес": 1
    },
    "состояния": {
      "вес": 2
    }
  },
  "запрос": "горы"
}' 

В нашем примере мы просим вернуть только три поля в наших результатах: заголовок , описание и состояния .

Мы взвешиваем каждое поле: 10 , 1 и 2 соответственно.

С помощью API вы можете создать плавный поиск, используя динамические веса, когда они вам нужны.

Прочтите справочник по API Weights .

Веса применяются к полям. Boosts настраиваются поверх полей, но они применяются к значениям поля .

Есть три вида бустов:

  • Value Boost : Применяется к полям text , number и date .Повышение значения ищет конкретное значение в заданном поле. Значение может быть true , 1 или завтра . Если значение присутствует в расширенном поле, то повышается весь документ.
  • Functional Boost : Применяется только к полям номер . Вы можете повышать в зависимости от числового значения. Например, если у вас есть поле с рейтингом , вы можете гарантировать, что будут отображаться документы с высоким рейтингом.
  • Proximity Boost : Применяется к полям number и geolocation .Укажите режим или «центр», а затем улучшите результаты, учитывая их близость к этому центру. Возьмите координаты GPS от пользователя и отобразите, например, ближайшие результаты.
  • Повышение недавности : Тип повышения близости, он будет использовать поле даты в качестве центра. Если кто-то ищет концерты, вы можете увеличить документы о концертах, учитывая их близость к сейчас или любой другой дате в будущем.
Повышение

очень гибкое, предоставляя вам несколько функций, которые можно применять в зависимости от типа повышения: линейное, экспоненциальное, гауссовское и логарифмическое.

Опционально можно указать коэффициент от 0 до 10, определяющий, насколько сильным будет ваше усиление.

Используйте усиление для повышения релевантности. Повышение не может снизить релевантность результата.

Вы можете откалибровать повышения через панель инструментов или с помощью API поиска.

Перед тем, как приступить к практике, подумайте о том, чтобы изучить концепции различных функций наддува!

Концептуальный: линейный, экспоненциальный, гауссовский, логарифмический.

При бустинге в полях число , дата или геолокация необходимо определить параметр функция и фактор .

Существует четыре типа функции в зависимости от усиления: линейная, экспоненциальная, гауссова и логарифмическая.

Функция и коэффициент используются для вычисления половины повышенного показателя релевантности, известного как значение повышения.

Другая половина — партитура оригинального документа.

Они объединяются для получения общей оценки документа, которая определяет порядок набора результатов.

Вы можете указать значение операции — либо добавить , либо умножить — чтобы объединить две половины с помощью сложения или умножения:

  • Добавить: (Оценка исходного документа) + (Повышающее значение) = Общая оценка документа
  • Умножить: (Оценка исходного документа) * (Повышающее значение) = Общая оценка документа

линейный

Обеспечивает мультипликативное усиление.Умножает предоставленный вами коэффициент на значение поля, которое вы повышаете.

экспоненциальный

Обеспечивает экспоненциальное усиление. Значение в расширенных полях становится показателем степени. Основание этого показателя — число Эйлера.

Гаусс

Распределение Гаусса более известно как кривая нормального распределения.Результаты распределяются по кривой и получают вес относительно их положения. Представьте, что вы увеличиваете поле location в демонстрационном движке национальных парков. Он содержит координаты геолокации в качестве значений. Если вы ищете «старый рост», появится 10 результатов. Верхние 2 находятся в пределах верхнего процентиля, средние 6 кластеров вместе составляют центр кривой, а последние 2 составляют самый низкий процентиль. Рейтинги распределяются соответственно: 2 отличных результата, 6 обычных результатов и 2 слабых результата.

логарифмический

Логарифмическая кривая — это кривая, которая быстро поднимается по оси y, но затем медленно поднимается по оси x. Эта функция идеальна, когда вы рассматриваете что-то вроде поля оценок. Если бы у вас было поле рейтинга со значениями от 0 до 5, вы бы хотели, чтобы результат с 4 был намного на лучше, чем 2. Но вы не хотите, чтобы 4,5 был намного лучше, чем 4.4, по общему баллу.

Повышение через Dashboardedit

Нажмите на Настройка релевантности .

Настройка релевантности, веса — Щелкните Настройка релевантности и просмотрите свою схему.

Поместите эталонный запрос в тестер запросов.

Это даст нам базовый уровень, который мы можем использовать для калибровки наддува.

Мы будем использовать «старый рост».

Настройка релевантности, веса — Запрос «старого роста» в тестере запросов.

Теперь щелкните или наведите указатель мыши на кнопку Добавить усилители .

В зависимости от типа поля — номер , текст , геолокация или дата — появятся разные варианты повышения.

Мы хотим поместить Value Boost в поле world_heritage_site , которое имеет тип text .

Настройка релевантности, веса — Наведите курсор мыши или нажмите кнопку Добавить усиление , затем выберите идеальное усиление.

A Повышение значения просматривает значение поля, а затем применяет повышение с учетом того, что имеется.

Поле world_heritage_site может быть: true или false .

Мы хотим дать сайтам, которые являются объектами всемирного наследия, приоритет, поэтому мы предоставляем истинное в качестве нашего значения, а затем калибруем влияние усиления.

Настройка релевантности, веса — Было предоставлено значение true , а влияние усиления было увеличено до 4.6.

Рядом с бустом появится значок, соответствующий типу буста.

В этом случае world_heritage_site имеет значок Value Boost , а поле выделено полужирным шрифтом .

Когда мы перетаскиваем ползунок воздействия выше или ниже, мы можем видеть изменение результатов.

В результате повышения Йосемитский национальный парк стал нашим парком с самым высоким рейтингом по запросу «старый рост», поскольку он также является объектом всемирного наследия.

Как только мы нажмем Сохранить , повышение повлияет на все запросы.

Like Weights, Boosts применяются во время запроса.

Используя конечную точку /search , объект boost может передаваться вместе с каждым уникальным поиском.

Мы можем посмотреть на Value Boost :

 curl -X GET '/api/as/v1/engines/national-parks-demo/search' \
-H 'Тип содержимого: приложение/json' \
-H 'Авторизация: Поиск носителя-soaewu2ye6uc45dr8mcd54v8' \
-д '{
  "запрос": "старый рост",
  "повышает": {
    "world_heritage_site": [
      {
        "тип": "значение",
        "значение": "истина",
        "операция": "умножить",
        "коэффициент": 10
      }
    ]
  }
}' 

В нашем примере Engine, демоверсии национальных парков, мы установили усиление для поля world_heritage_site .

Поле представляет собой текстовое поле , и каждый документ имеет значение true или false .

Наш запрос увеличивает релевантность в 10 раз, когда документы содержат world_heritage_site: true .

A Proximity Boost использует возможности глубокой геолокации:

 curl -X GET '/api/as/v1/engines/national-parks-demo/search' \
-H 'Тип содержимого: приложение/json' \
-H 'Авторизация: Поиск носителя-soaewu2ye6uc45dr8mcd54v8' \
-д '{
  "запрос": "старый рост",
  "повышает": {
    "место нахождения": {
      "тип": "близость",
      "функция": "экспоненциальная",
      "центр": "25.32, -80,93",
      "фактор": 3
    }
  }
}' 

Во втором примере мы ищем старые парки.

Но мы повышаем результаты в зависимости от их местонахождения в офисе Elastic в Сан-Франциско.

Для эксперимента попробуйте указать свои собственные координаты в качестве центрального значения.

Какой «старовозрастный» национальный парк США вам ближе всего?

Прочтите справочник Boosts API .

Руководство для начинающих по релевантности поиска с помощью Elasticsearch | by Landy

Краткое изложение аналитических концепций для начала работы с оптимизацией функций поиска с помощью этого мощного механизма.

Фото Стивена Филлипса — Hostreviews.co.uk на Unsplash

Elasticsearch — распределенная, масштабируемая аналитическая поисковая система, поддерживающая сложные агрегации неструктурированных данных. Это бесплатная инфраструктура с открытым исходным кодом, построенная на Apache Lucene, библиотеке поисковой системы Java.

Надежная инкапсулированная архитектура упрощает горизонтальное масштабирование и управление различными частями системы. Подобно хранилищам данных NoSQL, основным форматом данных Elasticsearch является JSON (нотация объектов Javascript), что обеспечивает гибкое хранение данных.В этой статье я хочу обсудить, как Elasticsearch улучшает функциональность поиска.

Часто на практике мы выбираем наивную реализацию поиска, когда мы перебираем наборы данных для данных, которые соответствуют запросу пользователя. Однако итеративное решение может занять не менее O(n) времени, что не является оптимальным для больших наборов данных. По большому счету, наивное решение обычно не соответствует потребностям или ожиданиям пользователей. Теория вызывает очень общий вопрос: «Актуален ли этот документ?» К сожалению, это не исчерпывающий вопрос для получения релевантных данных.Кроме того, наивное решение может быть дорогостоящим в обслуживании, особенно когда наши данные постоянно растут.

Вам может быть интересно, как мы можем это улучшить?

Ответ: МЕТРИКА .

Релевантность поиска — это мера точности между поисковым запросом и результатами поиска. Вместо того, чтобы спрашивать: « Этот документ актуален? », мы можем спросить: « Насколько актуален этот документ?

Это зависит от двух основных показателей: Точности и Отзыва.

Напомним, что число похоже на меру количества. Мы хотим, чтобы все соответствующие документы набора данных были включены в результаты поиска.

Точность , с другой стороны, является мерой качества. Мы хотим, чтобы все данные в результатах поиска были релевантными.

Звучит похоже, так что давайте рассмотрим пример.

Представьте себе море разноцветных водных существ; рыбы, крабы, медузы, акулы, дельфины и, может быть, даже Губка Боб.И в этом море вы ищете фиолетовую рыбу.

В ситуации высокой точности мы бы вытащили только рыбу сплошного фиолетового цвета. Это может показаться желательным, но что, если бы были фиолетовые рыбки в горошек или рыбки, наполовину фиолетовые, а наполовину желтые? Это технически все еще значимые рыбы для нашего поиска.

И наоборот, в ситуации с высоким отзывом мы бы получили что-нибудь фиолетовое или что-нибудь, что является рыбой. Так что это будут фиолетовые крабы, акулы, дельфины и медузы. Хотя мы указали « рыба », другие существа имеют значение, потому что они фиолетовые .Но это также будет включать обычных рыб разных цветов просто потому, что они рыбы . Это не идеальный результат.

В обоих случаях мы получили релевантные результаты, но либо получили слишком много, либо недостаточно результатов.

Имеет смысл?

Точность и полнота часто противоречат друг другу, поскольку улучшение одного может ухудшить другое.

Однако их баланс может помочь нам получить оценку, которую мы можем использовать для получения соответствующих результатов.

Вам может быть интересно, как мы рассчитываем этот балл? Хороший вопрос.

Elasticsearch использует релевантность поиска для оценки документов набора данных. Возвращает упорядоченный список данных, отсортированных по показателю релевантности. Мы можем настроить оценку, добавляя и изменяя переменные, которые будут сдвигать шкалу между точностью и полнотой.

Elasticsearch использует анализаторы текста для преобразования текста в оптимизированные данные для поиска. Они используются в двух случаях: при запросе данных и при вставке данных.

Анализатор текста Elasticsearch состоит из трех частей: Фильтр символов, Токенизатор и Фильтр токенов. Анализатор текста обладает широкими возможностями настройки, то есть каждую часть его анатомии можно настроить или изменить в соответствии с конкретным вариантом использования.

Слайд из моей презентации, это анатомия текстового анализатора ES. Шаг 1 — это фильтр символов, шаг 2 — токенизатор, а шаг 3 — фильтр токенов.

Символьный фильтр отвечает за добавление, удаление и преобразование элементов текста.Например, он может удалять символы HTML и заменять вхождения определенных строк.

Токенизатор разбивает текст на токены, также известные как термины. Токенизатор по умолчанию — это токенизатор пробелов, и он разбивает текст всякий раз, когда встречается пробел. Однако другие токенизаторы, такие как буквенный токенизатор, разделяют текст всякий раз, когда он встречает небуквенный символ.

Наконец, фильтр токенов аналогичен фильтру символов. Он может добавлять, удалять и преобразовывать токены.Есть классные фильтры, такие как фильтр токенов синонимов, которые могут добавлять слова-синонимы.

Инвертированный индекс

Полученные данные добавляются к инвертированному индексу. Инвертированный индекс сопоставляет токены с документами. Этот архитектурный проект позволяет нам сопоставлять термины с несколькими документами и делает поиск документов по терминам намного более эффективным, чем итеративное решение.

Слайд из моей презентации PowerToFly. Термины документа A и документа B находятся в указателе, и каждый термин сопоставляется с самим документом.

Однако не путайте эту структуру данных с хеш-таблицей , потому что было моим первым предположением. Под Elasticsearch Apache Lucene использует особую структуру данных, называемую словарем терминов BlockTree.

Словарь терминов BlockTree помогает нам находить термины по их префиксам, используя дерево префиксов.

Каждый символ занимает узел, а листьями дерева являются термины.

Этот тип структуры данных помогает нам в случаях использования, таких как подстроки или языки с составными словами, такие как немецкий или норвежский.Он также может возвращать полезные предложения, такие как «Вы имели в виду? », или исправить орфографическую ошибку пользователя.

TF/IDF и норма длины поля

Перевернутый индекс способствует измерению TF/IDF.

TF означает частоту терминов, , которая измеряет количество раз, когда термин появляется в конкретном документе. Думайте об этом как о поиске CTRL+F на странице, который находит все вхождения поискового запроса и сообщает вам количество вхождений.

IDF означает обратную частоту документов , которая просматривает несколько документов в Elasticsearch и сообщает нам, что если термин появляется слишком часто, то с большей вероятностью он не так актуален.

Например, если мы ссылаемся на предметный указатель книги, из него исключаются определенные термины. Такие термины, как «примерно», «там», и «от» , не включены в указатель. Эти термины появляются так много раз, что теряют актуальность.

Наконец, field-length norm — это длина поля, и под полем я подразумеваю поле заголовка или поле описания.Чем короче длина поля, тем более релевантны термины в этом поле, тогда как чем больше длина поля, тем менее релевантны термины.

Вес термина лиса 0,15. TF равен 1, IDF — 0,3, а норма длины поля — 0,5.

Elasticsearch объединяет эти три показателя для расчета и сохранения в качестве веса для определенного термина. Однако, поскольку запросы могут содержать несколько терминов, таких как «фиолетовая пятнистая рыба», Elasticsearch использует модели векторного пространства для сравнения многотерминных запросов с документами.

Модель векторного пространства представляет собой многомерный массив, содержащий вес каждого термина в запросе.

По сути, все эти компоненты вместе, более или менее , создают тип алгоритма подобия, который Elasticsearch называет Практической функцией оценки Lucene . Эта функция генерирует оценку релевантности, которую Elasticsearch использует для сортировки документов при запросе данных.

Запрос с несколькими терминами разбивается на несколько запросов с одним термином, а затем выполняется этапы практического алгоритма оценки Lucene, описанные в предыдущем разделе.

Другие типы алгоритмов подобия используют аналогичные метрики, такие как TF/IDF, но используют другие функции ранжирования или метрические структуры. И, к счастью, Elasticsearch поддерживает некоторые из этих алгоритмов подобия. Например, Elasticsearch поддерживает Okapi BM25, в котором используется вероятностная модель, а не модель векторного пространства.

Старший специалист по данным, рекламные платформы — релевантность поиска

Мы в Apple каждый день работаем над созданием продуктов, которые делают жизнь людей лучше. Наша группа рекламных платформ позволяет людям во всем мире легко получать доступ к информативному и творческому контенту на своих устройствах, помогая издателям и разработчикам продвигать и монетизировать свою работу.Сегодня наши технологии и услуги обеспечивают эффективность рекламы в поисковых объявлениях в App Store и Apple News. Наши платформы отличаются высокой производительностью, масштабируемостью и устанавливают новые стандарты для обеспечения эффективной рекламы при защите конфиденциальности пользователей. Мы ищем целеустремленного человека, который создаст новое поколение наших рекламных платформ. Проекты варьируются от создания алгоритмов, которые управляют нашими аукционами, до разработки рекомендаций (рекомендации по поисковым ключевым словам, рекомендации по ставкам и бюджету и т. д.).), аналитика и возможности автоматического управления кампаниями, помогающие рекламодателям достигать поставленных целей. Вы будете разрабатывать модели, улучшающие нашу платформу по всем направлениям, писать производственный код для получения рекомендаций, тесно сотрудничать с деловыми партнерами, чтобы способствовать разработке новых продуктов, а также проводить крупномасштабные и сложные эксперименты, чтобы понять их результаты. Вы добьетесь стратегических результатов благодаря существенным инновациям во многих областях, руководя разработкой и применением передовых методов и алгоритмов для улучшения нашей рекламной сети.У вас есть или разовьется глубокое понимание поведения рекламной сети, и вы будете работать с менеджерами по продуктам и бизнес-лидерами, чтобы расставить приоритеты в дорожной карте инноваций в нескольких технических областях. Вы будете руководить концепцией, разработкой и внедрением современных возможностей, которые отличают наши продукты и являются основой нашего бизнеса. У вас должен быть опыт разработки и внедрения алгоритмов машинного обучения, в идеале в рекламном пространстве. У вас будет отличное понимание масштабируемых архитектур, и вы сможете успешно работать в Agile-средах.Способность быть отличным товарищем по команде в сжатые сроки является ключом к успеху.

Сезонная релевантность в поиске электронной коммерции

Краткое описание работы Amazon Advertising — одно из самых быстрорастущих и прибыльных предприятий Amazon, отвечающее за определение и предоставление набора рекламных продуктов, которые стимулируют открытие и продажи. Спонсируемые продукты (SP), являющиеся основным предложением в рамках нашего рекламного портфеля, помогают продавцам, розничным продавцам и владельцам брендов добиться успеха с помощью нативной рекламы, которая увеличивает дополнительные продажи их продуктов, продаваемых через Amazon.Основные цели команды SP – помочь покупателям открыть для себя новые продукты, которые им нравятся, стать для рекламодателей наиболее эффективным способом достижения их бизнес-целей и построить устойчивый бизнес, который постоянно внедряет инновации от имени клиентов. Наши продукты и решения имеют стратегическое значение для обеспечения долгосрочного роста наших предприятий розничной торговли и торговых площадок. Мы обеспечиваем миллиарды рекламных показов и миллионы кликов и открываем новые горизонты в продуктовых и технических инновациях каждый день! Как ученый по данным в этой команде, вы будете: Решать реальные проблемы, собирая и анализируя большие объемы данных, глубоко погружаясь для выявления бизнес-идей и возможностей, проектирования моделирования и экспериментов, разработки статистических моделей и моделей машинного обучения путем адаптации к потребностям бизнеса и сотрудничества с учеными, инженерами, BIE и менеджерами по продуктам.· Написание кода (Python, R, Scala, SQL и т. д.) для получения, обработки и анализа данных. · Применение статистических знаний и знаний машинного обучения к конкретным бизнес-задачам и данным. · Создание моделей принятия решений и предложение решения бизнес-проблемы. вы определяете. · Извлекать, синтезировать и представлять важные данные в формате, который сразу же полезен для ответа на конкретные вопросы или повышения производительности системы. · Анализировать исторические данные для выявления тенденций и поддержки принятия оптимальных решений. · Формализовать предположения о том, как ожидаются наши системы. работать, создать статистическое определение выброса и разработать методы систематического выявления выбросов.Выясните, почему такие примеры являются выбросами, и определите, нужны ли какие-либо действия. · Рассказывайте анекдоты об аномалиях или создавайте автоматические сценарии для определения аномалий, глубоко погружайтесь, чтобы объяснить, почему они происходят, и идентифицируйте исправления. · Проведите письменные и устные презентации, чтобы поделиться своими мыслями с аудиторией. разного уровня технической сложности. Почему вам понравится эта возможность: Amazon вложила значительные средства в создание рекламного бизнеса мирового уровня. Эта команда определяет и предоставляет набор рекламных продуктов, которые стимулируют открытие и продажи.Наши решения приносят миллиардные доходы и обеспечивают долгосрочный рост розничного бизнеса и торговых площадок Amazon. Мы обеспечиваем миллиарды рекламных показов, миллионы кликов ежедневно и открываем новые горизонты для создания продуктов мирового класса. Мы — высоко мотивированная, сплоченная и веселая команда с предпринимательским духом, обладающая широкими полномочиями по экспериментированию и инновациям. Влияние и карьерный рост: вы будете изобретать новый опыт и влиять на покупательский опыт, ориентированный на клиентов, чтобы помочь поставщикам развивать свою розничную торговлю. бизнес и динамика аукционов, которые используют нативную рекламу; это ваша возможность работать в самых быстрорастущих компаниях Amazon! Определить долгосрочное научное видение нашего рекламного бизнеса, основанное на потребностях наших клиентов, преобразовав это направление в конкретные планы для исследователей и ученых-прикладников, а также групп разработчиков и разработчиков.Эта роль сочетает в себе научное лидерство, организаторские способности, техническую мощь, ориентированность на продукт и понимание бизнеса. Видео группы https://youtu.be/zD_6Lzw8raE

Relevanssi — Лучший поиск — Плагин WordPress

Relevanssi заменяет стандартный поиск WordPress улучшенной поисковой системой с множеством функций и настраиваемыми параметрами. Вы получите лучшие результаты, лучшее представление результатов — ваши пользователи будут вам благодарны.

Это бесплатная версия Relevanssi. Есть также Relevanssi Premium с дополнительными функциями. Для получения дополнительной информации о Премиум см. Relevanssi.com.

Обратите внимание, что использование Relevanssi может потребовать больших объемов (сотни мегабайт) пространства базы данных (для разумной оценки умножьте размер таблицы базы данных wp_posts на три). Если на вашем хостинге ограничено пространство для таблиц базы данных, использование Relevanssi может вызвать проблемы. В этих случаях использование Релевансси не рекомендуется.

Основные характеристики
  • Результаты поиска отсортированы по релевантности, а не по дате.
  • Нечеткое соответствие: сопоставлять частичные слова, если полные слова не совпадают.
  • Поиск документов, соответствующих только одному критерию поиска (запрос ИЛИ) или требующих отображения всех слов (запрос И).
  • Поиск фраз с кавычками, например «поисковая фраза».
  • Создайте пользовательские выдержки, показывающие, где было сделано обращение, с выделенными условиями поиска.
  • Выделять условия поиска в документах, когда пользователь просматривает результаты поиска.
  • Поиск комментариев, тегов, категорий и настраиваемых полей.
  • Поддержка мультисайтов.
  • Поддержка bbPress.
  • Дружелюбный Гутенберг.
Дополнительные функции
  • Отрегулируйте вес заголовков, тегов и комментариев.
  • Журнал запросов, показ самых популярных запросов и последних запросов без совпадений.
  • Ограничить поиск категориями и тегами, используя скрытую переменную или настройки плагина.
  • Индексировать пользовательские типы записей и пользовательские таксономии.
  • Индексировать содержимое шорткодов.
  • В стиле Google «Вы имели в виду?» предложения, основанные на успешных поисковых запросах пользователей.
  • Поддержка многоязычного плагина WPML и Polylang.
  • Поддержка плагина членства s2member, участников, групп, простого членства и других плагинов членства.
  • Расширенная фильтрация, помогающая взламывать результаты поиска так, как вы хотите.
  • Регулировка результатов поиска для повышения производительности в больших базах данных.
  • Отключить индексирование содержимого и заголовков сообщений с помощью простого хука-фильтра.
Премиум-функции (только в Relevanssi Premium)
  • Индексирование содержимого вложения (PDF, Office, Open Office).
  • Улучшено исправление орфографии в «Вы имели в виду?» предложения.
  • Поиск на нескольких сайтах в одной мультисайтовой установке.
  • Поиск и индексирование профилей пользователей.
  • Поиск и индексирование страниц терминов таксономии (категории, теги, пользовательские таксономии).
  • Поиск и индексация произвольных столбцов в таблице wp_posts MySQL.
  • Назначьте веса любым типам сообщений и таксономиям.
  • Присвоить дополнительный вес новым сообщениям.
  • Позвольте пользователю выбирать между поиском по И и ИЛИ, используйте операторы + и – (И и НЕ).
  • Экспорт и импорт настроек.
  • WP CLI-команды.
  • Похожие сообщения.
  • Перенаправление для поиска.

Спасибо

  • Cristian Damm за индексацию тегов, индексацию комментариев, исключение постов/страниц и общую помощь.
  • Маркус Далгрен за исправление UTF-8.
  • Лента Уоррена для исправлений 2.5.5.
  • Мохиб Эбрахим за неустанную охоту на жуков.
  • John Calahan за обширное бета-тестирование версии 4.0.
  1. Установите плагин с экрана плагинов WordPress.
  2. Активировать плагин.
  3. Перейдите на страницу настроек плагина и создайте индекс, следуя приведенным там инструкциям.
  4. Вот оно!

Relevanssi использует стандартную форму поиска и обычно не требует каких-либо изменений в шаблоне результатов поиска.

Если поиск не дал результатов, вероятно, ваша тема имеет вызов query_posts() в шаблоне результатов поиска. Это сбивает Релевансси с толку. Для получения дополнительной информации см. Самый важный прием отладки Relevanssi.

Удаление

Чтобы удалить плагин, удалите его с помощью обычных инструментов управления плагинами WordPress (на странице «Плагины» сначала «Деактивировать», а затем «Удалить»). Если вы удалите файлы плагина вручную, таблицы и параметры базы данных останутся.

База знаний

Решения и ответы можно найти в базе знаний Relevanssi.

Контекстная помощь

Ответы на многие распространенные проблемы можно найти в контекстном меню. Просто нажмите «Справка» в правом верхнем углу панели администратора WordPress на странице настроек Relevanssi.

Relevanssi не работает

Если результаты не меняются после установки и активации Relevanssi, наиболее вероятной причиной является вызов query_posts() в шаблоне результатов поиска.Это смущает Relevanssi. Попробуйте удалить вызов query_posts() и посмотрите, что произойдет.

Поиск слов с амперсандом или дефисом не работает

Пожалуйста, прочтите Слова со знаками препинания не найдены. Это функция Relevanssi, но вы можете исправить ее в настройках индексации Relevanssi.

Где находятся журналы поиска пользователей?

См. верхнюю часть меню администратора. Есть «Поиски пользователей».

Отображение оценки релевантности

Relevanssi сохраняет оценку релевантности, используемую для сортировки результатов, в переменной $post. Просто добавьте что-то вроде

  эхо $post->relevance_score
  

в шаблон результатов поиска внутри блока кода PHP для отображения оценки релевантности.

Вы имели в виду? предложения

Relevanssi предлагает вопрос в стиле Google «Вы имели в виду?» предложения.Дополнительные сведения см. в предложениях «Вы имели в виду» в базе знаний.

Что весит tf*idf?

Это основная схема взвешивания, используемая при поиске информации. Tf означает термина, частота , а idf — инвертированная частота документа . Частота термина — это просто количество раз, когда термин появляется в документе, а частота документа — это количество документов в базе данных, в которых термин появляется.

Таким образом, вес слова для документа тем больше, чем чаще оно появляется в документе и чем реже встречается в других документах.

Что такое стоп-слова?

Каждая база данных документов полна бесполезных слов. Все словечки, встречающиеся практически в каждом документе, совершенно бесполезны для целей поиска информации. По сути, их инвертированная частота документа очень низкая, поэтому они никогда не имеют большой силы в сопоставлении. Кроме того, удаление этих слов помогает уменьшить размер индекса и ускорить поиск.

Мы использовали Relevanssi Premium для индексации около 3000 PDF-файлов (старых газет) в wordpress и обеспечения возможности поиска по всем этим PDF-файлам.Это работает потрясающе, в документации есть много пользовательского кода для настройки поиска, и разработчик очень помог с вопросами. Спасибо, что сделали этот проект возможным!

Я ОЧЕНЬ доволен вашей бесплатной и быстрой поддержкой, и я обязательно порекомендую своим клиентам купить версию PRO.

Это важный плагин для WordPress. Он установлен на всех наших установках. ¡Спасибо команде разработчиков!

Мне понравилось это, когда я искал решение для поиска PDF, и теперь я использую его везде.Отличный плагин, как бесплатный, так и профессиональный. Поддержка Mikko не имеет себе равных, что является большим утешением при настройке плагина для выполнения чего-то сложного.

Я использую опцию поиска «целое слово», и результаты правильные. Но на странице результатов выдержка, сгенерированная Relevanssi, может содержать только частичное совпадение. Например, если я ищу «lx», сгенерированная выдержка может выглядеть так: … зксл … Пожалуйста, посетите мой сайт wolfccb dot com и попробуйте найти «lx».Надеюсь, что это можно исправить в будущем. Отличный плагин, большое спасибо и счастливого нового года!

Мне довелось связаться с Микко Саари, создателем Relevanssi, даже не зная плагина или его создателя, не говоря уже об его установке. Тем не менее, он позаботился о том, чтобы ответить со своим блеском, чтобы объяснить, почему я столкнулся с проблемой индексации моего сайта в Google. Это электронное письмо привело к ряду запросов от других, включая сообщество Google, которые теперь прояснили проблему для меня.Итак, я снова связался с ним, понимая, что его плагин и опыт действительно могут помочь решить проблему, и я был прав в этом, поскольку он сделал все возможное, чтобы это произошло, как художник, рисующий свой плагин для холста моего сайта. . Микко — это своего рода друг и брат, которого вы всегда хотели иметь не только с опытом работы с WordPress или поисковыми плагинами, но и с человеком, который заботится о полезности того, что он делает, намного раньше и выше его обменной стоимости, и это объясняет его успех в завоевании сердец тех, кто приближается к нему.Как я мог не выбрать пожизненный пакет его плагина! Микко делает все возможное, чтобы предложить точную и всегда вдумчивую помощь, и, когда вы перечитываете его отзывы, вы даже узнаете то, что упустили в первый раз. Relevanssi — это труд или любовь для него, и это видно, и он делает все возможное, чтобы помочь вам. Это удивительный, очень детальный и детальный плагин. Тем не менее, он даже идет дальше, чтобы настроить его полезность для вас, и это работает отлично. Вы не пожалеете об установке Relevanssi, потому что это превосходный плагин с множеством полезных функций, которые сразу же меняют ваш сайт, заставляя вас задаться вопросом, как вы могли бы обойтись без него в первую очередь! Микко не только замечательный создатель плагинов, но и просто хороший человек, заботливый и отзывчивый.Во все более отчужденном мире он снова делает надежду, готовность помочь и просто быть хорошим человеком, помогающим другим, более актуальными. Спасибо за всю твою помощь и за то, что ты рядом, Микко.

Прочитать все 340 отзывов

«Relevanssi — лучший поиск» — это программное обеспечение с открытым исходным кодом. Следующие люди внесли свой вклад в этот плагин.

участников
4.15.1
  • Изменено поведение: Relevanssi теперь игнорирует настраиваемые поля метаданных WordPress, которые не представляют интереса для индексации Relevanssi.
  • Изменено поведение: и relevanssi_get_permalink() , и relevanssi_the_permalink() теперь могут принимать идентификатор сообщения или объект сообщения в качестве параметра и, таким образом, могут использоваться вне цикла.
  • Изменено поведение: хук relevanssi_hits_filter теперь получает объект WP_Query в качестве второго параметра.
  • Незначительное исправление: избегайте сообщений об ошибках для отсутствующего ключа массива mysqlcolumn_matches .
4.15.0
  • Новая функция: хук действия relevanssi_init запускается в конце функции relevanssi_init() .
  • Новая функция: новый хук фильтра relevanssi_author_query_filter фильтрует запрос MySQL автора сообщения.
  • Новая функция: новый хук фильтра relevanssi_by_date_query_filter фильтрует запрос MySQL by_date.
  • Новая функция: новый хук фильтра relevanssi_date_query_filter фильтрует запрос даты MySQL запрос.
  • Новая функция: новый хук фильтра relevanssi_parent_query_filter фильтрует пост-родительский запрос MySQL.
  • Новая функция: новый хук фильтра relevanssi_post_query_filter фильтрует запросы post__in и post__not_in MySQL.

Добавить комментарий

Ваш адрес email не будет опубликован.