Яндекс искать: поиск изображений в интернете, поиск по изображению

«Инженеры не любят копировать» — РБК

По словам Андрея Стыскина, несмотря на сомнения со стороны ряда бизнесов, сейчас «Яндекс» ведет переговоры об интеграции в соответствии с опубликованными принципами более чем с 40 крупными и небольшими компаниями (какими конкретно, он не называет).

 — Все без исключения поиски в мире, в том числе в США, Китае, Корее, используют обогащенные ответы, для того чтобы улучшать пользовательский опыт. Это не вчера придуманная вещь. «Яндекс» развивает такие ответы больше десяти лет, у нас больше десятка видов публично доступных обогащенных ответов. Для миллионов сайтов мы обогащаем выдачу автоматически, например для сайтов СМИ, а больше 30 тыс. интернет-магазинов на безвозмездной основе самостоятельно предоставляют данные для обогащения выдачи. Заявители [жалобы в ФАС] хотят получить больше внимания и трафика, но внимание пользователя небесконечно. Задача «Яндекса» — найти правильный баланс и помочь решить вопрос пользователя наилучшим образом.

Поэтому важно затачивать интеграции с партнерами под каждый сценарий, что требует дополнительной разработки. Иначе получается, как в оригинальной «Золушке» братьев Гримм: лучше отрубить пальцы сестрам, лишь бы влезть в туфельку. А нам важно найти именно правильную Золушку под правильный размер туфли.

Читайте на РБК Pro

Свою ключевую задачу в качестве поисковика компания видит в том, чтобы «создать максимально универсальный поиск, который ищет объекты во всех доступных источниках», говорит Стыскин. Например, если человек захочет посмотреть французскую комедию, ему не нужно будет искать ее отдельно в каждом онлайн-кинотеатре или «Афише». Достаточно будет забить вопрос в поиске «Яндекса», чтобы увидеть в одном блоке фильмы из коллекции «Кинопоиска», Okko и других онлайн-кинотеатров, а также те, что идут в кино. Интеграция в такие универсальные ответы бесплатная. Стыскин рассчитывает, что благодаря публикации принципов компания сможет интегрировать большее количество партнеров.

Андрей Стыскин (Фото: Владислав Шатило / РБК)

Он напомнил, что «Яндекс» уже давно разрабатывал и предлагал партнерам более заметное представление в поисковой выдаче. В 2013 году компания представила такие форматы в рамках проекта «Острова», но тогда они не пользовались большим спросом, потому что интеграция требовала технических усилий со стороны партнеров, к которым рынок не был готов. «В 2021 году общий уровень технологий, доступных участникам рынка, гораздо выше, чем в 2013-м, а мы со своей стороны пытаемся в каждом следующем поколении своего предложения упростить порог входа в интеграцию с поиском», — отметил Стыскин.

— Когда мы опубликовали свои принципы, представители рынка, в том числе коалиции [компаний, пожаловавшихся в ФАС], спросили, зачем нам столько информации. Мы объясняем, что без этих данных не получится сделать полезный людям обогащенный ответ. Например, чтобы искать по сайтам, через которые продаются автомобили, мало иметь только фото и пробег машины. Необходимо знать, как люди взаимодействовали с конкретным объявлением в прошлом, на что кликали. Тогда мы не будем предлагать человеку, который ищет семейный автомобиль, модели стоимостью на порядок выше.

Пилот с HeadHunter

По словам Андрея Стыскина, «Яндекс» делает пилот с HeadHunter, в рамках которого последний отдает feed (поток контента, который автоматически подгружается блоками. — РБК). «База объявлений о работе достаточно быстро обновляется, важно не ждать, пока поисковый робот обойдет по ссылкам в интернете всю информацию, а получить актуальную информацию непосредственно от HeadHunter. Без данных о кликах и других действиях пользователей мы не понимали, решил человек задачу или нет. Мы видели ухудшение пользовательских показателей, так как люди возвращались и снова задавали уточняющие вопросы. Когда стали использовать данные «Яндекс.Метрика», при переходе из обогащенного ответа в среднем на 20% вырос показатель полезных действий соискателей на сайте — регистраций или откликов на вакансию. Это произошло потому, что мы поняли, какие работодатели интересны человеку, и начали показывать их вакансии. В итоге люди быстрее находят работу, а сайт получает нужную аудиторию», — пояснил Стыскин.

Про развитие поиска

По словам Андрея Стыскина, для улучшения работы поиска только в прошлом году компания внесла более 2 тыс. изменений в него, то есть почти по восемь за рабочий день. Но он отмечает, что «у пользователя есть привычка, и если ему 2 тыс. раз в год «все переколбасить», то он сойдет с ума», поэтому изменения вводятся «маленькими шагами», чтобы они воспринимались естественно.

— Поиск — это очень сложная штука. В его развитие за последние пять лет мы проинвестировали больше $1,5 млрд. Самые крупные статьи расходов — строительство дата-центров и закупка «железа», зарплаты сотрудникам, а также обучение алгоритмов: десятки тысяч людей работают на краудсорсинговых платформах «Яндекса», для того чтобы обучать алгоритмы ранжирования. Нам приходится конкурировать с мировой компанией Google, в которой работают в десять раз больше людей, много ученых. Мы маленькие по сравнению с Google, у нас меньше ресурсов, поэтому нам нужно двигаться быстрее, находить способы срезать углы, чтобы давать пользователям в России конкурентоспособные продукты.

В ближайшие годы инвестиции в поиск будут только увеличиваться, прогнозирует топ-менеджер. Основные вложения компания направит на развитие новых технологий: например, в области обработки естественного языка это «Трансформеры». Он напомнил, что в последнем обновлении «Яндекс» объявил о внедрении языковой модели YaLM (Yet another Language Model, с ее помощью можно генерировать следующие слова в предложении.

 — РБК), также была технобета-модель «Балабоба» (позволяет на архитектуре нейросетей выучивать закономерности, которые есть в естественном языке, и в результате генерировать текст, который по правдоподобности не отличается от человеческого. — РБК). «Например, можем спросить, про что я дал интервью РБК, и модель напишет. Это будет связный текст, как будто его придумал человек. Конечно, он не будет идеальным, но все же это прорыв», — указал Стыскин.

Video

Кроме того, эта технология «умеет выявлять закономерности, которые есть в языке, с помощью чего можно решать многие задачи». Например, делать краткие выжимки из больших объемов текстов, то есть экономить время для вычленения важной информации. Из этого можно сделать много различных новых сервисов, «которые радикально ускорят доступ к ответам на вопросы, к информации», ожидает Стыскин. По его словам, над продуктами, которые позволят анализировать, генерировать и суммаризировать информацию, сейчас работают компании по всему миру.

Андрей Стыскин (Фото: Владислав Шатило / РБК)

— Ключевая задача поиска — найти ответ на любой вопрос, который задает пользователь. Чтобы решить эту задачу, поиск должен становиться все более и более универсальным. Тем более что вопрос можно задавать различными способами: и голосом, и картинкой. Мы запустили «умную» камеру, которая позволяет делать запросы, для которых непонятно, как их сформулировать текстом или голосом. Например, если нужно узнать название цветка, можно открыть приложение «Яндекса», сфотографировать и узнать.

Еще один важный пользовательский запрос, по словам топ-менеджера «Яндекса», — в качестве, актуальности и достоверности информации, потому что ее стало очень много. Поэтому компания работает над вовлечением экспертов в обучение алгоритма, чтобы поиск становился «умнее».

— У нас запустился пока маленький прообраз экспертного поиска. Проект связан с борьбой с депрессией: в результатах поиска мы представили телефоны горячих линий. Когда речь идет о таком сложном вопросе, важно не читать рецепты и заниматься самолечением, а найти специалиста в этой области. Мы видим, что доля запросов, в которых требуется глубокая проработка, растет. С другой стороны, есть запрос от экспертов [сервиса вопросов и ответов] «Яндекс.Кью» — они хотят делиться знаниями в той области, которой посвятили жизнь. У нас есть несколько пилотов по формированию экспертных оценок в области медицины, юриспруденции и финансов, и мы видим, насколько это улучшает качество продукта. Сейчас основной вызов — как с технологической и организационной точек зрения эту вещь масштабировать. Это то, чем мы будем заниматься в ближайшие годы.

Про голосовой поиск

Андрей Стыскин отмечает, что есть сценарии, в которых проще спросить голосом, — это длинные вопросы, где много контекста. Например, когда человек хочет узнать какой-то факт, построить маршрут, включить музыку или телеканал. Поиском через голосовой помощник «Алиса» особенно любят пользоваться дети и люди старшего возраста, то есть те, кто не любит или не умеет делать запросы текстом, а также те, кому это по каким-то причинам неудобно.

Кроме того, компания обнаружила, что многие сложные сценарии проще задавать голосом. Например, в начале 2021 года у «Яндекса» резко выросло число установок его автоматического определителя номера (АОН), который может отследить рекламные звонки, чтобы пользователь не брал трубку. Раньше для его установки на различных платформах нужно было провести сложные настройки, что отпугивало потребителей. «Когда мы сделали навык «Алиса», настрой АОН», мы увидели просто космический взлет включений сервиса и на iOS, и на Android», — указал Стыскин. В дальнейшем «Алиса» может научиться выполнять типовые регулярные операции — например, делать повторные заказы в «Лавке» или заказывать линзы на следующий месяц.

Андрей Стыскин (Фото: Владислав Шатило / РБК)

— Будет ли голос вообще замещать и вытеснять поиск через набивание текста? В ряде сценариев будет. Ядро аудитории «Алисы» — это активные люди в возрасте от 25 до 35 лет. Когда они едут за рулем или занимаются домашними делами, им проще сделать запрос голосом. Когда хочется включить музыку или фильм — тоже. Еще один популярный сценарий — это бытовой фактчекинг. Если во время общения возникли разногласия по какому-то вопросу, например сколько весит слон, человек берет мобильный, нажимает кнопку и спрашивает:

— Сколько весит слон?

— От 2 до 7 т.

— Вот видишь, я тебе говорил.

Таких запросов, по словам Стыскина, очень много. В то же время остается много рабочих сценариев поиска через текст на десктопе: «Мы видим, что программистские запросы в основном поступают с десктопа, какие-то профессиональные документы, юридические, нормативные акты люди продолжают искать на десктопе».

Про данные пользователей

Чтобы улучшать качество поиска и таргетирования в рекламе, «Яндекс» использует обезличенные данные о пользователе, которые получает через его взаимодействие с продуктами компании, а также закупает аналитику по использованию интернет-ресурсов у партнеров. «Это позволяет нам понять те области качества, в которых мы можем лучше развиваться, в которых нужно больше совершенствоваться. Персональные данные мы не закупаем», — отметил Андрей Стыскин.

— Если я купил холодильник, то мне уже поздно его рекламировать. И есть категории товаров, в которых это полезно. Например, второй букет цветов предлагать можно — это будет полезно, а второй холодильник человек вряд ли купит в ближайшие пять лет. Со временем мы научим этому наши алгоритмы.

По словам Стыскина, знания о запросах и потребностях пользователей позволяют улучшать качество поиска и моментально предоставлять лучший ответ.

— Не все интересы пользователей выражаются в виде запроса в поиск, посещения сайтов, кликов. Но, думаю, покупка пользовательских данных — это не тот вектор, в котором будет развиваться отрасль, потому что хозяином своих данных является человек. Именно поэтому мы даем возможность пользователям управлять своими данными: выгружать их или удалять вовсе. Надеемся, что наши коллеги по отрасли реализуют такие же возможности. Наверное, было бы круто, чтобы пользователи в удобном виде могли управлять своими данными. Например, я пользуюсь [музыкальным сервисом] Spotify, очень много там прослушал, поскольку мне нравится их рекомендательная лента. Я бы хотел иметь возможность нажать кнопку и перенести свои данные в «Яндекс.Музыка», где тарифы сейчас выгоднее и присутствуют те же музыкальные исполнители. При этом важно, чтобы при переносе цифрового следа не нужно было заново обучать алгоритмы «Яндекс.Музыка» под мои музыкальные предпочтения. Такая картина мира, когда пользователи управляют своими данными, мне очень импонирует. Но тут нужно много технических и отраслевых вещей пройти, чтобы это случилось.

Андрей Стыскин (Фото: Владислав Шатило / РБК)

Про монетизацию контента СМИ

По словам Андрея Стыскина, «Яндекс. Новости» начал тестировать дайджест — подборку выдержек из сообщений СМИ, из которой можно быстро узнать основные подробности о событии. При этом сервис намерен делиться доходами от рекламы с партнерами, материалы которых попадают в дайджест.

— Мы готовы вместе с партнерами делать новые форматы представления информации и делиться с ними доходами, которые получает сервис «Яндекс.Новости». Сейчас у «Яндекс.Новости» более 3 тыс. партнеров, которые передают свой контент в сервис. Текущая модель монетизации сайтов в интернете и СМИ, когда они продают рекламные баннеры, приводит к тому, что им нужен трафик, ради которого они часто используют желтые кричащие заголовки. В качестве ответной реакции «Яндекс.Новости» затачивает алгоритмы, чтобы бороться с желтизной и накрутками, и учитывает различные показатели СМИ при ранжировании (информативность заголовка, оперативность, цитируемость, отсутствие опечаток и т.д.).

За дайджест, который компания делает вместе с партнерами и размещает в сюжетах «Яндекс. Новости», она будет делиться со СМИ частью рекламной выручки, которую зарабатывает сервис. Детали Стыскин не раскрывает, лишь оговаривается, что подборка выдержек для дайджеста формируется автоматически. Ее составляет алгоритм, который анализирует все новости сюжета и вычленяет ключевые моменты. Рядом с каждой выдержкой есть ссылка на новость-источник. Размер выплат будет пропорционален количеству показов в дайджесте.

— Это не аттракцион, в котором просто раздаются деньги. В результате таких интеграций возникает дополнительная ценность для пользователей. Сейчас мы видим, что потребление информации переходит, например, в Telegram: очень много людей получают актуальные короткие обновления, потому что подписаны на большое количество Telegram-каналов. Мы видим два пользовательских сценария: изучить все в деталях или сразу узнать суть — и хотим в рамках сервиса дать пользователям выбор. Те издания, которые быстро, фактурно, объективно и емко дают эту информацию, в конечном счете получают не только трафик, но и лояльность аудитории.

Андрей Стыскин (Фото: Владислав Шатило / РБК)

Про сравнение с Google

На вопрос, насколько пристально компания следит за тем, что делает в области поиска Google, и возможно ли, в принципе, копировать на этом рынке, Андрей Стыскин отвечает, что «Яндекс» — инженерная компания, а инженеры не любят копировать, они любят изобретать.

— У нас даже обратная проблема, называется not invented here (не было придумано здесь. — РБК), когда решения, которые есть в open source (открытом программном обеспечении.  — РБК), не пользуются особой популярностью внутри «Яндекса», потому что их не здесь придумали. Но причина не в том, что мы снобы и самодуры. Большая часть технологических решений, которые сейчас существуют на рынке, появились позже, чем мы столкнулись с проблемой, для решения которой они предназначены. Мы, безусловно, активно смотрим на все, что происходит вокруг нас, у наших конкурентов, в отрасли, и используем всю информацию, чтобы принимать решения о том, какие продукты делать, какие технологии создавать, читаем научные статьи, но невозможно скопировать то, что делает другой игрок в сфере поиска. Даже больше скажу: многие вещи, которые появляются в поиске в России, появляются благодаря «Яндексу». Для отдельных наших конкурентов Россия не является основным рынком, а поиск и сервисы «Яндекса» заточены под потребности и особенности российского интернета и российских пользователей.

По словам Стыскина, цель компании — чтобы ее «продуктами пользовались все больше и больше людей», но конкретных показателей он не назвал.

— Что важно понимать про рыночную конкуренцию в области поисковых систем: есть открытые платформы, на которых конкуренция возможна, например Windows на десктопе, и там наша поисковая доля выше средней по рынку. Есть мобильные платформы, где ситуация другая. В 2017 году ФАС признала, что Google ограничивала возможность выбора поисковой системы для пользователей платформы Android. Нужно было заходить в браузер Chrome, вбивать в адресной строке слово «Яндекс» и затем искать. После того как появилась возможность выбирать поисковик на Android, наша доля существенно выросла, но на это потребовалось много времени, в течение которого мы продолжали улучшать свой продукт. Если на других платформах, например iOS, появится возможность выбирать, наша доля, конечно, начнет постепенно расти. Но для этого нужно не останавливаться — инвестировать в технологии и качество поиска.

Стыскин не прогнозирует, как изменится доля «Яндекса» благодаря вступившему в силу с 1 июля требованию о том, что производители смартфонов, планшетов, компьютеров и Smart TV должны обеспечить пользователям возможность выбора поисковой системы. По его словам, это будет зависеть в том числе от того, как платформы реализуют возможность выбора, насколько удобным он будет для пользователя.

В то же время Стыскин отметил, что с дискриминацией сталкиваются и различные сервисы «Яндекса».

— Например, «Алиса» не имеет тех технических возможностей в iPhone, которые есть у [голосового ассистента, разработанного производителем этого смартфона] Siri. Нет доступа к чтению СМС, как у Siri, возможности интегрироваться в наушники AirPods или сервис для автомобилей CarPlay.

Четыре факта об Андрее Стыскине

  • 10 августа 1986 года родился в Москве.
  • В 2008 году окончил факультет кибернетики Московского инженерно-физического института (МИФИ).
  • В 2007 году пришел разработчиком в «Яндекс».
  • В феврале 2021 года возглавил только что созданную бизнес-группу поиска, рекламных и облачных сервисов.

«Яндекс» начал искать по Facebook

Российский поисковик и американская социальная сеть Facebook заключили договор, по которому «Яндекс» будет вести поиск по публичным записям в соцсети.

Поисковик уже может обрабатывать информацию, полученную из открытой части социальной сети (firehose). Первые проиндексированные записи появились в выдаче поиска по блогам «Яндекса«, а в будущем – появятся и в основной выдаче.

Как сообщают в компании, «Яндекс» получил доступ не ко всей публичной информации сети, а лишь к данным, опубликованным пользователями из стран СНГ и Турции. Пока что в поиске по блогам доступны в основном записи россиян, украинцев и белорусов.

Новые посты индексируются и ранжируются практически сразу. Таким образом, можно получать оперативный доступ к самым обсуждаемым темам. Поисковик обещает, что в ближайшее время индексироваться будут не только посты, но и комментарии к ним.

Информацией, полученной из Facebook, «Яндекс» планирует улучшить качество результатов поиска. В частности, такую информацию можно будет использовать для улучшения выдачи по последним событиям. По мере необходимости, «Яндекс» будет брать из Facebook статьи, видео и другие материалы. Любопытно, что популярность постов в Facebook будет также учитываться при ранжировании.

«Яндекс» уже не в первый раз пытается проиндексировать Facebook. Ранее поисковик уже пытался запустить приложение Wonder, которое в итоге было запрещено. Как видим, сейчас очередная попытка «Яндекса» увенчалась успехом.

Выгода от такого сотрудничества есть и для Facebook, который, благодаря «Яндексу«, будет лучше представлен в Рунете, где популярность сети находится на низком уровне.  

Курьеры «Яндекс.Еды» будут искать пропавших людей вместе с отрядами «Лизы Алерт» – Москвич Mag – 05.08.2019

Город , 1 мин. на чтение

Курьеры «Яндекс.Еды» будут искать пропавших людей вместе с отрядами «Лизы Алерт»

Редакция Москвич Mag

Ориентировки для поиска они будут получать в мессенджерах.Нет, конечно, вы не наткнетесь на человека с желтой сумкой, собирая грибы в лесу — именно там, согласно стереотипу, проходит львиная доля поисков добровольческих отрядов «Лизы Алерт». На самом деле не только там — дети, старики, взрослые люди пропадают не только в чащобе, но и в городе. Здесь им как раз и будут помогать курьеры сервиса доставки — они много перемещаются по городу в течение дня, так что если специально обратить их внимание на фотографию пропавшего человека, то они, скорее всего, заметят его при встрече.

Подключаться к поискам курьеры будут добровольно, ориентировки будут приходить им в мессенджерах с их согласия — компания доставки провела опрос и выяснила, что многие уже участвовали в поисках в качестве волонтеров. Кстати, у «Лизы Алерт» и «Яндекс.Еды» есть возможность с помощью геотаргетинга ограничивать район поисков для их большей эффективности. Если они увидят пропавшего, то должны будут связаться с волонтерами или сотрудниками отряда по специальному телефонному номеру.

Хорошо, что «Яндекс» подключает своих сотрудников к деятельности самого, вероятно, уважаемого и оперативного российского НКО. Однако, кажется, IT-компания с ее возможностями могла бы сделать для отряда больше — например, раздать им видеорегистраторы с системой распознавания лиц, какие уже носят полицейские патрульно-постовой службы для ловли разыскиваемых за правонарушения; почему бы вообще не интегрировать эти две системы в одну нейросеть — ведь база данных МВД гораздо больше? Ну или можно хотя бы встроить функцию передачи изображений в приложение, которым пользуются курьеры для получения заказов и отчета их выполнения.

А отряду порекомендуем не столь технологичную, но зато проверенную коллаборацию родом из старой доброй Британии — там еще в 1990-х придумали печатать портреты пропавших людей на пакетах молока.

Яндекс.Поиск по картинкам научился искать похожие изображения

Команда сервиса Яндекс. Картинки сообщила о дополнении алгоритма «Сибирь» технологией, основанной на глубоких нейронных сетях. Благодаря этому в Яндекс.Картинках теперь можно искать не только копии определенного изображения, но и похожие на него картинки.

Такой поиск пригодится для решения задачи поиска не точных копий загруженного изображения, а похожих не него изображений, которые демонстрируют вариации изображенного объекта. Если в интернете есть копии загруженной картинки, то они также выдаются в ответ по запросу, а новая возможность расширяет и дополняет ответ поиска врезкой с похожими изображениями.

Так, по фотографии кроссовок, загруженной в Яндекс.Картинки, можно найти изображения этих кроссовок в разных ракурсах, и другие модели, похожие на них:

Компьютер «видит» изображения совсем иначе, чем человек, поэтому среди найденных картинок могут оказаться и не совсем похожие. По сути, алгоритм поиска по картинкам похож на алгоритм поиска текстов — по каждой картинке выделяются «визуальные слова», они распределяются по словарям, а затем сопоставляются с визуальными словами по другим картинкам. Поэтому в поиске похожих картинок пока еще встречается много фейлов.

В перспективе поиск по картинке станет точнее и будет давать развернутый ответ на запрос пользователя, сможет распознавать и описывать то, что изображено на загруженной картинке. Алгоритм будет искать не только дубликаты картинок, но и фейковые аккаунты, фейковые объявления. Ведется работа над поиском товара по картинке – поиск скажет пользователю, как называется этот товар, и в каком магазине можно его приобрести. Об этом сообщил менеджер Яндекса Майк Томшинский в своем докладе на конференции IBC Russia.

Напомним, Яндекс запустил функцию визуального поиска по Картинкам в сентябре 2013 года. Функционал базируется на технологии компьютерного зрения, созданной разработчиками Яндекса, которая называется «Сибирь» (от англ. CBIR – Content-based image retrieval, то есть поиск изображения по содержанию).

Искать и не сдаваться: Как швейцарский офис «Яндекса» покоряет Европу

Первый значимый шаг в международном развитии «Яндекс» сделал в 2011 году в Турции, впервые запустив поисковый портал и другие свои сервисы в стране, где совсем не говорят по-русски. Следующим этапом стали офисы в США и Европе: коммерческие службы, чья задача была отвечать на растущий интерес западного бизнеса к быстрорастущему российскому рынку электронной коммерции. Иностранные компании хотели заниматься интернет-торговлей в России и странах СНГ и нуждались в рекламе своих товаров, но не знали, с чего начать. Локальный поисковик и IT-компания «Яндекс» для них была бы незаменимым партнером. У технологического гиганта, активно занимавшегося контекстной, баннерной и прочей рекламой в интернете, а также создавшего популярную торговую площадку «Яндекс.Маркет», на руках имеются все нужные ключи к российским интернет-покупателям. Чтобы создать для потенциальных европейских партнеров все условия для удобного и безопасного входа на российский рынок, «Яндекс» занял проактивную позицию и пришел в самый центр Европы.

Самый центр Европы

Как вспоминает глава Yandex Europe AG Бернар Люке, с местом размещения европейского представительства менеджмент компании определился почти сразу. Ответ стал ясен буквально с первого взгляда на географическую карту. «У Швейцарии, – объясняет эксперт, – самое центральное расположение среди всех стран Европы: из нее можно легко отправиться на юг, восток, запад или север. Нашей целью была максимальная близость ко всем европейским клиентам; мы сразу понимали, что деловые поездки и путешествия будут занимать львиную долю работы. А из центра, как нетрудно догадаться, строить маршрут всегда проще и дешевле». Кроме этого, «Яндексу» требовалась максимально стабильная – с юридической, финансовой, валютной точки зрения – среда, позволяющая планировать и инвестировать на долгие сроки. Этому критерию Швейцария удовлетворяла идеально. И, наконец, благоприятная в целом обстановка для развития бизнеса, включая поддержку со стороны федеральных и кантональных властей, стала заключительной причиной выбора в пользу Швейцарии.

«Находясь в центре Европы, – добавляет Бернар Люке, – ты начинаешь «вариться» в местной бизнес-среде: лучше отслеживаешь тренды, настроения, ожидания клиентов, словом, некую «повестку дня». Плюс к этому, мы наблюдаем за европейскими технологическими стартапами, которые работают в интересующих «Яндекс» областях».

Ближе к клиентам

Первой задачей Бернара Люке (до «Яндекса» он являлся исполнительным директором Ozon.ru, поэтому о российских интернет-покупателях знает практически все) было создать международную команду. Требовалось найти специалистов, которые смогут говорить с европейским клиентом на его языке и помочь ему управлять рекламными кампаниями. Сегодня со всеми задачами справляется базирующаяся в Швейцарии небольшая, но мобильная и эффективная команда из десяти человек: сотрудники общаются с компаниями, заинтересованными в продаже своих товаров и услуг в России и СНГ, рекламными агентствами и разработчиками систем автоматизации контекстной рекламы. Работа построена по принципу «One Stop Shop»: клиенты распределяются между эккаунт-менеджерами, каждый из которых открывает бизнесу весь спектр сервисов, продуктов и услуг «Яндекса», которые могут быть ему полезны в завоевании российского рынка.

Большинство клиентов – малые и средние компании со всей Европы, о «Яндексе» прежде знавшие лишь понаслышке. Сегодня они учатся решать маркетинговые задачи в «Яндекс.Директе», посещают обучающие семинары, знакомятся с коммерческими продуктами российской компании на профильных конференциях, выставках, B2B-мероприятиях. «Порой мы общаемся с клиентами, которые даже не думали о выходе в Россию, – рассказывает Бернар Люке. – И довольно часто нам удается заинтересовать их этим рынком, помочь оценить его потенциал и риски, ведь мы хорошо его знаем. То есть мы способствуем притоку нового иностранного бизнеса и инвестиций в Россию, что позитивно сказывается на национальной экономике».

Поддержка нового бизнеса

Буквально со старта работы в Швейцарии «Яндекс» оценил уникальный среди европейских стран подход государства к привлечению нового бизнеса. Власти кантона Люцерн, где обосновался офис продаж, оказали незаменимую помощь в решении множества проблем, которые неизбежно встают перед новым игроком. «Нас крайне профессионально консультировали по вопросам права, финансов, трудоустройства иностранных специалистов, – говорит Бернар Люке, – а также помогли наладить деловые связи с бизнес-сообществом и чиновниками самого высокого уровня. Что примечательно, это внимание сохраняется, даже если место работавшего с вами представителя госорганов занимает другой человек». Как подчеркивает руководитель офиса, власти крайне дружелюбно относятся к любому бизнесу, вне зависимости от его размера и количества сотрудников.

Стоит добавить, что кантон Люцерн традиционно считается одним из самых привлекательных для предпринимателей из-за низких налогов. В Швейцарии ставка налога на прибыль формируется за счет кантональной и коммунальной составляющей. В Люцерне эффективная ставка налога на прибыль корпораций не превышает 12,32%. Кстати, сегодня опыт Люцерна перенимают на себя и другие кантоны, которые внедряют программу снижения налогов. Подробнее о налоговой системе Швейцарии можно прочитать в нашей брошюре «Налогообложение предприятий».

Крепкая университетская база

В 2007 году «Яндекс» основал в России Школу анализа данных (ШАД), где преподают машинное обучение, компьютерное зрение, анализ текстов на естественном языке и другие направления современных компьютерных наук. Два года студенты передовых российских вузов изучают предметы, которые обычно не входят в университетские программы, хотя пользуются огромным спросом в науке и разных отраслях, где уже применяются наукоемкие информационные технологии. Открыв офис в Швейцарии, компания столкнулась с интересом к деятельности ШАД со стороны местных университетов. В результате она создала партнерскую программу по обмену студентами с сильнейшим техническим вузом страны – Политехнической школой Лозанны (EPFL). Суть ее заключается в следующем: студенты докторантуры (получающие степень PhD) EPFL на три-шесть месяцев отправляются на стажировку в ШАД, а студенты ШАД участвуют в научных проектах EPFL и других швейцарских университетов. А в 2015 году Школа анализа данных даже стала участником одного из четырех основных экспериментов CERN на Большом адронном коллайдере. Переговоры о создании аналогичной программы обмена «Яндекс» также ведет с Высшей технической школой Цюриха.

«Крепкая университетская база и постоянный приток студентов из топовых университетов позволяет технологическому бизнесу легко формировать высококвалифицированные команды, – говорит Бернар Люке. – Кроме этого, университеты обладают великолепной инновационной инфраструктурой и генерируют большое количество стартапов в специальных технопарках и бизнес-инкубаторах. Это дает доступ к целой экосистеме талантливой, креативной молодежи с прекрасными идеями». Подробнее о профессиональном образовании в Швейцарии можно прочитать на нашем сайте.

«Яндекс» планирует продолжать расширение своей деятельности в Швейцарии: вместе с ростом числа клиентов он будет постепенно наращивать численность сотрудников офиса продаж. По мнению Бернара Люке, компания имеет хорошие перспективы развития в Европе. Огромный и ненасыщенный российский рынок интернет-торговли привлекает все большее количество иностранного бизнеса, которому требуется реклама и инструменты продвижения своих товаров. А значит, работа для «Яндекса» найдется всегда.

Узнать о различных аспектах развития бизнеса в Швейцарии можно из нашего «Справочника инвестора» или у представителей Швейцарского Центра содействия бизнесу при Посольстве Швейцарии в Москве.

Узнайте больше о сфере ИКТ в Швейцарии

Возможно ли мышление как поисковая машина? (Персонализация поиска Яндекса — Итоги конкурса Kaggle — часть 1) | Янир Серусси

Около года назад я участвовал в конкурсе Kaggle по персонализации поиска Яндекс. Я начинал как индивидуальный участник, а затем добавил в команду несколько новичков Kaggle в рамках программы, которую я проводил для Sydney Data Science Meetup. Моя команда выступила неплохо, заняв 9-е место из 194 команд. Как это обычно бывает с соревнованиями Kaggle, наиболее ценной частью были уроки, извлеченные из опыта.В этом случае уроки выходят за рамки обычных навыков работы с данными и включают некоторые идеи, относящиеся к поисковой оптимизации (SEO) и конфиденциальности. В этом посте описывается настройка соревнования и дается более общая информация. В следующем посте будет рассмотрена техническая сторона нашего подхода.

Данные #

Яндекс — ведущая поисковая система в России. Для конкурса они предоставили набор данных, который состоит из данных журнала поисковой активности в одном большом городе, что соответствует одному месяцу поисковой активности (исключая популярные запросы).В общей сложности набор данных содержит около 21 миллиона уникальных запросов, 700 миллионов уникальных URL-адресов, 6 миллионов уникальных пользователей и 35 миллионов поисковых сессий. Это относительно большой набор данных для конкурса Kaggle (обучающий файл составляет около 16 ГБ без сжатия), но он действительно довольно мал по сравнению с общим объемом поиска Яндекс и крошечным по сравнению с тем, что обрабатывает Google.

Данные анонимизированы, поэтому образец выглядит так (см. Полное описание формата данных — пример и его описание взяты оттуда):

  744899 П 23 123123123
744899 0 кв.  0 192902 4857,3847,2939 632428,2384 309585,28374 319567,38724 6547,28744 20264,2332 3094446,34535 90,21 841,231 8344,2342 119571,45767
744899 1403 С 0 632428
  

Эти записи описывают сеанс ( SessionID = 744899) пользователя с USERID 123123123, выполненный на 23-й день набора данных.Пользователь отправил запрос с QUERYID 192902, который содержит термины с TermIDs 4857,3847,2939. URL с URLID 632428, размещенный в домене DomainID 2384, является лучшим результатом в соответствующей поисковой выдаче. Через 1403 единиц времени после начала сеанса пользователь щелкнул результат с URLID 632428 (занимает первое место в списке).

Поначалу это может показаться сложным, но на самом деле данные довольно просты. Для каждого сеанса поиска мы знаем пользователя, запросы, которые они сделали, какие URL-адреса и домены были возвращены в поисковой выдаче (странице результатов поисковой системы), по каким результатам они нажимали и в какой момент времени выполнялись запросы и клики. произошло.

Цель и оценка №

Целью конкурса является перерейтинг результатов в каждой поисковой выдаче таким образом, чтобы документы с наивысшим рейтингом были теми, которые пользователь сочтет наиболее релевантными. Как следует из названия конкурса, персонализация результатов является ключевым моментом, но неперсонализированные подходы также приветствуются (и на самом деле сработали довольно хорошо).

Возникает вопрос, как на основе этих данных определить, какие результаты пользователь считает релевантными. В этом соревновании результаты были помечены как нерелевантные (0), релевантные (1) или очень релевантные (2).Релевантность — это функция количества кликов и времени задержки, где время задержки — это время, потраченное на результат (определяемое временем, прошедшим до следующего запроса или щелчка). Нерелевантные результаты — это те, по которым не было выполнено нажатие, или те, для которых время ожидания меньше 50 (единица времени не указана). Релевантные результаты — это те, по которым щелкнули и время ожидания от 50 до 399. Высоко релевантные результаты имеют время ожидания не менее 400 или были нажаты в качестве последнего действия в сеансе (т. Е. Предполагается, что пользователь завершил сеанс, удовлетворенный результаты, а не ушли, потому что они не могли найти то, что искали).

У этого подхода к определению релевантности есть некоторые очевидные недостатки, но он, по-видимому, хорошо коррелирует с фактической удовлетворенностью пользователей результатами поиска.

Учитывая приведенное выше определение релевантности, можно количественно оценить, насколько хорошо метод повторного ранжирования улучшает релевантность результатов. Для этого конкурса организаторы выбрали показатель нормализованной дисконтированной совокупной выгоды (NDCG), который является причудливым названием для показателя, который, говоря словами Википедии, кодирует предположения, что:

  • Высокорелевантные документы более полезны, если они появляются раньше в списке результатов поисковой системы (имеют более высокие ранги)
  • Высокорелевантные документы более полезны, чем второстепенные документы, которые, в свою очередь, более полезны, чем нерелевантные документы.

SEO идеи и другие мысли #

Ключевой вывод, имеющий отношение к SEO и конфиденциальности, заключается в том, что даже без учета отслеживания на основе браузера и таких инструментов, как Google Analytics (которые могут или не могут использоваться Google для изменения рейтинга результатов поиска), поисковые системы могут многое сделать о пользователях. поведение на других сайтах, основанное только на взаимодействии пользователя с поисковой выдачей. Поэтому, если ваши пользователи быстро откажутся, потому что ваш веб-сайт медленно загружается или занимает высокие позиции по нерелевантным запросам, поисковая система может это знать и, вероятно, наказать вас соответствующим образом.

Это работает в обоих направлениях и очевидно даже в поисковых системах, которые не отслеживают личную информацию. Просто попробуйте найти «f», «fa» или «fac» с помощью DuckDuckGo, Google, Bing, Yahoo или даже Яндекс. Facebook будет одним из лучших результатов (чаще всего первым), вероятно, просто потому, что люди, как правило, ищут или посещают Facebook после ошибочного поиска по одному из этих терминов. Поэтому, если ваш веб-сайт имеет низкий рейтинг по запросу, по которому он должен быть хорошо ранжирован, и ваши пользователи ведут себя соответствующим образом (потому что, например, они ищут именно ваш веб-сайт), вы можете волшебным образом получить лучший рейтинг без каких-либо изменений во входящих ссылки или на ваш сайт.

Еще одна вещь, которую демонстрирует набор данных этого конкурса, — это то, сколько данных учитывают поисковые системы при определении рейтинга. Набор данных — это всего лишь образец журналов для одного города за один месяц. Я не люблю произносить слова «большие данные», но полный объем данных довольно велик. Слишком большой, чтобы кто-то мог понять и полностью понять, как именно работают поисковые системы, включая людей, которые их создают. Следует иметь в виду, что для всех основных поисковых систем пользователь — это продукт, который они продают рекламодателям, поэтому поддержание удовлетворенности пользователей является ключевым моментом.Любые изменения, внесенные в базовые алгоритмы, обычно делаются с учетом интересов конечного пользователя, поскольку невыполнение таких изменений может убить поисковую систему (помните AltaVista?). Кроме того, персонализация означает, что разные пользователи видят разные результаты для одного и того же запроса. Поэтому я считаю, что заниматься поисковой оптимизацией, кроме того, чтобы делать сайт понятным для поисковых систем, получать легитимные ссылки и просто создавать веб-сайт, который люди захотят посетить, бесполезно.

Следующие шаги #

Разобравшись с этими мыслями, пора описать, как мы справились с этой задачей.Об этом мы расскажем в следующем посте, Обучение ранжированию в персонализированном поиске.

Яндекс запускает программу поиска в социальных сетях

Яндекс, крупнейшая в России компания по поиску в Интернете и сопутствующих услугах, сегодня утром объявила о запуске «программы поиска в социальных сетях» (примечание: ссылки на страницы на русском языке), направленной на внедрение контента и информации об аккаунтах из широкий спектр местных и международных социальных сетей в результаты поиска с течением времени.

Конечно, Яндекс заявляет, что программа «улучшит качество его поисковой системы», но всегда есть тонкая линия конфиденциальности, чтобы идти с этими типами функций, и вероятность того, что пользователи будут напуганы новой функциональностью, действительно высока.

Яндекс заявляет, что в настоящее время ежедневно обрабатывает более двух миллионов поисковых запросов, хотя примерно половина из них, по-видимому, предназначена для знаменитостей.

Как бы то ни было, огромное количество поисковых запросов побудило Яндекс развернуть бета-версию службы поиска людей. По сути, он позволяет пользователям Яндекса в России получать доступ и фильтровать все общедоступные профили человека с учетными записями в Facebook, Google+, LinkedIn, ВКонтакте, LiveJournal, Одноклассниках и т. Д.

А что, если есть — ах — несколько человек с одним и тем же именем?

Александр Чубинский, менеджер проектов в Яндексе, объясняет:

«Намного удобнее видеть несколько профилей одного и того же человека, сгруппированные вместе.Яндекс делает эту группировку осторожно — группируются только те профили, которые ссылаются друг на друга. Пользователи Интернета могут выбирать, хотят ли они, чтобы их профили на разных веб-сайтах отображались в результатах поиска по отдельности или сгруппированными вместе ».

Яндекс сразу же указывает, что он будет показывать только профили с сайтов социальных сетей, которые уже являются общедоступными и, следовательно, доступны для индексации поисковыми системами, но давайте посмотрим правде в глаза, сколько людей с готовностью осведомлены о том, какие части их цифровой жизни показываются и какие из них защищены от глаз публики?

Яндекс сообщает, что на сегодняшний день проиндексировано около 250 миллионов страниц личного профиля.

Завтра российская государственная телекоммуникационная компания запустит поисковую систему, которая будет конкурировать с Google и Яндексом — Tech.eu

Спустя почти 70 лет после того, как «космическая гонка» эпохи холодной войны между Соединенными Штатами и Россией была инициирована запуском последней спутника Спутник-1 на низкую околоземную орбиту, еще один запуск Спутника, вероятно, откроет новую главу в российском поиске Гонка’.

Завтра (22 мая) российский государственный национальный оператор связи «Ростелеком» представит новую поисковую систему Sputnik.ru, сообщают различные местные деловые СМИ.

Бета-версия новой государственной поисковой системы будет запущена в первый день Петербургского международного экономического форума, получившего название «Русский Давос», согласно сообщениям.

Обновление: поисковый портал теперь работает на Sputnik.ru, но только для российских IP-адресов.

Sputnik (что в переводе с русского означает «спутник») будет позиционироваться как главный конкурент Яндекс, одной из ведущих технологических компаний в России, и американского гиганта поиска и рекламы в Интернете Google.Согласно статистике LiveInternet, Яндекс занимает примерно 62% рынка поиска в России, за ним следуют Google Россия с 27,6% и Mail.Ru с 7,7%.

Проект Sputnik возглавляет Алексей Басов, вице-президент Ростелекома, у которого за плечами опыт работы в таких компаниях, как Mail.Ru, Begun и SpyLOG.

Ожидалось, что он будет активно искать таланты из Яндекс и Google Россия, но официальный представитель Яндекса Владимир Исаев сообщил tech.eu, что ему ничего не известно о каких-либо серьезных «кражах» со стороны Ростелекома ни в одной из компаний.Исаев также сказал, что почти для всех в бизнесе остается загадкой, как будет выглядеть Sputnik и во что он превратится. Другими словами, пока это «поживем-увидим» в Яндексе.

Тем не менее, некоторые ожидают, что Sputnik быстро завоюет долю рынка после запуска бета-версии на этой неделе, отчасти потому, что Ростелеком планирует сделать его службой по умолчанию в государственных компаниях и государственных ведомствах, согласно недавнему отчету The Moscow Times. Другие говорят, что Sputnik будет больше служить своего рода вертикальной поисковой системой для подконтрольных правительству корпораций и государственных ведомств только , что снизит его привлекательность для среднестатистического российского пользователя Интернета.А другие говорят, что у него нет шансов.

Более того, когда услуга будет официально представлена, можно с уверенностью предположить.

Предполагаемые инвестиции, которые были вложены в разработку Sputnik, лежат где-то между 20 и 42 миллионами долларов, что ничтожно по сравнению с инвестициями в исследования и разработки, сделанными Яндексом, не говоря уже о Google, на сегодняшний день, когда дело доходит до тонкой настройки поиска. Сервисы.

Идея поисковой системы, контролируемой государством, была впервые выдвинута в 2008 году тогдашним президентом России Дмитрием Медведевым, который не одобрял онлайн-освещение российско-грузинской войны, которое он видел.

По-видимому, разработка надежной поисковой системы требует много времени и усилий (кто знал, правда?).

В последнее время российские политики неоднократно призывали Яндекс, чей бизнес зарегистрирован в Нидерландах, а акции торгуются на бирже NASDAQ, реклассифицировать как « средства массовой информации » (и столкнуться со всеми специфическими для России ограничениями, которые влечет за собой номенклатура). ).

Ранее в этом месяце Яндекс назначил генерального директора Сбербанка Германа Грефа своим новым неисполнительным членом совета директоров, что было либо политическим, либо деловым ходом, либо тем и другим.

(Наконечник шляпы Якову Садчикову)

Сотрудник

украл исходный код «поисковой системы Яндекса» и попытался продать его всего за 29 тысяч долларов

Бывший сотрудник российской поисковой системы Яндекс якобы украл исходный код и ключевые алгоритмы ее сайта поисковой системы, а затем попытался продать их на черном рынке, чтобы профинансировать свой собственный стартап. Российское издание «Коммерсант» сообщает, что Дмитрий Коробов скачал с серверов Яндекса программное обеспечение под названием « Arcadia », которое содержало очень важную информацию, включая исходный код и некоторые «ключевые алгоритмы» его поисковой системы.

Затем Коробов попытался продать украденные коды розничному продавцу электроники NIX, где якобы работал его друг, и на темном подпольном рынке в поисках потенциальных покупателей.


Но в чем суть?

Самое смешное, что Коробов запросил всего 25000 долларов и 250 000 рублей (всего почти 29000 долларов) за исходный код и алгоритмы Яндекса, что на самом деле стоило «миллиарды рублей», или где-то около долларов 15 миллионов долларов США .

Однако Коробов был арестован Федеральной службой безопасности (ФСБ) до того, как могла состояться какая-либо сделка.

В случае успеха код основной службы Яндекса свободно перемещался по Интернету, что приводило к серьезным последствиям для компании.


В сообщении отмечается, что судебное заседание по делу Коробова состоялось в начале этого месяца, и он был приговорен к 2 годам лишения свободы условно по обвинению в незаконном хранении, а также в распространении коммерческой тайны.

Программное обеспечение Arcadia «является ключевым элементом [компании], оно имеет прямое отношение к поисковой системе Яндекса, которая является [основным] источником дохода компании», — заявил представитель Яндекса в суде.

Яндекс — самая популярная поисковая система в России и большой конкурент Google. Его рыночная доля в ноябре составила около 57% всех поисковых запросов в России по сравнению с 35,2% Google.


.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *