Яндекс | |
---|---|
Штаб-квартира Яндекса в Москве на улице Льва Толстого | |
Тип | naamloze vennootschap и ООО |
Листинг на бирже | NASDAQ: YNDX и MCX: YNDX |
Основание | 23 сентября 1997 и 2000 |
Основатели | Аркадий Юрьевич Волож и Илья Сегалович |
Расположение | Нидерланды (Место регистрации) Россия, Москва (Штаб-квартира) |
Отрасль | интернет-отрасль[d], индустрия программного обеспечения и Интернет |
Продукция | интернет-поисковая система |
Собственный капитал | ▲ 3,205 млрд долл. (2018) |
Оборот | ▲ 2,001 млрд долл. (2018) |
Операционная прибыль | ▲ 327 млн долл. (2018) |
Чистая прибыль | ▲ 745 млн долл. (2018) |
Активы | ▲ 3,810 млрд долл. (2018) |
Капитализация | ▲ 11,930 млрд долл. (2019) |
Число сотрудников |
|
Дочерние компании | КиноПоиск, |
ru-wiki.ru
Яндекс открывает «Фабрику данных» — Блог Яндекса
Сегодня мы открыли новое направление по работе с «большими данными» — Yandex Data Factory. В рамках YDF компании, которые имеют дело с огромными массивами информации, смогут решать свои задачи с помощью технологий Яндекса.
Чёткого определения у понятия «большие данные» нет. Одно из первых описаний предложили в 2001 году — оно известно как принцип «трёх V». Данные называют большими, если они обладают тремя признаками: большой объём (volume), многообразие (variety) и скорость (velocity). Последнее означает, что данные постоянно обновляются и нуждаются в своевременной обработке.
С «большими данными» имеют дело практически в любой сфере бизнеса: от банковского дела до телекоммуникаций, от коммунального хозяйства до здравоохранения. Компании собирают и хранят множество информации: планы, отчёты, сведения о действиях клиентов, показания датчиков, настройки оборудования, характеристики продукции, видео с камер наблюдения. Эта информация объёмна, разнообразна и зачастую обновляется в режиме реального времени.
Умение анализировать «большие данные» даёт много преимуществ. Выявив закономерности в данных, банк, например, сможет определить, какие продукты предложить клиентам, а поставщик коммунальных услуг — предсказать аномальные всплески потребления горячей воды и подготовиться к ним. Сложность, однако, состоит в том, что для анализа «больших данных» — в силу их объёма и разнородности — необходимы специальные инструменты. Такие инструменты есть у Яндекса.
В число технологий, которые используются для анализа данных в Yandex Data Factory, входят метод машинного обучения Матрикснет, глубокие нейронные сети, распознавание образов и речи, рекомендательные системы. Все они были разработаны Яндексом для собственных нужд — и собственных данных. Матрикснет мы изначально создавали для составления формулы ранжирования в поиске — а потом он стал использоваться и для прогнозирования пробок в Яндекс.Картах, и для таргетинга рекламы в Яндекс.Директе, и для машинного перевода текстов с одного языка на другой в Яндекс.Переводе.
Со временем мы убедились, что наши алгоритмы могут применяться и в отраслях, не связанных с интернетом — так как они не анализируют содержание данных, а выявляют в них закономерности. Первым опытом применения технологий Яндекса в сторонних проектах стало сотрудничество с Европейским центром ядерных исследований (CERN). В частности, Матрикснет лёг в основу системы поиска редких событий — данных о столкновениях частиц — в эксперименте LHCb на Большом адронном коллайдере.
В Яндексе работают очень сильные специалисты по анализу данных. А кроме того, у нас есть система их подготовки. С 2007 года обучением в этой области занимается Школа анализа данных. В 2014 году Яндекс и Высшая школа экономики открыли факультет компьютерных наук, в состав которого входит департамент больших данных и информационного поиска.
Перед публичным запуском Yandex Data Factory мы провели несколько пилотных проектов по обработке «больших данных» с компаниями-партнёрами. В частности, для компании, обслуживающей линии электропередач, в Yandex Data Factory создали систему, которая анализирует сделанные беспилотниками снимки и автоматически выявляет угрозы: например, деревья, растущие слишком близко к проводам. А для автодорожного агентства проанализировали данные о загруженности дорог, качестве покрытия, средней скорости движения транспорта и аварийности. Это позволило в режиме реального времени составлять прогноз заторов на дорогах на ближайший час и выявлять участки с высокой вероятностью ДТП.
Услугами Yandex Data Factory могут воспользоваться как российские, так и зарубежные компании из разных отраслей. Подробности о Yandex Data Factory можно узнать на сайте проекта.
yandex.ru
Кто обеспечивает доступность сервисов Яндекса — Академия Яндекса
Сервисы Яндекса постоянно сталкиваются с большой нагрузкой: дестабилизировать работу могут как сбои в дата-центрах, так и изменения в приложениях. Чтобы пользователи этого не замечали, в Яндексе работает «Дежурная смена» — команда специалистов по доступности сервисов (SRE), которая включает дежурных администраторов, инженеров и менеджеров. Мы поговорили с Кирой Харитоновой и Димой Меликовым о том, как выглядит их рабочий день, с какими необычными неполадками они сталкивались и как стать системным инженером.
Чем занимаются специалисты по доступности сервисов
Команда «Дежурной смены» помогает сервисам выкатывать релизы и устраняет неполадки в работе продуктов Яндекса. Неполадки могут возникать из-за проблем в «железе» (например, недостаточной мощности серверов) и из-за ошибок при выкатке изменений. За год Яндекс проводит около 80 000 релизов, иногда они перегружают сервера и с работой привычных приложений возникают сложности. Кроме того, программное обеспечение может плохо встраиваться во внутреннюю инфраструктуру Яндекса.
Доступность сервисов зависит как от качества разработки, так и от мощности серверов и инфраструктуры.«Проблемы возникают и на стороне самих дата-центров. Например, могут возникнуть неполадки у облачного провайдера или может нарушиться энергообеспечение дата-центров. Бывают и сезонные проблемы, например, когда ремонтные рабочие при замене асфальта повреждают кабели дата-центров», — рассказывает руководитель «Дежурной смены» Дима Меликов. — «А однажды работа дата-центра, который использовал Яндекс, застопорилась из-за того, что в трансформаторную будку забралась кошка».
Когда возникают неполадки в работе, дежурный администратор должен сперва оценить их приоритет. Затем ему нужно изолировать проблему или минимизировать её воздействие на пользователей.
У дежурных администраторов есть несколько стандартных способов для изоляции проблем. Первый — деградация сервисов, когда дежурный отключает часть функций, которые пользователи меньше всего замечают. Это позволяет на время снизить нагрузку и разобраться с проблемой.
Если возникает проблема с дата-центром, то дежурный администратор может сообщить пользователям, что он временно не работает. Затем ему нужно связаться с дата-центром, разобраться, в чём возникла проблема, и проконтролировать сроки её решения.
Когда дежурный администратор не может изолировать проблему, возникшую из-за релиза, сам, он сообщает о ней в команду сервиса — и разработчики ищут ошибки в новом коде. Если и им не удалось разобраться, то администратор должен привлечь к работе разработчиков из других продуктов или инженеров по доступности сервисов.
Алгоритм работы дежурного администратораДежурному администратору нужно общаться с людьми и знать, к кому обратиться в случае проблемы. Команда «Дежурной смены» взаимодействует с:
- дата-центрами (чтобы знать, когда выключают сервера)
- сетями и сетевыми инженерами
- инфраструктурой внутреннего облака Яндекса (часть «Дежурной смены» занимается поддержкой разработчиков и пользователей)
- разработкой сервисов (чтобы команда знала, как работают те или иные компоненты и почему они могут сломаться)
- менеджерами (потому что масштабные запуски осуществляет «Дежурная смена»)
Куда расти
Дежурные администраторы, набравшись опыта, могут стать инженерами по доступности сервисов. Это требует более глубинного знания инфраструктуры: инженеры по доступности сервисов разбираются не с экстренными запросами, а с фундаментальными проблемами в архитектуре сервисов.
«Инженеры по доступности используют различные инструменты диагностики, такие как strace, tcpdump и gdb. Однако фундаментальные знания важнее работы с инструментами», — рассказывает Кира Харитонова, технический менеджер в «Дежурной смене». Опенсорс-решения могут радикально изменяться или, наоборот, авторы могут перестать их обновлять. Кира вспоминает, что несколько лет назад многие инженеры доступности изучали openvz, а потом появились более современные инструменты.
Дежурные администраторы могут вырасти не только в инженеров по доступности, но и в технических менеджеров. Они отличаются от продактов и проджектов в первую очередь тем, что часть времени занимаются непосредственно разработкой. Кира Харитонова говорит, что примерно 30% времени программирует, 50% помогает коллегам разбирать инциденты и организует их работу, а 20% занимается долгосрочными задачами, например, написанием новых инструментов для команды.
Так, «Дежурная смена» создала платформу, в которой отображаются графики работы дежурных администраторов, события (например, выкатка релизов) и инциденты. Ещё команда создала инструмент для создания тикетов — отчётов об инцидентах. Обычно дежурные администраторы первым делом создают тикет и только потом начинают решать проблему. В «Дежурной смене» отчёты формируются автоматически: в них отображается краткое описание инцидента, результат диагностики и графики, показывающие загруженность серверов.
Как стать специалистом по доступности сервисов
В «Дежурную смену» приходят люди из разных сфер. Кира Харитонова начинала Linux-администратором в банке, а потом пришла в Яндекс работать техническим менеджером. А Дима Меликов занимался системным администрированием.
Главный навык для того, чтобы поддерживать доступность сервисов, — умение решать задачи в непростых условиях. «Я знаю много отличных программистов, у которых начинают трястись руки в стрессовых ситуациях — и они теряются», — рассказывает Дима Меликов.
Специалистам важно знать, как работает операционная система Linux, чтобы понимать, где возникают проблемы. Дежурным администраторам, инженерам и техническим менеджерам нужно знание Python, он позволяет автоматизировать рутинные задачи.
Можно быть очень хорошим инженером и уметь делать задачи вручную, но когда у тебя несколько тысяч серверов, ты физически не успеешь разобраться с ними всеми одновременно
Для того, чтобы больше узнать о профессии дежурного системного администратора, полезно будет начать с этих двух книг:
- Эви Немет, Гарт Снайдер и др. Unix и Linux. Руководство системного администратора.
- Марк Лутц. Изучаем Python, 5-ое издание.
Однако практический опыт важнее теоретических знаний, а чтобы его набраться, можно пойти на стажировку в «Дежурную смену». От стажёров в команде ждут в первую очередь понимания того, как архитектурно устроена операционная система, какие проблемы могут привести к недоступности сервисов и как их можно решать.
Обычно начинающим дают задачи по автоматизации. Дима Меликов рассказывает, что последний стажёр занимался написанием скриптов для поиска проблем в видеотрансляциях. А до этого новый член «Дежурной смены» помогал с написанием телеграм-бота, с помощью которого можно узнать график дежурств и выпуска новых релизов. Стажёры не дежурят в одиночку: к ним всегда прикреплён наставник, который поддерживает и помогает.
Узнать больше о стажировке в «Дежурной смене»
academy.yandex.ru
Компания Яндекс — Технологии — Технология Крипта
Благодаря Крипте каждый из миллионов людей, которые заходят на сайты сервисов Яндекса и его партнёров, видит на их страницах предложения, которые могут быть актуальны именно для него. Другими словами, эта технология даёт рекламодателям возможность показывать свои объявления только тем, на кого они рассчитаны, например людям определенного возраста, дохода и привычек, которые живут в конкретном районе города. Выяснить, принадлежит ли пользователь к такому сегменту, Крипта может по его поведению в интернете.
Система специально устроена так, что Крипта не получает личной информации о людях и тем более не передаёт её рекламодателям. Каждый пользователь для неё — это набор идентификаторов. Крипта может с высокой вероятностью предположить, что пользователю с таким-то идентификатором может быть интересно такое-то предложение, — но кто этот человек, как его зовут и тому подобное, она не знает.
Крипта работает на основе различных методов машинного обучения. Чтобы установить признаки, по которым человека можно отнести к какой-либо группе, она исследует сетевое поведение её типичных представителей: какие слова они используют в запросах, сколько запросов задают за сессию, какие сайты посещают, в какое время суток выходят в интернет и т. д. — всего около 300 факторов.
Затем Крипта рассчитывает значимость каждого фактора для конкретного сегмента пользователей. В итоге получается формула, с помощью которой вычисляется вероятность принадлежности пользователя к данной группе. Эти данные пересчитываются каждый день, чтобы успевать реагировать на изменения в интересах людей. Например, если переход в другую возрастную группу требует времени, то стать автолюбителем можно очень быстро. Сама формула тоже время от времени проверяется и, если нужно, корректируется.
«Склейка» профиля из идентификаторов браузеров и устройств
Как уже было сказано выше, пользователь для Крипты — это не человек с именем и фамилией, а набор идентификаторов. Но почему набор? Дело в том, что каждое устройство и браузер, которым человек пользуется для выхода в сеть, имеет свой уникальный идентификатор — файл cookie, который сайты используют, чтобы узнавать пользователя и, например, не спрашивать каждый раз пароль для входа. Свои идентификаторы есть и у приложений — если приложение (например, Карты или Навигатор) отправляет данные на сервера Яндекса, информацию из его идентификатора Крипта тоже учитывает.
Крипта умеет определять, что все эти идентификаторы принадлежат одному пользователю. В результате их «склейки» можно получить более полный портрет человека и распределять рекламные сообщения между его устройствами и приложениями. Например, человеку, который со своего домашнего компьютера часто ищет что-то про средиземноморскую кухню, можно в Навигаторе показать рекламу греческого ресторана, когда он будет проезжать неподалёку.
Для «склейки» применяются два метода — вероятностный и факторный.
Первый позволяет предположить, что два устройства принадлежат одному человеку, если поведение их пользователей очень похоже.
Второй работает с более явными свидетельствами — например, фактором для «склейки» идентификаторов устройств может быть использование одного и того же логина на каком-нибудь сервисе.
Правда, даже такой фактор нельзя трактовать однозначно, ведь одним логином часто пользуются несколько человек, члены семьи или коллеги. Поэтому на последнем этапе «склейки» производится обратный процесс, «расклейка» — устранение лишних и ненадёжных связей.
Данные Крипты о социально-демографических характеристиках аудитории учитываются при отборе контекстных объявлений, которые показываются на сайтах Рекламной сети Яндекса. В медийной рекламе Крипта применяется для показа баннеров людям определенного пола и возраста или, например, только тем, кто почти не смотрит телевизор.