Сра сети что это: Что такое CPA-сети: схема работы и рейтинг лучших партнерок

Содержание

Что такое СРА и партнерские сети в Украине

СРА-сети, партнерские сети, afiliate-маркетинг — все эти названия объединяют понятие одного и того же явления. А именно специализированного сервиса, который выступает посредником между рекламодателями и веб-мастерами.

Рассмотрим конкретнее, что же такое СРА. Это сокращение от Cost Per Action, что в переводе означает “оплата за действие”. То есть, партнер, он же веб-мастер, получает вознаграждение за то, что приводит новых пользователей, которые в свою очередь совершают определенное действие. Целевые действия могут быть разными и зависят от цели рекламы. Это может быть отправка заявки с контактными данными, покупка товара/услуги, регистрация на сайте, участие в опросе, установка приложения или переход на страницу.

Главное преимущество СРА-модели в том, что рекламодатель платит не за показы или клики, а за конкретные, нужные ему действия и только после того, как эти действия получит. Таким образом рекламодатель не сливает бюджет “в никуда”, а сама модель является результативной и экономически-эффективной.

Из выше написанного становится ясно, что в СРА-сети есть три основных типа участников:

  • сама партнерская сеть;
  • рекламодатель — продавец товаров и услуг, который предлагает к размещению свою рекламу;
  • веб-мастер (агент, паблишер, владелец сайта).

Кто такой веб-мастер? Это человек, который умеет лить трафик куда нужно и готов продвигать товар по партнерской схеме. Веб-мастер может владеть собственным сайтом, форумом или блогом, на котором собственно и разместит рекламу. Но может также быть “арбитражником”, без собственного сайта, но со знаниями и умениями размещения рекламы в правильных источниках (например, соц.сети, таргетированная, контекстная реклама, рассылка по почте и другое). Арбитражник настраивает рекламу таким образом, чтобы максимальное количество людей, увидевших продукт, превратилось в покупателей. Веб-мастер настраивает целевые аудитории, разрабатывает изображения и видео для рекламных объявлений, прописывает тексты, тестирует рекламные кампании.

Admitad Affiliate — крупная партнерская сеть, что работает более, чем с 1 600 рекламодателями, среди которых Aliexpress, Rozetka, Booking, Цитрус и множество других крупных компаний. Основным преимуществом в работе веб-мастера с Admitad Affiliate является возможность взаимодействовать с такими большими компаниями. Поскольку далеко не все крупные игроки хотят иметь дело с паблишерами напрямую.

Admitad Affiliate предоставляет широкий выбор партнерских программ и работает в таких нишах:

  • интернет-магазины;
  • финансы;
  • онлайн-игры;
  • туризм;
  • mobile;
  • образовательные услуги.

Веб-мастер легко может найти интересующую его категорию предложений и начать работать с понравившейся компанией.

Admitad Affiliate берет на себя следующие функции:

  • привлечение рекламодателей и агентов;
  • отбор подходящих для рекламы сайтов;
  • учет переходов и целевых действий, совершенных приведенными посетителями;
  • создание интерфейсов для работы рекламодателей и агентов;
  • выплата владельцам сайтов;
  • подготовка рекламных материалов, при необходимости.

Преимущества партнерских сетей кажутся очевидными, но всё же подрезюмируем.

Плюсы для веб-мастера:

  • не нужно самостоятельно искать рекламодателей;
  • можно выбрать среди рекламодателей того, кто соответствует ресурсу паблишера, нише или пожеланиям;
  • партнерская сеть избавляет агента от поиска статистики по компаниям и заключения договоров с каждым по отдельности;
  • также партнёрка является гарантом того, что рекламодатель выплатит веб-мастеру все комиссии.

Преимущества для рекламодателя:

  • фиксированные расходы на интернет-рекламу, поскольку стоимость целевого действия четко определена;
  • освобождение от процессов, которыми продавец не хочет заниматься самостоятельно;
  • отличные результаты при минимальном участии;
  • нет необходимости договариваться о рекламе с разными владельцами сайтов и платить им по отдельности;
  • цена конверсии в высококонкурентных тематиках по СРА может быть ниже, чем при работе с SEO или контекстной рекламой.

Кому же подходит СРА-модель? 

Данная модель подойдет тем, у кого:

  • есть простой и “массовый” продукт с широкой аудиторией и географией;
  • продукт нацелен на В2С сегмент;
  • продукт подходит для продвижения в интернете;
  • конкурентоспособная цена продукта;
  • есть возможность установить пиксель на сайт.

В Украине affiliate-маркетинг довольно молодая отрасль, но несмотря на это довольно быстро развивается. Уже тысячи брендов активно сотрудничают с партнерскими сетями и привлекают новых клиентов в свой бизнес. Этому также способствовал карантин 2020-го года, поскольку большое количество компаний ушли в онлайн.

Важно также отметить рост доли мобильных покупателей. В Украине, как и в мире в целом, люди все чаще оформляют онлайн-заказы. Поэтому продвинутые бренды делают ставку на мобильную аудиторию и активно используют СРА-каналы для привлечения новых покупателей. Что тут говорить, рынок e-commerce в 2020 году в Украине вырос на 41% по сравнению с 2019 годом. Онлайн оплаты стали привычным делом для украинцев, их количество возросло на 50% только за последний год.

За последние несколько лет рынок партнерского маркетинга вырос вдвое. Сначала были банки, потом крупные магазины, начало расти количество интернет-сервисов, таких как доставка еды и микрокредитование. Если раньше компании могли сторониться affiliate-маркетинга, то после нескольких успешных кейсов и появления крупных веб-мастеров всё поменялось.

На сегодняшний день СРА-сеть — это мощный инструмент по решению множества задач маркетинга. Просто must have для бизнеса в интернете, с помощью которого можно привлечь трафик из новых источников, повысить средний чек, реализовать программу лояльности для клиентов, снизить количество невыкупленных заказов и просто упростить себе работу, делегировав сети множество процессов.

Поэтому предлагаем вам уже сейчас начать знакомство с Admitad Affiliate — это настоящий буст для вашего бизнеса или личной деятельности. Не теряйте времени — регистрируйтесь, и давайте работать вместе.

CPA-сети: преимущества для рекламодателя

Современный рекламный рынок пестрит разнообразием, открывая перед пользователями невиданные ранее перспективы. Одними из эффективных и недорогих инструментов рекламирования товаров/услуг считаются CPA-сети (Cost Per Action, цена за действие). Прямой рекламодатель, использующий CPA-модель, платит не за весь трафик, а за привлечение целевой аудитории, которая имеет реальный интерес к продукту. Оплачиваемым целевым действием может быть регистрация, покупка, скачивание, прохождение определенного сценария.

Преимущества

Одним из важнейших моментов сотрудничества с такими CPA-сетями является полный контроль процессов. Это достигается благодаря экспертизе в нутра-вертикали. Следовательно, офферы и промо-материалы могут дать высокую конвертацию и ROI (Return On Investment, коэффициент возврата инвестиций). Прямое сотрудничество с партнерами позволяет компании значительно расширить свои возможности и снизить тарифы. Поэтому заказчики здесь могут рассчитывать на довольно выгодные условия. Среди других преимуществ CPA-сетей необходимо выделить:

• топовый аппрув;

• своевременную оплату;

• локализированные промо;

• прибыльные ниши;

• оперативная поддержка.

Такие CPA-сети имеет собственные колл-центры, продающие прибыльные офферы. Это позволяет получать нейтив-звонки из многих регионов, что способствует повышению аппрува — это очень важно в любом бизнесе. Благодаря хорошо отработанной и апробированной схеме клиентура может рассчитывать на неплохой эффект в небольшие сроки.

Готовые решения

Ведущие CPA-сети предлагает своим клиентам быстрые расчеты. А получать их можно через разные платежные системы и сервисы. При этом активным пользователям начисляются бонусы.

Выбор способа оплаты зависит от заказчика. Все предлагаемые решения уже адаптированы и переведены с учетом особенностей проекта. Это касается лендингов и транзитных страниц под открытые geo (гео, географический регион, откуда принимается трафик на оффер). Клиентам остается лишь взять их и запустить поток трафика.

Команда сервисов имеет огромный опыт, накопленный в качестве прямого рекламодателя. Поэтому там прекрасно знают и подскажут наиболее перспективные ниши. Учитывается при этом показатель ROI, и после подтверждения клиентом команда делает на него фокусировку.

В распоряжении аффилиатов — квалифицированная поддержка CPA-сетей. Здесь работают высококвалифицированные менеджеры, помогающие в решении различных проблем. Под их руководством вы легко сможете подобрать подходящий оффер.

На правах рекламы

Товарные CPA сети: размышления на тему

Сегодня многие озадачены вопросом заработка в сети Интернет. Это и не странно. Мир все больше “диджитализируется”, уходит в онлайн. В условиях пандемии COVID-19 и карантина эти процессы только ускорились. Все больше людей переходят на удаленные модели работы. Кто-то вынуждено, т.к. его прежняя оффлайн работа не выдержала очередного локдауна и закрылась.

Данная статья это моё мнение на тему заработка в сети одним из самых доступных способов, т.к. для него чаще всего можно обойтись исключительно своими временными затратами. Материал не претендует на абсолютную правоту и не содержит призывов к действию. Это всего лишь мысли для размышлений.

И так, речь пойдет о партнерских сетях, работающим по CPA (Cost per action) модели. CPA – это модель с оплатой за действия, т.е. рекламодатель платит вебмастеру только за целевые действия, которые ему выгодно получить. Таким целевым действием может быть как продажа товара, так и установка приложения, либо регистрация пользователя.

Что такое товарная CPA сеть?

Несмотря на то, что товарная CPA сеть – это посредник между вебмастером и рекламодателем, работать через такую сеть чаще всего выгоднее, чем напрямую с рекламодателем. Прежде всего это связано с тем, что сеть агрегирует в себе множество предложений, т.е. это не один оффер с ограниченным набором товаров, а множество рекламодателей с разными товарами, что расширяет возможности для заработка. Это так же дает некие гарантии для вебмастера в том, что он действительно получит свой заработок, т.к. СРА сеть заинтересована в удовлетворении интересов как рекламодателей, так и вебмастеров.

Помимо этого, часто рекламодатели самостоятельно не работают с вебмастерами, а передают эту обязанность в СРА сети. Таким образом, рекламировать товары таких рекламодателей по другому и не получится.

Как зарабатывать в товарной CPA сети?

Способов заработка в товарной СРА сети есть несколько. Самый простой – это реклама товаров рекламодателя на своем сайте, группе в социальных сетях, канале YouTube или других подобных ресурсах. Естественно, чтобы хоть что-то заработать, необходимо чтобы ваш ресурс должен иметь достаточную популярность, посещаемость и подписчиков, которые будут читать посты, смотреть видео, переходить по ссылкам и делать покупки. Если вы только начинаете создание своего ресурса и не имеете большого бюджета на его эффективное продвижение, то будьте готовы к тому, что процесс старта может растянуться на несколько месяцев упорной ежедневной работы.

Альтернативой собственному ресурсу может быть арбитраж трафика. Хочу сразу отметить, что данный способ требует не только хороших финансовых вложений, но еще хорошего понимания рынка трафика, где и какой трафик лучше искать, куда направлять. Арбитраж связан с постоянными экспериментами и тестами трафиков и рекламных материалов. Данный вид заработка в товарной СРА сети точно не подойдет новичкам, так как высока вероятность слить бюджет так ничего и не заработав.

Как выбрать товарный оффер?

Немаловажным моментом работы в товарных СРА сетях является выбор товарного оффера. От правильности его выбора будет зависеть уровень дохода. Тут необходимо обращать внимание на тематику и сколько времени сохраняются куки с данными о переходе пользователя. Многие СРА сети предоставляют статистику о средних показателях оффера, времени холда и прочие данные, которые могут помочь выбрать тот оффер, который даст гарантированную прибыль. Выбор оффера стоит выбирать с учетом того типа трафика, который вы можете привлечь. Для этого необходимо анализировать статистику ваших ресурсов и любыми доступными способами анализировать посетителей, чтобы лучше понимать что они ищут, когда приходят к вам. Если этого не делать, то высока вероятность, что уровень конвертации трафика в действия (покупки) будет очень низким и не оправдает ожидания.

Как повысить доход от партнёрки?

Одним из способов увеличения дохода от партнерских программ является постоянное тестирование новых офферов с целью выявления наиболее актуальных и действенных вариантов. Стоит помнить, что лучше всего размещать рекламные материалы в максимально тематических материалах. Если ваш ресурс на обширную тематику, то стоит позаботиться о том, чтобы реклама максимально соответствовала тематике отдельных разделов или публикаций.

Поделиться ссылкой:

Понравилось это:

Нравится Загрузка…

Похожие публикации

Laney Solutions — Sanford Rose Associates (SRA)

Наше сотрудничество с Sanford Rose Associates®

Сеть Sanford Rose дает компании Laney Solutions крупномасштабные конкурентные преимущества.

Sanford Rose Associates состоит из элитной сети независимых фирм по поиску руководителей, которые обеспечивают персональное обслуживание и безраздельное внимание к нашим клиентам и кандидатам. Наше членство в Международной федерации поиска руководителей, Kaye/Bassman International, Next Level Exchange и Next Level Marketing Communications обеспечивает нашим клиентам уникальную основу, которой сегодня нет больше нигде в индустрии поиска.

Экспертиза.

Sanford Rose Associates Владельцы офисов имеют в среднем более 20 лет опыта работы на рынках, которые мы обслуживаем, что позволяет точно понимать, что нужно клиентам. Этот уровень специализации позволяет нам быть настоящими консультантами, которые могут предложить нашим клиентам идеи, недоступные из любого другого источника. Благодаря этому узкоспециализированному опыту у нас сложились давние отношения с кандидатами, и мы можем не только быстро определить подходящих потенциальных клиентов, но и глубоко понять культурные нюансы, сравнительные структуры, критические наборы навыков, информацию о вознаграждениях и льготах.В большинстве случаев требуются годы, чтобы заслужить право строить отношения с лучшими существующими талантами, и офисы Sanford Rose Associates потратили десятилетия, чтобы заработать право быть доверенными советниками этого высшего уровня.

Массив услуг.

Благодаря разветвленной сети Sanford Rose Associates мы можем предоставить нашим клиентам набор услуг, намного превосходящий возможности большинства организаций, занимающихся поиском руководителей. Соглашения настраиваются в зависимости от конкретных потребностей клиента и могут варьироваться от одной позиции до крупномасштабной инициативы роста или временных услуг.Клиенты получают выгоду от таких ресурсов, как профилирование поведения, видеоинтервью, стратегии в социальных сетях, возможности электронного поиска и конкурентный анализ. Sanford Rose Associates имеет возможность проводить внутренние обучающие семинары для наших клиентов по различным темам: от передового корпоративного рекрутинга до эффективных стратегий адаптации и удержания.


Удержание.

В Sanford Rose Associates наша миссия состоит не только в том, чтобы помочь нашим клиентам в привлечении самых лучших специалистов, но и в том, чтобы сохранить эти таланты в долгосрочной перспективе.Материнская компания Sanford Rose четырежды была названа «Лучшей компанией для работы» и предоставляет консультационные услуги клиентам, желающим создать культуру удержания и производительности. Кто может лучше помочь организациям сохранить и удержать лучших и умнейших, чем организация, которая получила награды за то, что сделала это самостоятельно.


Достоверность.

Владельцы и консультанты по поиску Sanford Rose Associates регулярно обращаются к специалистам отрасли за экспертными знаниями, и они признаны экспертами The Wall Street Journal, CNBC, Fortune, Business Week, USA Today, Fox News, Inc.Magazine, Bloomberg, CNN и другие местные и нишевые издания. Как дочерняя компания Sanford Rose Associates, Next Level Exchange признана ведущей учебной организацией № 1 для индустрии поиска, обучившей более тысячи организаций рекрутинговых фирм в более чем тридцати странах мира. Мы не только живем в лучших практиках профессии поиска, мы учим и делимся ими со всей индустрией поиска руководителей.


Глобальный охват.

Sanford Rose Associates предлагает уникальное сочетание местных знаний и международного присутствия. Мы предоставляем нашим клиентам всестороннее консалтинговое решение в области человеческого капитала, объединяющее рыночный опыт, а также международные и мультикультурные ценности наших партнеров в единый процесс для обеспечения вашего успеха.
Подтвержденный послужной список: Sanford Rose Associates и ее материнская компания занимают 10-е место среди крупнейших поисковых компаний США по версии Executive Search Review; демонстрируя нашу способность предоставлять таланты того калибра, которого требуют и заслуживают наши клиенты.На протяжении более 50 лет Sanford Rose Associates поддерживает эксклюзивную сеть офисов, которые остаются непревзойденными с точки зрения профессионализма, производительности и обслуживания, превосходящего ожидания наших клиентов.

Двухгодичная встреча SRA 2022 пройдет 3–5 марта в Новом Орлеане, штат Луизиана.

Заявки на участие в программе SRA COVID-19 Network Early Career Scholars Fellowship закрыты!
Уведомления о решениях будут разосланы до конца декабря 2021 года.

Общество исследований подросткового возраста (SRA) в партнерстве с Фондом Джона Темплтона и Международным консорциумом научных обществ развития с целью ученых со всего мира для изучения влияния пандемии COVID-19 на развитие молодежи.

Ученые, начинающие карьеру в сетевой программе SRA COVID-19 :

  • Посетят виртуальную предварительную конференцию SRA по COVID-19 и развитию подростков, которая состоится 9 февраля с 8:00 до 13:00 по восточному времени США (регистрация бесплатная но обязательно), чтобы узнать о возможностях международного сотрудничества и встретиться со старшими наставниками, которые поддержат их работу.

  • Иметь право на получение средств на поездки для поддержки своего личного присутствия (когда это возможно) на конференции SRA в Новом Орлеане с 3 по 5 марта 2022 г. снова встретиться со своими наставниками для планирования проекта.

  • Подайте заявки на первоначальные гранты в размере 10 000 долларов США для поддержки их текущего исследовательского сотрудничества.

  • Посетите виртуальную встречу с другими стипендиатами в следующем году для дальнейшего обучения работе с рукописями и подачи заявок на гранты для международных ученых.

Приемлемые ученые:

  • Зачислены в программу докторантуры или в течение 10 лет после получения профессиональной или докторской степени

  • Занимаются исследованиями в области развития подростков

Заявки ученых из стран с низким и средним уровнем дохода будут иметь приоритет для достижения целей программы международного сотрудничества.

Заявки принимаются до 8 декабря 2021 г. Решения о финансировании будут объявлены к концу декабря.

Вопросы по программе следует направлять доктору Дженнифер Лэнсфорд ([email protected]) или доктору Суману Верме ([email protected]).

Project SHADOWSTAR: управляемый данными подход к перечислению сетевых блоков (часть 1)

Разведка (рекогносцировка) является критически важной, но часто недостаточно обслуживаемой областью информационной безопасности.Для большинства разведка просто не имеет такой привлекательности, как ее собратья: перечисление, эксплуатация, эскалация и т. д., и поэтому она часто не получает того внимания, которого по праву заслуживает.

 

лир; ДР

В этом посте мы ставим разведку в центр внимания и обсуждаем:

  • Введение в перечисление сетевых блоков и почему это важно.
  • Обсудите некоторые сетевые протоколы, историю Интернета и методы подсчета, которые обычно используются.
  • Некоторые ловушки, с которыми мы столкнулись при использовании этих существующих протоколов и методов.

В продолжении этой публикации (скоро) мы покажем вам, как мы повысили уровень нашей разведывательной игры в SRA, чтобы автоматизировать этот процесс и использовать преимущества этих методов. Мы также рассмотрим выпуск SHADOWSTAR, чтобы вы могли повысить уровень своей разведывательной игры.

 

Введение в сетевые блоки

Сетевые блоки являются основным интернет-ресурсом, которым владеют многие организации. Каждый сетевой блок соответствует диапазону IPv4 или IPv6, назначенному конкретному объекту.Их размер может варьироваться от очень больших блоков тысяч IP-адресов, таких как 108.177.0.0/16, до одного IP-адреса, такого как 108.177.16.19/32. Объект может владеть несколькими блоками, а иногда один блок может принадлежать нескольким объектам одновременно посредством процесса, называемого подраспределением . Вскоре мы коснемся подраспределения.

Со всеми сетевыми блоками и адресным пространством в мире было бы трудно, чтобы одна организация координировала все распределения по всему миру.Вот где

реестров вступают в игру.

Реестры существуют для управления, организации и распределения сетевых блоков мира и объединены в иерархическую систему. Реестры работают на разных уровнях, большинство из которых знакомы с региональной разновидностью , такой как ARIN и RIPE-NCC . Подобные региональные интернет-реестры (RIR) сами управляют целыми географическими регионами; однако некоторые RIR, такие как APNIC и LACNIC , дополнительно передают управление национальным интернет-реестрам (NIR), которые, в свою очередь, могут еще больше объединяться с локальными интернет-реестрами (LIR) и интернет-провайдерами (ISP).

В дополнение к реестрам существуют различные международные организации, помогающие координировать распределение и назначение этих ресурсов. Основными игроками здесь являются IANA (Управление по присвоению номеров в Интернете) и NRO (Организация ресурсов номеров). Их основная работа заключается в работе с реестрами для координации их распределения и обеспечения отсутствия проблем, а также для предоставления общественности статистических данных, чтобы показать тенденции распределения с течением времени.

Подраспределение происходит, когда объект, владеющий сетевым блоком, решил разделить блок на несколько частей и передать эти части другим объектам для работы (возможно, автономно). Важно различать, что с подраспределением мы

НЕ говорим о таких объектах, как ARIN и RIPE-NCC , а о таких объектах, как интернет-провайдеры, которые владеют большими сетевыми блоками, выделенными им реестром, например ARIN ; именно интернет-провайдеры и им подобные выполняют субраспределение для своих клиентов или партнеров.

И последнее замечание, касающееся подраспределения , заключается в том, что от субъектов перераспределения строго не требуется сообщать о своих подраспределениях обратно в NIR/RIR; следствием этого является то, что интернет-реестры могут не иметь (и экспериментально часто не имеют) полной записи обо всех сетевых блоках, принадлежащих организации. Примечание: Это интересный момент, который позже станет поводом для обсуждения использования данных BGP и IRR.

Перечисление сетевых блоков относится к процессу идентификации сетевых блоков, которые были выделены или назначены конкретному объекту.Перечисление сетевых блоков играет решающую роль на этапе разведки теста на проникновение и помогает обеспечить видимость IP-пространства, в котором может размещаться локальная инфраструктура или другие тестируемые системы. Обычно перечисление сетевых блоков достигается с помощью поиска по ключевому слову с использованием множества различных методологий.

Для получения дополнительной информации о реестрах, дополнительном распределении и других подробностях, касающихся управления номерами в Интернете, см. документ RFC 7020 [1] .

Если вы что-то и вынесете из этого раздела, так это то, что когда вы садитесь за выполнение процесса перечисления сетевых блоков , необходимо учитывать множество различных объектов в зависимости от вашего клиента и области действия. В следующем разделе мы рассмотрим преобладающие методологии, существующие для перечисления сетевых блоков.

 

Перечисление сетевых блоков — типичные методы обнаружения

Способ, которым мы использовали для перечисления сетевых блоков в SRA для тестов на проникновение и Red Teams, заключался в выполнении поиска по ключевым словам в RIR.Мы просматривали веб-службы WHOIS, представленные на соответствующих веб-сайтах, и собирали любые сетевые блоки, соответствующие нашим запросам.

Вместо того, чтобы делать это таким образом, вы также можете собирать эту информацию от RIR, используя два разных протокола поиска: WHOIS и RDAP ; эти протоколы позволяют вам запрашивать ресурс, такой как IP-адрес или доменное имя, и получать регистрационную информацию, то есть, кому он принадлежит. Давайте немного изучим их.

WHOIS по-прежнему является очень широко используемым протоколом: согласно докладу ARIN 42 под названием «Защита службы каталогов» [2] , 90% запросов ARIN по-прежнему поступает из WHOIS через порт 43.Напомним, WHOIS позволяет выполнять только поиск и все. Более того, сами поиски в WHOIS не очень полезны, поскольку вы не можете выполнять какой-либо поиск по ключевым словам.

С учетом сказанного, каждый RIR, похоже, разработал в той или иной степени нестандартные расширения для WHOIS, чтобы сделать возможными более надежные запросы. ARIN и RIPE-NCC разработали свои собственные (несовместимые) веб-службы, которые обертывают протокол WHOIS и значительно упрощают выполнение надежного перечисления, веб-службу WHOIS Restful (WHOIS-RWS).А как насчет других RIR: LACNIC, AFRINIC, APNIC? Исторически сложилось так, что у нас всегда были трудности с вводом в действие этих RIR и объяснением того, почему это помогает обсуждать различные интерфейсы поиска, существующие для RIR.

 

WHOIS, WHOIS-RWS и RDAP

Скорее всего, вы раньше не слышали о RDAP , поэтому прежде чем продолжить, мы рассмотрим некоторые фундаментальные различия между RDAP и WHOIS. RDAP — относительно новый протокол, определенный в 2015 году в RFC 7480 [3] .Основными причинами существования протокола являются стандартизация и интернационализация .

Протокол WHOIS пострадал от собственного успеха. Он стал одним из наиболее широко используемых протоколов с момента его определения в 1985 году, однако сам протокол не имеет механизмов для решения общих проблем интернационализации, таких как текстовые кодировки, отличные от ASCII. Это, в сочетании с тем фактом, что определение протокола WHOIS очень минимально, привело к несогласованности реализации между RIR. RDAP предназначался для исправления этих и других недостатков WHOIS .

Примечание. RDAP — это не то же самое, что WHOIS-RWS . Простота и повсеместность WHOIS привели к появлению мощных веб-сервисов RESTful (RWS), которые предоставляются такими реестрами, как ARIN [4] и RIPE-NCC [5] .

Вот почему у нас возникли трудности с вводом в эксплуатацию APNIC, LACNIC, AFRINIC, поскольку у них нет того типа WHOIS-RWS, что есть у ARIN/RIPE; вместо этого они просто предоставляют веб-интерфейс для выполнения прямого поиска в WHOIS.Напомним, что в обычном WHOIS нет понятия «поиск» или «организация», только поиск объектов. RIR реализуют свои собственные расширения для предоставления этих абстракций по своему усмотрению, а APNIC, LACNIC и AFRINIC просто не предоставляют интерфейс, который нам нужен.

Вернуться к RDAP. Вы можете думать о RDAP как о «WHOIS через HTTP». RDAP — это, по сути, REST API, который возвращает информацию о регистранте в виде структурированных данных в формате JSON. Вот пример с RDAP-сервера ARIN:

.

https://rdap.arin.net/registry/ip/8.8.8.8

Этот поиск будет аналогичен поиску в WHOIS на 8.8.8.8. RDAP также поддерживает стандартный интерфейс поиска, который позволяет выполнять поиск по ключевым словам, в отличие от WHOIS, который изначально поддерживает только прямой поиск.

 

Дампы данных RIR

Большинство людей, выполняющих перечисление сетевых блоков, используют один или несколько методов поиска, описанных выше. Однако есть и другой способ, который не так широко популярен.

Мы не знали, что многие RIR ежедневно публикуют моментальные снимки своих баз данных и предоставляют их для загрузки.Эти экспорты содержат личную информацию (PII), отредактированную, но содержат полезную информацию для выполнения перечисления сетевых блоков. Дампы, о которых мы знаем на момент написания этой статьи:

.

https://ftp.ripe.net/ripe/dbase/
https://ftp.lacnic.net/lacnic/dbase/
https://ftp.afrinic.net/pub/dbase/
https:/ /ftp.apnic.net/pub/apnic/whois/

Стоит упомянуть три вещи:

  1. Эти дампы имеют формат RPSL (язык спецификации политики маршрутизации), который определен в RFC 2622 [6]
  2. .
  3. Данные LACNIC сильно отредактированы.Их дамп базы данных создается для поддержки инициативы GeoIP, которую они имеют [7] . Они раскрывают подробности о каждом выделенном блоке IPv4/IPv6, при этом почти все поля редактируются, за исключением географического местоположения владельца регистрации каждого сетевого блока.
  4. ARIN не публикует дамп публичной базы данных WHOIS с информацией о владельцах доменов. Они публикуют общедоступный набор данных в рамках программы Internet Routing Registry (IRR). Этот набор данных не совпадает с базой данных WHOIS, но есть некоторое совпадение.

ARIN и LACNIC имеют формальный процесс запроса доступа к массивам данных. На момент написания LACNIC не принимал запросы, но это может измениться в будущем:

Предполагая, что вы можете приобрести один или оба набора данных для этичного использования, вы получите очень хорошее теоретическое представление о глобальной картине распределения сетевых блоков.

 

RIR и данные IRR для перечисления

Как упоминалось выше, ARIN не публикует информацию о владельцах доменов WHOIS, но публикует набор данных Internet Routing Registry (IRR).По сути, дампы данных IRR представляют собой компиляции префиксов CIDR, которые должны соответствовать фактическим маршрутам, объявленным ASN. Данные IRR обычно используются для проектирования сетей, связанных с маршрутизацией в Интернете.

Данные IRR не являются авторитетным источником префиксов маршрутизации, объявленных ASN, и не должны соответствовать реальным маршрутам; это просто вспомогательный источник данных, добровольно предлагаемый свободной федерацией субъектов, которые составляют поставщиков IRR. Вот краткий список ключевых игроков:

  1. АРИН
  2. СОЗРЕВШИЙ
  3. АПНИК
  4. Африканский НИК
  5. ЛАКНИК
  6. УРОВЕНЬ 3 (теперь CenturyLink)
  7. НТТКОМ
  8. РАДБ

Вы заметите, что существует значительное совпадение между источниками данных RIR и источниками данных IRR, ведь каждый RIR также является источником данных IRR.Однако теперь есть и другие игроки, такие как NTT и CenturyLink.

Объем данных в дампах данных IRR обычно намного меньше, чем в дампах RIR, но, что более важно, данные из дампов IRR следует использовать с осторожностью. Известно, что данные IRR в целом менее точны, чем данные RIR, поскольку они часто не так активно поддерживаются. Это означает, что когда вы получаете результаты обратно из источника данных IRR, вам следует более тщательно проанализировать сообщаемый префикс, чтобы попытаться определить, действителен ли он.

Если у нас есть проблема с проверкой подлинности данных IRR, естественно задаться вопросом, зачем нам вообще беспокоиться о данных IRR, почему бы просто не использовать данные RIR? Вспомним подраспределение сетевого блока : здесь в игру вступают данные IRR.

Маршруты

, хотя они и не являются явно сетевыми блоками сами по себе, часто могут рассматриваться как таковые, особенно если они исходят от интернет-провайдеров, а действительно соответствуют сетевым блокам, просто распределенным.

Обратите внимание, что игроки IRR, такие как LEVEL3 и NTT, являются интернет-провайдерами; они предоставляют интернет-услуги клиентам в дополнение к поддержке глобальной маршрутизации.Мы обнаружили много маршрутов, перечисленных в данных IRR, которые связаны с нашими клиентами. Предполагая, что мы можем выполнить некоторую проверку, мы рассматриваем эти маршруты как блоки CIDR, которые распределяются между нашими клиентами.

На практике мы добились огромного успеха, используя данные IRR. Вот пример некоторых обнаруженных нами вещей, которых в противном случае у нас не было бы:

.
  • Открытая сетевая инфраструктура: маршрутизаторы/коммутаторы Cisco
  • Серверы Exchange и OWA
  • Однофакторные VPN-порталы
  • Различные консоли администрирования веб-приложений

Таким образом, данные IRR многочисленны, раскрывают маршруты внутри ASN, а также маршруты между ASN и доступны для массовой загрузки, поэтому мы решили использовать данные IRR в инструменте SHADOWSTAR в качестве основного источника данных.

Если вы хотите узнать больше о IRR, вы можете прочитать об этом на их веб-сайте [10] . Вы также можете посетить веб-сайт RADB (популярного поставщика IRR) здесь. [11]

Итак, у нас есть четкая разбивка различных компонентов, которые входят в перечисление сетевых блоков. В следующем посте мы расскажем о выпуске SHADOWSTAR и о том, как его настроить. Мы также выделим некоторые области, в которых это может помочь повысить уровень вашей разведывательной игры.

 

Ссылки

  1. https://tools.ietf.org/html/rfc7020
  2. https://www.youtube.com/watch?v=JLBS7UOr_YI
  3. https://tools.ietf.org/html/rfc7480
  4. https://whois.arin.net/
  5. https://apps.db.ripe.net/db-web-ui/fulltextsearch
  6. https://tools.ietf.org/html/rfc2622
  7. https://www.lacnic.net/3106/2/lacnic/ip-геолокация
  8. https://www.arin.net/reference/research/bulkwhois/
  9. https://www.lacnic.net/2472/2/lacnic/request-bulk-whois-access
  10. http://irr.net/
  11. https://www.radb.net/

Питер Крэмптон

Питер в основном специализируется на методологиях разведки и OSINT, а также на адаптивных боях Red Team.Он регулярно работает над оценкой веб-приложений, фиолетовыми и красными командами. Питер знаком с несколькими распространенными инструментами, такими как Burp Suite, Cobalt Strike и Metasploit.

Питер работал со многими компаниями в таких отраслях, как фармацевтика, банковское дело, финансовые учреждения и телекоммуникации.

Питер имеет степень в области компьютерных наук Университета Дрекселя и 7 лет проработал в сфере информационной безопасности. У него есть опыт работы с государственными организациями, такими как Министерство обороны, DISA, и частными подрядчиками, такими как Lockheed Martin.

Windstream Newsroom — Windstream Enterprise интегрирует управление пользователями SRA с WE Connect, расширяя возможности SASE

LITTLE ROCK, Арканзас. Windstream Enterprise (WE), поставщик управляемых коммуникационных услуг, интегрировал свои возможности управления безопасным удаленным доступом (SRA) в свой отмеченный наградами клиентский портал WE Connect. Эта интеграция управления SRA с WE Connect позволяет совместно управлять службой и является дополнительным шагом в развертывании Windstream Enterprise предложения по границе службы безопасного доступа (SASE) нового поколения.

WE Connect — это наиболее полный в отрасли инструмент мониторинга и управления сетью, который предоставляет компаниям доступ в режиме реального времени ко всей информации об их коммуникационных услугах в одном месте, а также к основным функциям, которые позволяют им управлять своими сетевыми услугами и оптимизировать их. SRA Windstream Enterprise обеспечивает шифрование подключений к сети через Интернет и дает предприятиям контроль над сетевым доступом, внутренними приложениями и ресурсами. Благодаря интегрированному управлению WE Connect и SRA клиенты могут отслеживать и контролировать доступ удаленных сотрудников, облачные брандмауэры нового поколения и SD-WAN через единый цифровой интерфейс, объединяющий ключевые элементы SASE.

«Уже более десяти лет WE Connect является краеугольным камнем модели самообслуживания и совместного управления Windstream Enterprise, а благодаря интеграции управления пользователями SRA мы дали клиентам возможность повысить эффективность управления сетью даже для удаленных сотрудников». сказал Майк Флэннери, директор по маркетингу Windstream Enterprise. «Цифровая трансформация в сочетании с пандемией привела к беспрецедентной волне удаленной и облачной работы, которая нагружает устаревшие модели сети, ускоряет преобразование сети в SD-WAN и создает новые проблемы безопасности.Наш опыт и передовые облачные брандмауэры следующего поколения, SD-WAN и технология безопасного удаленного доступа дают предприятиям уверенность в том, что их сеть отличается высокой надежностью, эффективностью и безопасностью».

Поскольку предприятия все больше полагаются на удаленных сотрудников, которым необходим доступ к приложениям и сетевым ресурсам практически с любого устройства и из любого места, угрозы безопасности возрастают. Эффективность SASE основана на эффективных облачных брандмауэрах, предложениях SD-WAN и безопасном удаленном доступе для сотрудников.Наше многолетнее внимание и отраслевое лидерство в этих областях позволяют Windstream Enterprise эффективно переводить клиентов в новую среду SASE.

Поскольку Windstream уже сотрудничает с лучшими из лучших в предоставлении основных элементов SASE, клиенты получают одно интегрированное решение для сети и безопасности, что означает единый веб-интерфейс, технологическую интеграцию и упрощенное управление. Компании с разрозненными поставщиками услуг безопасности и сетей могут легко консолидировать управление и безопасность сети SD-WAN с помощью одного надежного бизнес-партнера, который обеспечивает доверие и опыт.

«Гибкое предоставление услуг для безопасного подключения конечных пользователей к их приложениям, независимо от того, находятся ли они в корпоративном центре обработки данных, в облаке или у поставщика SaaS, имеет важное значение, но также важна безупречная видимость и управление сетью», — продолжил Фланнери. «Windstream SD-WAN Concierge, Cloud NGFW и SRA в сочетании с WE Connect — правильное решение, обеспечивающее процветание бизнеса по мере его адаптации к новым нормам».

О компании Windstream

Windstream Holdings — частная компания, занимающаяся коммуникациями и программным обеспечением.Windstream предлагает управляемые услуги связи, в том числе SD-WAN и UCaaS, а также широкополосные и транспортные услуги с высокой пропускной способностью для предприятий по всей территории США. малый и средний бизнес в основном в сельской местности в 18 штатах. Дополнительную информацию можно получить на веб-сайтах windstream.com или windstreamenterprise.com. Следите за нами в Твиттере на @Windstream.

Посмотреть исходную версию на businesswire.com: https://www.businesswire.com/news/home/20201217005574/en/

Сара Карри Дэвис, 720.529.7611
[email protected]indstream.com

Источник: Windstream Holdings

SRA NETWORK (49846000B)

  1. Дом
  2. 49846000Б

SRA NETWORK — Сингапур БИЗНЕС . Компания была зарегистрирована 20 декабря 1993 года , что означает 28.4 лет назад. Адрес зарегистрированного офиса компании: HOA NAM BLDG, 27 FOCH ROAD, Postal 209264, #02-01. Текущий операционный статус Бизнеса — Снят с регистрации. Основным видом деятельности является ОПТОВАЯ ПРОДАЖА ЗА ВОЗНАГРАЖДЕНИЕ ИЛИ НА КОНТРАКТНОЙ ОСНОВЕ (НАПРИМЕР, КОМИССИОННЫЕ АГЕНТЫ). Второстепенной деятельностью Бизнеса являются АГЕНТСТВА НЕДВИЖИМОСТИ И ОЦЕНОЧНЫЕ УСЛУГИ. Компания UEN — 49846000B , зарегистрирована в ACRA 10 сентября 2008 г.

  • Nethipling Network
  • Bussiness Addresshoa Nam Bldg, 27 FOCH Road, Postal 209264, #02-01
  • UEN49846000B
  • Регистрация. Описание Businesses
  • Статус организации Описание Описание DEREEREGEDED
  • UEN Выпуск DATE 2008-09-10
  • Первичная SSIC Описание. ОписаниеBusiness

компании с аналогичными названиями

компаний с тем же адресом

Alfa Transport & Trading Pte Ltd

здание Хоа -Нам, 27 Foch Road

A L & H Impex Pte Ltd

Hoa Nam Build Pte Ltd

Hoa nam bldg, 27 Foch Road

Advance Technology & Consultancy Pte Ltd

здание Хоа Нам, 27 Foch Road

AR Air Air Road Corporation (S) Pte Ltd

Hoa nam Bldg, 27 Foch

ANR Pte Ltd

HOA NAM BLDG, 27 FOCH ROAD

Alliance Trading Pte Ltd

Hoanam Bldg, 27 Foch Road

Al-Karsan Enterprises Pte Ltd

HOA NAM BUILD (S) PRIVATE LIMITED

HOE NAM BUILDING, 27 FOCH ROAD

A & J HOLDINGS PTE LTD

HOA NAM BLDG, 27 FOCH ROAD

ОПТОВАЯ ПРОДАЖА НА ОСНОВЕ ВОЗНАГРАЖДЕНИЯ ИЛИ КОНТРАКТА 03 АГЕНТСТВА ISS093

Расширение охвата метаданными записей SRA BioSample с помощью распознавания именованных объектов на основе глубокого обучения | База данных

Аннотация

Высококачественные аннотации метаданных для данных, размещенных в крупных общедоступных репозиториях, необходимы для воспроизводимости исследований и для проведения быстрых, мощных и масштабируемых метаанализов.В настоящее время в большинстве образцов секвенирования в архиве чтения последовательностей (SRA) Национального центра биотехнологической информации отсутствуют метаданные по нескольким категориям. Стремясь улучшить охват метаданных этих образцов, мы использовали почти 44 миллиона пар атрибут-значение из SRA BioSample для обучения масштабируемой рекуррентной нейронной сети, которая предсказывает отсутствующие метаданные с помощью распознавания именованных объектов (NER). Сначала сеть была обучена классифицировать короткие текстовые фразы в соответствии с 11 категориями метаданных и достигла общей точности и площади под кривой рабочей характеристики приемника, равной 85.2% и 0,977 соответственно. Затем мы применили наш классификатор для прогнозирования 11 категорий метаданных на основе более длинного атрибута TITLE образцов, оценив производительность на наборе образцов, не включенных в обучение модели. Точность прогнозирования была высокой при извлечении образцов рода/вида (94,85%), состояния/болезни (95,65%) и штамма (82,03%) из TITLE, с более низкой точностью и отсутствием прогнозов для других категорий, подчеркивающих многочисленные проблемы с текущими аннотациями метаданных в БиоСэмпл. Эти результаты указывают на полезность рекуррентных нейронных сетей для прогнозирования метаданных на основе NER и потенциал моделей, подобных представленной здесь, для увеличения охвата метаданных в BioSample при минимизации необходимости ручного курирования.

URL-адрес базы данных : https://github.com/cartercompbio/PredictMEE

Введение

Достижения в технологиях секвенирования следующего поколения привели к быстрому накоплению общедоступных наборов данных секвенирования. Для хранения необработанных и обработанных версий этих данных были созданы крупные репозитории, такие как Омнибус экспрессии генов (GEO) (1) или Архив чтения последовательностей (SRA) (2) Национального центра биотехнологической информации (NCBI), что позволяет исследователям для простого повторного анализа и перепрофилирования существующих наборов данных.Высококачественные метаданные, связанные с этими наборами данных, необходимы для этого перепрофилирования, что позволяет повысить воспроизводимость, проводить целенаправленные исследования конкретных фенотипов и проводить крупномасштабный метаанализ исследований. В сочетании с усилиями по унифицированной нормализации предварительной обработки необработанных данных секвенирования (3, 4) полные и точные метаданные могут открыть двери для многих мощных и целенаправленных анализов для решения важных биологических вопросов и проблем.

В идеале метаданные, необходимые для точного описания технических и биологических вариаций данного образца, должны быть доступны для каждого образца в этих хранилищах.Однако текущее состояние качества метаданных во многих архивных образцах не соответствует этому стандарту. Гонсалвес и др. (5) недавно описал изменчивое состояние метаданных, доступных в базах данных, таких как BioSample NCBI и BioSamples Европейского института биоинформатики (6). Нечастое использование контролируемых словарей в процессе отправки метаданных в сочетании с возможностью создания определяемых пользователем атрибутов привело к резкому увеличению неоднородности общего ландшафта метаданных (5).Это часто может препятствовать способности исследователей в полной мере использовать потенциальную информацию, которую может содержать данный набор данных или метаанализ нескольких наборов данных.

Эта неоднородность базы данных вдохновила несколько недавних попыток улучшить метаданные будущих хранимых наборов данных путем изменения текущего процесса отправки. Различные биологические субдисциплины установили руководящие принципы, помогающие стандартизировать онтологии, которые исследователи используют для представления соответствующих метаданных при подаче (7, 8). Бухари и др. (9) также разработали подключаемый модуль веб-браузера, который рекомендует пользователю метаданные, где рекомендации являются родными для данного репозитория и основаны на наборах стандартных онтологий. Для NCBI была создана база данных BioSample (10) для содействия стандартизации аннотаций, используемых для характеристики данных для образцов, хранящихся в GEO, SRA и других архивах, размещенных NCBI.

Также активно разрабатываются стратегии по исправлению текущей ситуации с метаданными в этих репозиториях.Эти стратегии обычно можно отнести к одной из трех категорий: (i) ручное курирование, (ii) автоматизированное или полуавтоматическое курирование или (iii) вывод метаданных из исходных данных выборки (часто данных экспрессии генов). Ручное курирование остается наиболее точным решением (11), но оно не масштабируется с текущими объемами данных. Многие автоматизированные или полуавтоматические методы пытаются нормализовать метаданные путем кластеризации или сопоставления с онтологиями (12, 13) и гораздо лучше масштабируются с увеличением количества данных.Методы повышения полноты с использованием автоматизированных или полуавтоматических методов часто сосредоточены на использовании распознавания именованных объектов (NER), метода обработки естественного языка (NLP), используемого для идентификации предварительно определенных объектов в неструктурированном тексте, для извлечения объектов метаданных из неструктурированного текста, связанного с образец. Однако в большинстве случаев вышеупомянутые стратегии по-прежнему требуют некоторого уровня ручной аннотации и не масштабируются, чтобы охватить все метаданные, связанные с этими репозиториями.

Здесь мы впервые проанализировали метаданные SRA в BioSample, которые организованы в виде структурированных пар «атрибут-значение» (например, ткань-печень). Мы обнаружили, что у большинства атрибутов полностью отсутствовали значения в большой части выборок, при этом отмечалась существенная неоднородность как в определениях атрибутов, так и в значениях метаданных в рамках данного атрибута. Из-за наличия 43 907 007 пар атрибут-значение и мощности нейронных сетей в автоматизации задач НЛП мы решили использовать глубокое обучение для поиска и извлечения набора соответствующих категорий метаданных, таких как вид или пол, из более длинного свободного доступа. текстовые атрибуты, такие как примеры заголовков и описаний.Во-первых, мы обучили рекуррентную нейронную сеть классифицировать короткие фразы по 11 категориям метаданных и добились точности и площади под кривой рабочей характеристики приемника (AUROC) 85,2% и 0,977 соответственно. Затем мы использовали обученный классификатор для выполнения NER для более длинных атрибутов TITLE, связанных с каждым образцом, и обнаружили, что можем достичь высокой точности предсказания метаданных рода/вида (94,85%), состояния/заболевания (95,65%) и штамма (82,03%). . Более низкая прогностическая эффективность для других восьми категорий метаданных оказалась яркой иллюстрацией проблем с текущими аннотациями метаданных в SRA BioSample (таблица 1).Наши результаты иллюстрируют текущие ограничения охвата и согласованности метаданных BioSample в SRA и показывают, что глубокая нейронная сеть, обученная на большом наборе данных, может значительно увеличить охват метаданных в SRA с минимальным ручным курированием.

Таблица 1.

Производительность при прогнозировании 11 категорий метаданных из TITLE

94,85
Название категории . # НАЗВАНИЯ . # Прогноз . # Правильно . Точность (%) . +
Возраст 1 000 224 106 47,32
Тип клетки 702 144 68 47,22
Состояние / Болезнь 122 23 22 95,65
Тип данных 78 12 10 83.33
Генотип 595 130 81 62,31
Платформа 275 30 11 36,67
Пол 190 4 4 100,00
рода / вида 1000 855 811
Штамм 1000 295 242 82.Имя 03
Tissue 1000 237 151 63,71
Протокол 18 0 N / A N / A
Тип 83,33 62,31
Категория . # НАЗВАНИЯ . # Прогноз . # Правильно . Точность (%) .
Возраст 1000 224 106 47.32
Тип клетки 702 144 68 47,22
Состояние / Болезнь 122 23 22 95,65
данных 78 12 10
Генотип 595 130 81
Платформа 275 30 11 36.67
Пол 190 4 4 100,00
Род / Вид 1000 855 811 94,85
Штамм 1000 295 242 82,03
ткани 1000 237 151 63,71
Протокол 18 0 N / A N / A
Таблица 1.

Производительность при прогнозировании 11 категорий метаданных из TITLE

Тип 62,31 36,67
Название категории . # НАЗВАНИЯ . # Прогноз . # Правильно . Точность (%) .
Возраст 1000 224 106 47,32
клеток типа 702 144 68 47.22
Состояние / Болезнь 122 23 22 95,65
данных 78 12 10 83,33
Генотип 595 130 81
Платформа 275 30 11
Пол 190 4 4 100.00
Genus / Виды 1000 855 811 94,85
Штамм 1000 295 242 82,03
Ткань 1000 237 151 63,71
Протокол 18 0 N / A N / A
36,67 100,00
название категории . # НАЗВАНИЯ . # Прогноз . # Правильно . Точность (%) . +
Возраст одна тысяче 224 106 47,32
Тип клетки 702 144 68 47,22
Состояние / Болезнь 122 23 22  95.тип 65
данных 78 12 10 83,33
Генотип 595 130 81 62,31
Платформа 275 30 11
Пол 190 4 4
Род / Вид 1 000 855 811 94.85
Штамм 1000 295 242 82,03
Ткань 1000 237 151 63,71
Протокол 18 0 Н / A  Н/Д 

Материалы и методы

Данные биообразца

Каждая запись SRA BioSample представляет собой запись метаданных, связанных с одним биологическим образцом в SRA.Метаданные, связанные с образцом, разбиты на пары атрибут-значение, где атрибут определяет тип метаданных (возраст, тип клетки, пол и т. д.), а значения являются соответствующими метаданными, связанными с этим типом (рис. 1А). По состоянию на 15 мая 2018 г. 43 907 007 таких пар атрибут-значение были доступны для загрузки с NCBI (https://ftp.ncbi.nlm.nih.gov/sra/reports/Metadata/), включая 2 912 000 образцов и более. 100 000 исследований.

Рисунок 1.

Обзор процесса обучения классификатора и прогнозирования метаданных.(A) Несколько примеров из 44 миллионов пар атрибут-значение в SRA BioSample. (B) Встраивание в слова предварительно обработанных значений позволяло группировать и объединять атрибуты, которые были похожи в пространстве встраивания. (C) Подмножество пар атрибут-значение было разделено на обучающий и тестовый наборы, а классификатор bi-LSTM был обучен идентифицировать 11 категорий метаданных. (D) TITLE были выбраны в качестве свободного текста для NER с использованием обученной модели. Показан пример TITLE с соответствующими метками наземной истины.(E) Эти TITLE были предварительно обработаны в n-граммы и загружены в обученный классификатор после встраивания слов для создания прогнозов метаданных для 11 категорий. (F) Сравнения с наземными метаданными были выполнены с использованием сопоставления подстрок и косинусного сходства в пространстве встраивания слов.

Рисунок 1.

Обзор процесса обучения классификатора и прогнозирования метаданных. (A) Несколько примеров из 44 миллионов пар атрибут-значение в SRA BioSample. (B) Встраивание в слова предварительно обработанных значений позволяло группировать и объединять атрибуты, которые были похожи в пространстве встраивания.(C) Подмножество пар атрибут-значение было разделено на обучающий и тестовый наборы, а классификатор bi-LSTM был обучен идентифицировать 11 категорий метаданных. (D) TITLE были выбраны в качестве свободного текста для NER с использованием обученной модели. Показан пример TITLE с соответствующими метками наземной истины. (E) Эти TITLE были предварительно обработаны в n-граммы и загружены в обученный классификатор после встраивания слов для создания прогнозов метаданных для 11 категорий. (F) Сравнения с наземными метаданными были выполнены с использованием сопоставления подстрок и косинусного сходства в пространстве встраивания слов.

NCBI определяет 456 атрибутов (https://www.ncbi.nlm.nih.gov/biosample/docs/attributes/) для общего использования при аннотировании образцов в SRA, при этом пользователи определяют все остальные при отправке. Мы выбрали 11 атрибутов в качестве основы для классов при обучении классификатора для предсказания метаданных из примеров TITLE, которые часто представляют собой краткие сводки, описывающие образцы. Этими атрибутами были возраст, тип клеток, заболевание, тип молекулярных данных, генотип, платформа, протокол, пол, НАУЧНОЕ_ИМЯ, штамм и ткань.Эти атрибуты в дальнейшем называются выбранными атрибутами (дополнительная таблица S1, выбранный атрибут).

Встраивание слов и объединение атрибутов

Подходы NLP с использованием нейронных сетей требуют преобразования произвольного текста в числовые векторы в качестве входных данных. Часто используемый подход для этой задачи заключается в векторизации слов с использованием модели встраивания Word2vec (14). Эти модели встраивания слов обучаются на больших корпусах (текстах) для численного сбора контекстуальной и семантической информации о словах и представления сходства слов в виде геометрического расстояния в n-мерном пространстве.Таким образом, слова, которые семантически похожи, такие как «пол» и «гендер», должны быть близки по геометрической дистанции в пространстве встраивания (рис. 1В). Преимущество этого подхода в том, что он не требует жесткого кодирования семантического сходства между словами, но требует использования контекстно-зависимой модели. Мы использовали общедоступную модель Word2vec, которая была обучена на всех текстовых корпусах PubMed, PMC и Wikipedia и включала 5 443 656 векторов слов, каждый из которых имеет 200 признаков (15).Мы выбрали более простую архитектуру модели Word2vec вместо модели преобразования на основе внимания, такой как BERT (16), потому что наша задача заключалась в классификации коротких фраз с менее обширной контекстной информацией.

Слияние атрибутов выполнено на основе сходства значений в 200-мерном пространстве встраивания слов. Чтобы сгруппировать одинаковые атрибуты, 100 случайно выбранных значений из всех атрибутов, встречающихся 100 или более раз в наборе данных, были векторизованы и усреднены для создания среднего вектора встраивания, представляющего каждый атрибут.Затем вычислялось косинусное сходство между средними векторами 11 выбранных атрибутов со средними векторами для всех других атрибутов. Все атрибуты с сходством 0,8 или выше с каждым выбранным атрибутом были объединены вместе для создания групп атрибутов, представляющих одну и ту же концепцию. Каждой из этих групп метаатрибутов была присвоена метка, которая представляет основную концепцию, общую для атрибутов в группе. Эти группы в дальнейшем именуются категориями метаданных и помечаются именем их категории (дополнительная таблица S1, название категории).

Обучение би-LSTM

Чтобы классифицировать короткие текстовые фразы в соответствии с 11 категориями метаданных, мы построили двунаправленную рекуррентную нейронную сеть с долговременной кратковременной памятью и обучили ее значениям BioSample, длина слова которых была ограничена от 2 до 7 (рис. 1C). Ни в одном исследовании не разрешалось вносить более 100 образцов в обучающий набор, чтобы избежать систематической ошибки исследования (дополнительный рисунок S1A), а количество обучающих примеров для каждой категории метаданных было ограничено 20 000, чтобы модель не научилась предсказывать категории с дополнительным обучением. примеры по умолчанию (дополнительный рисунок S1B).Для создания и проверки классификатора для обучающего и тестового наборов использовалось разделение 4:1 путем изучения примеров, отвечающих вышеуказанным критериям.

Значения обучающего и тестового наборов были сначала закодированы с помощью идентификаторов встраивания слов. Затем эти векторы идентификаторов были переданы в следующие слои би-LSTM:

  1. Слой встраивания, который преобразовывал идентификаторы встраивания слов в векторы слов,

  2. Двунаправленный слой с 64 скрытыми единицами и коэффициентом отсева 0,5 и

  3. Плотный слой с функцией логистической активации для вывода оценки вероятности каждой категории.

Оптимизатор Adam с категориальной кросс-энтропией в качестве функции потерь использовался для обучения одной эпохи с размером пакета 100 и скоростью обучения 0,001. Keras (v.2.2.2) с бэкендом tensorflow (v.1.9.0) использовался для построения, обучения и тестирования модели. Обучение модели было завершено менее чем за 5 минут на одной машине с 32 процессорами Intel(R) Xeon(R) E5-2670 0 @ 2,60 ГГц и общей оперативной памятью 64 ГБ. Оценка эффективности обучения проводилась с использованием стандартных показателей многоклассовой классификации, таких как точность, полнота, оценка F1 и AUROC.Сообщаемое среднее значение AUROC было рассчитано на основе совокупности всех примеров тестового набора и учитывало разное количество примеров в каждом классе.

Предварительная обработка, предсказание метаданных и оценка производительности

Затем обученный классификатор можно использовать для поиска 11 категорий метаданных в более длинном неструктурированном тексте с использованием NER. Мы выбрали значения из атрибута TITLE образцов (рис. 1D) в качестве источников для извлечения, оставив только TITLE длиной более пяти слов.Перед прогнозированием метаданных TITLE предварительно обрабатывались, сначала разбивая их на предложения на основе общих разделителей предложений «;», «», «»..». Затем все пробелы были заменены одним символом пробела, ‘’, а предложения были токенизированы с помощью пакета Python nltk (v3.4.5). Любые пустые токены или стоп-слова также были удалены.

Предсказание меток метаданных из TITLE было выполнено с помощью n-граммного подхода (рис. 1E). Для всех возможных n-грамм длины 2–7 в каждом предложении входного TITLE мы применили обученную модель, чтобы присвоить оценку этой n-грамме для каждой из 11 категорий метаданных.Любые оценки прогнозирования, которые находились в пределах 0,01 от оценок прогнозирования для пустой строки (‘’), отбрасывались, и учитывались только n-граммы, которые имели не менее 2 токенов в словаре модели Word2vec. Каждой n-грамме была присвоена категория метаданных (например, род/вид, возраст, болезнь/состояние), с наивысшим баллом, рассчитанным моделью. Чтобы удалить прогнозы с низкой достоверностью, мы удалили все n-граммы, для которых разница в категориях с наивысшей и второй по величине оценкой была меньше или равна 0.1. Если несколько n-грамм относились к одной и той же категории метаданных, n-грамма с наивысшим баллом из всех перекрывающихся n-грамм сохранялась, а все остальные отбрасывались.

Чтобы оценить производительность этого алгоритма прогнозирования, мы отобрали 1000 TITLE для большинства категорий метаданных, для которых уже были аннотированы значения «наземной истины» для этой категории в BioSample. Другими словами, образец для каждого выбранного НАЗВАНИЯ должен иметь хотя бы один из выбранных атрибутов (например, тип молекулярных данных), уже аннотированный для того, чтобы НАЗВАНИЕ было включено в оценку.Базовое значение метаданных для этого атрибута считалось исходной истиной, с которой мы могли сравнить наш прогноз. У некоторых выбранных атрибутов было намного меньше 1000 TITLE, которые соответствовали этим критериям, и для них было сохранено как можно больше TITLE. Оценка сходства строк остается сложной задачей в НЛП, и из-за различных способов аннотирования метаданных в SRA BioSample точное соответствие между прогнозируемыми и фактическими значениями было слишком строгим мерилом для определения точности прогнозирования.Вместо этого, если фактическое значение имело косинусное сходство в пространстве встраивания слов 0,7 или более с прогнозируемым значением, или если все прогнозируемое значение было подстрокой, содержащейся в основном истинном значении (или наоборот), оно считалось матч (рис. 1F).

Результаты

Большая часть метаданных в SRA BioSample отсутствует

Метаданные, связанные с SRA, размещаются в BioSample NCBI для хранения аннотаций данных секвенирования.Эти аннотации представлены парами атрибут-значение, где «атрибут» относится к категории метаданных, а «значение» относится к конкретной аннотации в этой категории, описывающей базовый образец (рис. 2А). BioSample определяет 456 таких категорий атрибутов, но также позволяет отправителям предоставлять свои собственные атрибуты через свой портал отправки. Мы загрузили снимок метаданных SRA, хранящихся в базе данных BioSample от 15 мая 2018 года, и проанализировали структуру пар атрибут-значение, связанных с образцами.Набор данных включал 43 907 007 пар атрибут-значение, охватывающих 2 921 722 выборки в SRA, в среднем 15,03 пары атрибут-значение на выборку. Образцы охватывают 19 361 уникальных атрибутов, из которых 316 определяются BioSample. Подавляющее большинство атрибутов определяются пользователем (19 045), и только 21,8% всех значений в этом наборе данных связаны с определенными атрибутами BioSample. В частности, большинство из 15 наиболее часто используемых атрибутов определяются пользователем (рис. 2B). Эти данные иллюстрируют растущую проблему в онлайн-репозиториях, таких как BioSample, где определяемые пользователем поля доминируют в ландшафте метаданных.

Рисунок 2.

Отсутствуют метаданные в SRA. (A) Примеры пар атрибут-значение SRA. Процент всех выборок, содержащих аннотации для (B) 15 наиболее часто используемых атрибутов и (C) 11 выбранных атрибутов. По оси X показан тип атрибута, а по оси Y показан процент от общего числа выборок, в которых использовался данный атрибут. (D) Распределение среднего количества символов для 10 самых длинных (в среднем) атрибутов в аннотациях BioSample SRA. Ось X показывает тип атрибута, а ось Y показывает Log2 (средние символы) для данного атрибута.Синие метки обозначают определенный пользователем атрибут, красные метки обозначают определенный атрибут BioSample. Атрибут TITLE на панелях (B) и (D) выделен.

Рисунок 2.

Отсутствуют метаданные в SRA. (A) Примеры пар атрибут-значение SRA. Процент всех выборок, содержащих аннотации для (B) 15 наиболее часто используемых атрибутов и (C) 11 выбранных атрибутов. По оси X показан тип атрибута, а по оси Y показан процент от общего числа выборок, в которых использовался данный атрибут. (D) Распределение среднего количества символов для 10 самых длинных (в среднем) атрибутов в аннотациях BioSample SRA.Ось X показывает тип атрибута, а ось Y показывает Log2 (средние символы) для данного атрибута. Синие метки обозначают определенный пользователем атрибут, красные метки обозначают определенный атрибут BioSample. Атрибут TITLE на панелях (B) и (D) выделен.

Затем мы выбрали 11 атрибутов, которые, по нашему мнению, лучше всего описывают как большую часть биологической и технической вариации образца секвенирования для дальнейшего анализа охвата метаданными (дополнительная таблица S1, выбранный атрибут). Изучая охват этих выбранных атрибутов во всех образцах, мы видим, что только «НАУЧНОЕ_ИМЯ» (чаще всего используемое для описания вида образца) охватывает более 25% образцов (рис. 2C).Те же самые тенденции наблюдаются, когда мы рассматриваем только образца Homo sapiens из (т. е. образцы с SCIENTIFIC_NAME, аннотированным как «Homo sapiens»). В этом подмножестве выборок мы видим относительно низкий охват даже по 15 наиболее часто используемым атрибутам (дополнительный рисунок S2A). Для 11 выбранных атрибутов только SCIENTIFIC_NAME и пол аннотированы в> 50% образцов Homo sapiens (дополнительный рисунок S2B). Эти наблюдения указывают на то, что отсутствующие данные являются проблемой в ландшафте метаданных BioSample SRA.

NER представляет потенциальное решение проблемы отсутствия метаданных в записях SRA BioSample. NER требует более длинных предложений с произвольным текстом в качестве входных данных, чтобы можно было обнаруживать объекты, зависящие от контекста. Средние распределения длины символов 10 самых длинных атрибутов в BioSample показаны на рисунке 2D (дополнительный рисунок S2C для образцов Homo sapiens ). Учитывая, что это один из наиболее распространенных и один из самых длинных атрибутов в наборе данных, поле TITLE представляет собой потенциальный вход для модели NER для извлечения метаданных.Если в образце отсутствует заданный атрибут метаданных, эта аннотация может присутствовать и может быть извлечена в ЗАГОЛОВКЕ этого образца. Действительно, когда мы смотрим на подмножество образцов всего набора данных, которые включают атрибут TITLE, мы видим, что почти все 11 выбранных атрибутов метаданных демонстрируют низкий охват (дополнительный рисунок S2D). Это говорит о том, что атрибут TITLE можно использовать в качестве источника отсутствующих метаданных для расширения охвата SRA BioSample.

Вложения слов фиксируют семантическое сходство слов, относящихся к предметной области

Чтобы выполнить автоматизированный NER для образцов TITLE, мы использовали биомедицинскую модель встраивания слов для векторизации текста в числовой ввод, который может обрабатываться нейронной сетью.Мы использовали модель встраивания Word2vec от Chiu et al. (15), который был предварительно обучен в PubMed, PMC и Wikipedia и векторизовал слова в 200 признаков. Рисунок 3 иллюстрирует способность модели встраивания слов фиксировать семантическое сходство между словами, относящимися к прогнозированию биомедицинских метаданных. Подчеркнута способность модели встраивания группировать более широкие категории типов объектов, таких как болезнь, возраст, тип данных и пол (рис. 3A и B), а также более тонкие биологически релевантные вариации типа данных (рис. 3C и D).

Рисунок 3.

Вложения слов фиксируют семантическое сходство между словами. (A) Уменьшение размеров с использованием PCA для визуализации векторизованного представления набора слов, инкапсулирующих болезнь, возраст, тип данных и пол. (B) Соответствующая корреляционная тепловая карта косинусного сходства с z-оценкой между словами с показанной иерархической кластеризацией. (C) То же, что и (A) для типов данных. (D) Соответствующая корреляционная тепловая карта косинусного сходства с z-оценкой между словами в (C).

Рисунок 3.

Вложения слов фиксируют семантическое сходство между словами. (A) Уменьшение размеров с использованием PCA для визуализации векторизованного представления набора слов, инкапсулирующих болезнь, возраст, тип данных и пол. (B) Соответствующая корреляционная тепловая карта косинусного сходства с z-оценкой между словами с показанной иерархической кластеризацией. (C) То же, что и (A) для типов данных. (D) Соответствующая корреляционная тепловая карта косинусного сходства с z-оценкой между словами в (C).

Несоответствия в именовании семантически одинаковых атрибутов ограничили количество примеров, которые можно было бы использовать для обучения модели для подмножества выбранных 11 атрибутов.Эти несоответствия часто проявляются в различиях в написании заглавных букв, правописании или пунктуации (например, тип ячейки и тип_ячейки) и, по-видимому, вызваны отправкой определенных пользователем атрибутов. Мы пришли к выводу, что модель встраивания слов также можно использовать для кластеризации атрибутов по семантическому сходству, чтобы увеличить количество обучающих примеров для каждой категории. Мы рассчитали средние векторы вложения для всех атрибутов, за которыми последовало попарное косинусное сходство между ними. Объединение атрибутов с косинусным сходством >0.От 8 до 11 выбранных атрибутов (дополнительная таблица S2A) значительно увеличили охват каждого выбранного атрибута для обучения модели (дополнительная таблица S2B). Пороговое значение 0,8 было выбрано, чтобы сбалансировать увеличение размера обучающей выборки (и универсальности модели) и слияние слишком разнородных категорий. Эти объединенные группы атрибутов получили более широкие имена категорий, описывающие семантическое понятие, которое они представляли. Эти новые категории метаданных легли в основу классов для вывода классификации и последующего прогнозирования метаданных из образцов TITLE.

Классификатор bi-LSTM может классифицировать короткие текстовые значения с относительно высокой точностью для большинства классов

Мы выбрали сетевую архитектуру bi-LSTM для классификации коротких текстовых значений в соответствии с 11 категориями метаданных, поскольку было показано, что bi-LSTM фиксируют последовательный характер текста и краткосрочные и долгосрочные отношения между словами (17). Мы обучили такой классификатор распознавать 11 категорий метаданных, используя 133 627 пар атрибут-значение и одну эпоху, и смогли достичь общей точности набора тестов 85.2% и AUROC 0,977 (рис. 4A и B). Точность классификации более 90 % была отмечена для типа данных, возраста, рода/вида, пола и платформы, с точностью в диапазоне 80 %, наблюдаемой для генотипа, штамма и ткани, и точностью ниже 70 %, наблюдаемой только для протокола и типа клетки ( Рисунок 4С). Протокол был классом с наименьшим количеством обучающих примеров, содержащим всего 635, и его часто ошибочно принимали за генотип или ткань. Точно так же модель не могла последовательно различать тип клеток и ткань, прогнозируя ткань для 22% примеров тестового набора типов клеток (рис. 4C).Последнее наблюдение, возможно, неудивительно, учитывая, что косинусное сходство между типом клеток и тканью очень велико в пространстве встраивания слова (дополнительный рисунок S3). Слияние семантически сходных атрибутов, вероятно, способствует высокой степени сходства, наблюдаемой между выбранными атрибутами. Однако большое сходство, отмеченное до объединения атрибутов, указывает на то, что это, скорее всего, вызвано трудностями пользователя в различении атрибутов при отправке. Несмотря на эти проблемы, точность, прецизионность, полнота, оценка F1, средний AUROC и AUROC по классам (рис. 4D) оставались высокими, что свидетельствует о хорошей эффективности классификации в целом.Мы обнаружили, что эти результаты воспроизводимы, поскольку 10 моделей, обученных отдельно, продемонстрировали схожую производительность (дополнительная таблица S3A).

Рисунок 4.

Производительность bi-LSTM в классификации категорий метаданных. (A) Точность, прецизионность, полнота, оценка F1 и среднее значение AUROC, рассчитанное для всех категорий, объединенных на протянутом тестовом наборе. (B) Точность классификации модели на обучающем наборе (ось Y), построенная в зависимости от количества введенных обучающих примеров (в тысячах). (C) Процент каждой категории, правильно классифицированной на тестовом наборе, показанном в виде тепловой карты, с прогнозируемыми значениями на оси x и метками истинности на оси y.(D) Кривые рабочих характеристик приемника (ROC) для каждой категории вместе со средним значением по всем примерам тестового набора (микросреднее).

Рисунок 4.

Производительность bi-LSTM в классификации категорий метаданных. (A) Точность, прецизионность, полнота, оценка F1 и среднее значение AUROC, рассчитанное для всех категорий, объединенных на протянутом тестовом наборе. (B) Точность классификации модели на обучающем наборе (ось Y), построенная в зависимости от количества введенных обучающих примеров (в тысячах). (C) Процент каждой категории, правильно классифицированной на тестовом наборе, показанном в виде тепловой карты, с прогнозируемыми значениями на оси x и метками истинности на оси y.(D) Кривые рабочих характеристик приемника (ROC) для каждой категории вместе со средним значением по всем примерам тестового набора (микросреднее).

Высокая точность предсказания метаданных для рода/вида, болезни/состояния и штамма

Затем мы применили этот обученный двухуровневый LSTM для извлечения метаданных из НАЗВАНИЙ выборок, удержанных при обучении и тестировании классификатора. Для каждой категории метаданных мы отобрали до 1000 образцов с НАЗВАНИЯМИ не менее чем из пяти слов, которые имели аннотацию достоверности для этой категории, уже присутствующую в BioSample.Используя подход, основанный на n-граммах, для этих TITLE был выполнен NER, выбирая 11 категорий метаданных из n-грамм длиной 2–7 из этого более длинного произвольного текста. Оценка алгоритма прогнозирования проводилась путем сравнения любых прогнозируемых метаданных для каждой категории с аннотациями истинности. В частности, если все предсказанные метаданные или метаданные истинности были подстрокой других, или если косинусное сходство между ними было> 0,7 в пространстве вложений, предсказание считалось правильным.Пороговое значение 0,7 было выбрано, чтобы избежать пропуска правильных прогнозов со слишком строгим критерием правильности и избежать пометки ложных прогнозов как правильных. Оценка производительности таким образом показала высокую точность по состоянию/заболеванию, типу данных, полу, роду/виду и штамму (таблица 1). Умеренная производительность была отмечена для генотипа и ткани, с точностью менее 50% для предсказания платформы, возраста и типа клеток. Как и в случае с задачей классификации метаданных, эти результаты воспроизводились в 10 независимых испытаниях (дополнительная таблица S3B).Кроме того, оценка производительности с различными порогами сходства косинусов для слияния атрибутов подтвердила выбор 0,8 (дополнительная таблица S4).

Проверка прогнозов вручную продемонстрировала несколько моделей неправильных прогнозов в соответствии с нашими текущими критериями оценки (дополнительная таблица S5). Много неправильных прогнозов возникало, когда модель извлекала метаданные, не соответствующие концепции прогнозируемой категории. Эти добросовестные неверные прогнозы чаще всего встречались в более разнородных полях, таких как тип клеток, штамм и генотип.Однако также были распространены неверные прогнозы из TITLE, которые на самом деле не содержали точное значение истинности в качестве подстроки, но содержали либо изменение фактического значения, либо совершенно другое значение, подпадающее под ту же категорию метаданных. В этих случаях модель правильно выбирает категорию метаданных из TITLE, но этот прогноз не соответствует базовой аннотации истинности. Во многих из этих случаев можно привести аргумент, что предсказанная моделью аннотация из TITLE является лучшим дескриптором категории метаданных для этой выборки, чем основная правда (дополнительная таблица S5).Кроме того, поскольку наша модель предсказывает только от 2 до 7 граммов, аннотации наземной истины, которые представляли собой одно слово, были сложными и часто неверными. Из 448 неверных прогнозов, сделанных нашей моделью, 217 (48,4%) были униграммами (дополнительная таблица S5). Хотя исключение униграмм до прогнозирования действительно приводит к заметному повышению точности прогнозирования для большинства категорий метаданных, униграммы составляют большую часть фактического распределения длин аннотаций по всем парам атрибут-значение в наборе данных (дополнительный рисунок S4A) и являются значительным доля многих атрибутов, выбранных для классификации (дополнительный рисунок S4B).Эта проблема не была решена путем включения униграмм в обучение модели, поскольку это привело к общему снижению точности обучения (дополнительный рисунок S4C) и значительному снижению эффективности прогнозирования в нескольких категориях метаданных (дополнительный рисунок S4D). Несмотря на эти проблемы, эти результаты показывают, что наша модель может точно извлекать аннотации метаданных для нескольких типов объектов.

Обсуждение

В этой работе мы иллюстрируем несколько проблем с текущими аннотациями образцов SRA в BioSample и представляем полностью автоматизированную структуру для расширения охвата некоторых ключевых терминов метаданных, описывающих эти образцы.Мы обучили глубокую нейронную сеть, которая смогла классифицировать 11 категорий метаданных и добилась высокой эффективности классификации по большинству категорий. Прогнозирование ключевых полей метаданных из образцов TITLE с использованием этой модели дало высокоточные извлечения NER нескольких категорий, а также выявило несоответствия между TITLE образцов и лежащими в их основе метаданными.

Пользовательские поля, хотя и полезные и даже необходимые в определенных ситуациях, привели к значительному увеличению неоднородности в этом и других наборах данных (5).Использование встраивания слов для кластеризации атрибутов по семантическому сходству выявило отсутствие нормализации в именовании атрибутов, в основном в виде небольших отклонений в орфографии и пунктуации (например, тип ячейки и тип ячейки). Эта кластеризация, наряду с оценкой прогнозируемых метаданных, также показала, что значения одного и того же атрибута часто существенно различаются по концепции. Общая неоднородность, по-видимому, вызвана комбинацией ошибки пользовательского ввода и непонимания того, какие значения относятся к какому атрибуту, даже в атрибутах, определенных BioSample.Последнее, по-видимому, особенно распространено при определении типа клетки, ткани, штамма и генотипа образца, поскольку семантический анализ этих атрибутов показал, что они имеют высокую степень сходства в пространстве встраивания. Вследствие этих проблем поиск конкретных метаданных по заданному атрибуту может привести к неправильным или неполным результатам для исследователей, что затруднит использование всего потенциала крупных коллекций ресурсов, таких как SRA.

Предыдущая работа подчеркивала полезность встраивания слов в категории кластеризации метаданных, которые имеют высокую степень сходства в пространстве встраивания (18).Мы показали, что эту кластеризацию также можно использовать для повышения единообразия метаданных SRA BioSample и для увеличения охвата классов для обучения модели NER. Однако высокие уровни сходства между атрибутами могут стирать различия между некоторыми объединенными категориями метаданных и представлять собой важный источник ошибок при классификации и последующем прогнозировании. Токены за пределами встроенного словаря (то есть слова вне словаря или OOV), которые в настоящее время игнорируются нашей моделью, также, вероятно, способствовали пропущенным классификациям и неправильным прогнозам.Использование аналогичной структуры с изученными встраиваниями или с точно настроенными, предварительно обученными моделями, такими как BERT (16), может лучше определить категории классификации и ограничить слова OOV. Кроме того, включение этапов предварительной обработки, таких как маркировка частей речи и формирование корней, может ограничить шум и повысить точность нашего прогноза.

Дальнейший анализ неправильных и отсутствующих прогнозов может также привести к алгоритмическим решениям для повышения качества прогнозов. В настоящее время алгоритм прогнозирования учитывает только от 2 до 7 граммов, что способствует низким числам прогнозов и точности для категорий, содержащих значительную долю 1 граммов (например,грамм. Пол и возраст). Однако учет 1 грамма при обучении в настоящее время приводит к низкой эффективности прогнозирования, и требуется дополнительная работа, чтобы определить, как лучше охватить эти классы с помощью нашей модели. Кроме того, вариабельность основных метаданных наземной истины между категориями и внутри них создает проблему при выборе подходящего и строгого подхода к оценке. Более систематический и усовершенствованный метод оценки, скорее всего, прояснил бы алгоритмические корректировки, которые улучшили бы последующее качество предсказания метаданных.

Мы ограничили проверку нашей модели произвольным текстом, содержащимся в атрибуте TITLE каждого биопробы, из-за распространенности, длины и специфичности этого атрибута на уровне образца. Однако мы отмечаем, что TITLE могут быть не единственным источником пригодного для использования свободного текста, связанного с образцами SRA. Описания BioProject и связанные публикации часто представляют собой несколько биообразцов и содержат подробные описания планов исследований и протоколов подготовки образцов. Наша модель может быть легко применена к таким источникам свободного текста для захвата аннотаций, отсутствующих в TITLE, для проверки прогнозов, сделанных нашей моделью в отношении TITLE, или для уточнения текущих аннотаций в BioSample.Однако информация, содержащаяся в этих типах произвольного текста, часто будет менее специфичной для каждого отдельного образца, и мы предполагаем, что подход, учитывающий несколько источников произвольного текста для прогнозирования метаданных, даст наиболее точную аннотацию.

Мы также отмечаем применимость этой работы для извлечения признаков для последующей классификации образцов на основе произвольного текста. В качестве примера рассмотрим исходное болезненное состояние образца, критической части информации, которая часто плохо аннотируется в больших общедоступных хранилищах данных.Мы показали, что наша модель способна выбирать объекты, связанные с заболеванием, из выборки TITLE с высокой точностью (таблица 1), помечая n-граммы как метаданные «состояние/заболевание». Предсказанные n-граммы «состояние/заболевание», в свою очередь, можно использовать в качестве входных данных для отдельного классификатора, чтобы предсказать, взят ли данный образец из здорового или больного биообразца. Однако, поскольку НАЗВАНИЯ образцов не всегда являются специфическими или репрезентативными для основного биологического образца, который они аннотируют, вполне вероятно, что для такой задачи потребуется рассмотреть более широкий набор источников с произвольным текстом, таких как описанные выше.Классификация образцов на основе распознавания объектов представляет собой интригующее направление будущего развития этой работы.

В опубликованных в 2016 г. принципах возможности поиска, доступности, функциональной совместимости и возможности повторного использования (FAIR) было изложено руководство по надлежащей практике управления данными и подчеркнута потребность в находимых, доступных, совместимых и повторно используемых метаданных в науке (19). Большая степень неоднородности, присущая хранилищам биологических данных, делает нетривиальными проблемы, лежащие в основе улучшения качества биомедицинских метаданных, и показывает, что универсальное решение, вероятно, является идеалистическим.Представленная здесь работа относится в основном к аспекту повторного использования FAIR, уделяя особое внимание множеству метаданных. Хотя наша точность прогнозирования метаданных остается переменной, мы показали, что методология, основанная на НЛП, может усилить текущие усилия по улучшению полноты и качества метаданных. Автоматизация нашего пайплайна обеспечивает значительное преимущество масштабирования по сравнению с ручным курированием и может быть легко адаптирована для репозиториев, которые используют в своих метаданных сходные отношения пары атрибут-значение.Может случиться так, что эта неоднородность является проблемой, полностью решаемой только более тщательной аннотацией при отправке, но в ее нынешнем виде наша модель представляет собой шаг к улучшению множественности метаданных SRA и возможности повторного использования в настоящее время.

Дополнительные данные

Дополнительные данные доступны в базе данных Online.

Финансирование

Эта работа была поддержана Национальным институтом здравоохранения [номера грантов T32GM8806, DP5OD017937]; инфраструктура финансировалась Национальными институтами здравоохранения [номер гранта 2P41GM103504-11]; ЧАС.C. поддерживается Канадским институтом перспективных исследований [номер награды FL-000655].

Конфликт интересов.

Авторы заявляют об отсутствии конфликта интересов.

Взносы

Оригинальная концепция: B.T., S.M., C.H.; схема эксперимента: Б.Т., А.К., С.М., Ч.Х., Х.К.; анализ данных: Б.Т., А.К. С.М.; реализация: Б.Т., А.К.; дизайн валидации: Б.Т., С.М., А.К.; интерпретация данных: Б.Т., А.К., С.М., DS, MD, CH, HC; написание рукописи: А.К., Б.Т., Х.К.

Каталожные номера

1.

Edgar

R.

,

Domrachev

M.

и

Lash

A.E.

(

2002

)

Экспрессия гена Omnibus: экспрессия гена NCBI и гибридизационные данные repository

.

Рез. нуклеиновых кислот.

,

30

,

207

210

.doi: .2.

Лейнонен

Р.

,

Sugawara

H.

и

Shumway

M.

,

Сотрудничество с международной базой данных нуклеотидных последовательностей

. (

2011

)

Последовательность чтения архива

.

Рез. нуклеиновых кислот.

,

39

,

D19

D21

.doi: .3.

Кольядо-Торрес

Л.

,

Неллоре

А.

,

Каммерс

К.

и др. (

2017

)

Воспроизводимый анализ последовательностей РНК с использованием recount2

.

Нац. Биотехнолог.

,

35

, 319.doi: .4.

Лахманн

А.

,

Торре

Д.

,

Кинан

А.Б.

и др. (

2018

)

Массовый анализ общедоступных данных секвенирования РНК человека и мыши

.

Нац. коммун.

,

9

, 1366.doi: .5.

Гонсалвес

Р.С.

и

Марка

A.M.

(

2019

)

Переменное качество метаданных о биологических образцах, используемых в биомедицинских экспериментах

.

Науч. Данные

,

6

, 1

.doi: .6.

Гостев

М.

,

Фолконбридж

А.

,

Брандизи

М.

и др. (

2012

)

База данных BioSample (BioSD) Европейского института биоинформатики

.

Рез. нуклеиновых кислот.

,

40

,

D64

D70

.doi: .7.

Brazma

A.

(

2009

)

Минимальная информация об эксперименте с микроматрицами (MIAME) – успехи, неудачи, проблемы

.

Науч. World J.

,

9

,

420

423

.doi: .8.

Rubelt

F.

,

Busse

C.E.

,

Bukhari

S.A.C.

и др. (

2017

)

Рекомендации сообщества репертуара адаптивных иммунных рецепторов для обмена данными секвенирования иммунного репертуара

.

Нат. Иммунол.

,

18

,

1274

1278

.doi: .9.

Бухари

С.

,

Мартинес-Ромеро

М.

,

О’Коннор

М.Дж.

и др. (

2018

)

CEDAR OnDemand: расширение браузера для создания научных метаданных на основе онтологий

.

БМС Биоинформ.

,

19

, 268.doi: .10.

Барретт

Т.

,

Кларк

К.

,

Геворгян

Р.

и др. (

2012

)

Базы данных BioProject и BioSample в NCBI: облегчение сбора и организации метаданных

.

Рез. нуклеиновых кислот.

,

40

,

D57

D63

.doi: .11.

Wang

Z.

,

Lachmann

A.

и

Ma’ayan

A.

(

2018

)

Данные добычи и метаданные из выражения гена Omnibus

.

Биофиз. Ред.

,

11

,

103

110

.doi: .12.

Бернштейн

М.Н.

,

Доан

А.

и

Dewey

C.N.

(

2017

)

MetaSRA: нормализованные специфичные для образца человека метаданные для архива чтения последовательности

.

Биоинформатика

,

33

,

2914

2923

.doi: .13.

Hu

W.

,

Zaveri

A.

,

Qiu

H.

и др. (

2017

)

Очистка путем кластеризации: методология решения проблем качества данных в биомедицинских метаданных

.

БМС Биоинформ.

,

18

, 415.doi: .14.

Миколов

Т.

,

Суцкевер

И.

,

Чен

К.

и др. (

2013

)

Распределенные представления слов и словосочетаний и их композиционность

.

Доп. Нейронная инф. Процесс. Сист.

,

26

,

3111

3119

.15.

Чиу

Б.

,

Крайтон

Г.

,

Корхонен

А.

и др. (

2016

)

Как тренировать вложения хороших слов для биомедицинского НЛП

. В: Материалы 15-го семинара по биомедицинской обработке естественного языка . Ассоциация компьютерной лингвистики, Берлин, Германия, стр.

166

174

.16.

Девлин

Дж.

,

Чанг

МВт

,

Ли

К.

и др. (

2018

)

BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка

.

arXiv, arXiv:1810.04805

. [cs.CL].17.

Грейвс

А.

и

Шмидхубер

Дж.

(

2005

).

Фреймовая классификация фонем с двунаправленным LSTM и другими архитектурами нейронных сетей

.

Нейронная сеть.

,

18

,

602

610

.18.

Гонсалвес

Р.С.

,

Камдар

М.Р.

и

Мусен

М.A.

(

2019

)

Согласование биомедицинских метаданных с онтологиями с использованием кластеризации и вложений

.

Семант. Веб-лекция. Примечания Вычисл. науч.

,

11503

,

146

161

.doi: .19.

Wilkinson

M.D.

,

Dumontier

M.

,

Aalbersberg

I.J.

и др. (

2016

)

Руководящие принципы FAIR по управлению и управлению научными данными

.

Науч. Данные

,

3

, 160018.doi: .

Примечания автора

© Автор(ы), 2021. Опубликовано Oxford University Press.

Это статья в открытом доступе, распространяемая в соответствии с лицензией Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0/), которая разрешает неограниченное повторное использование, распространение и воспроизведение на любом носителе при условии, что оригинал работа цитируется правильно.

SonicWALL SRA 4600 обеспечивает безопасный доступ к сети для удаленных сотрудников

Приобретение компанией Dell компании SonicWall начало приносить плоды, по крайней мере, с последней версией линейки продуктов SonicWall Secure Remote Access.

Новый SRA 4600, поставки которого начались в начале ноября, теперь украшен логотипом Dell вместе с известным брендом SonicWall. Помимо новой упаковки, SRA 4600 по-прежнему представляет собой полностью SonicWall внутри, что хорошо для тех, кто привык полагаться на более ранние продукты компании, когда она еще была независимой.

Основная цель SRA 4600 — обеспечить безопасный удаленный доступ (отсюда и название SRA) для мобильных сотрудников предприятия, эффективно расширяя безопасное сетевое подключение для мобильных сотрудников, удаленных офисов и даже для использования собственного устройства (BYOD). практикующих, группа, которая растет быстрыми темпами.

Благодаря простоте развертывания и администрирования SRA 4600 является разумным выбором для предприятий среднего размера, которым необходимо поддерживать мобильную и удаленную рабочую силу численностью до 500 человек, обеспечивая при этом высокий уровень защиты корпоративных приложений.

Однако SRA 4600 делает гораздо больше, чем просто соединяет этих удаленных сотрудников. Несколько опций, функций и возможностей повышают ценность устройства, одновременно унифицируя управление доступом к сети для удаленной рабочей силы. Более того, SRA 4600 включает в себя такие возможности, как удаленная поддержка (через портал дистанционного управления справочной службы) и совместная работа.

SRA 4600 устанавливается в стойку высотой 1U и оснащен четырьмя портами Gigabit Ethernet на передней панели устройства. Также есть консольный порт и пара портов USB. В большинстве случаев вам нужно будет использовать только порты Ethernet, поскольку устройство можно настроить только с помощью IP-соединения и веб-браузера.

Розетка питания и выключатель питания расположены на задней панели устройства, а также порты входа и выхода охлаждения. Я обнаружил, что устройство довольно шумное, с громким вентилятором охлаждения.Однако при установке в стойку шум будет заглушен всеми другими устройствами, установленными в стойке, в типичной серверной стойке.

Хотя это может быть незначительным моментом, охлаждение по-прежнему является важным фактором, и этот шумный вентилятор действительно перемещает довольно много воздуха, сохраняя устройство прохладным на ощупь. Однако пылевых фильтров нет, а это означает, что контролируемая среда — лучшее место для устройства.

Простое развертывание

Помимо проблем с охлаждением и пылью, я нашел SRA 4600 очень простым в развертывании.Потребовалось немного больше, чем просто включить его, подключить кабель Ethernet к компьютеру управления, а затем временно настроить некоторые системы TCP/IP для запуска браузерной консоли. Это могло бы быть проще только в том случае, если бы SRA 4600 использовал протокол динамической конфигурации хоста (DHCP) из коробки, а часть клиентского программного обеспечения для обнаружения была установлена ​​в системе управления для «нахождения» устройства.

Тем не менее, поскольку устройство предназначено для работы в сети DMZ, назначение IP-адреса DHCP, вероятно, не является вариантом.Тем не менее, базовая настройка по-прежнему оказалась простой и понятной.

Все стало немного сложнее, когда дело дошло до регистрации и лицензирования SRA 4600. Лицензии доставляются в систему с помощью службы под названием MYSonicWall, которая представляет собой клиентский веб-сайт, на котором мне нужно было зарегистрировать устройство и приобрести лицензии.

SonicWall SRA 4600 прост в установке и эксплуатации

Использование онлайн-системы регистрации и лицензирования не составило труда. Наличие центрального места для управления всеми вашими лицензиями, возможно, хорошо, и, что более важно, онлайн-регистрация, активация и лицензирование становятся стандартом для большинства поставщиков ИТ-оборудования.

Изучив основы, я смог быстро настроить несколько служб, предлагаемых устройством. В браузерной консоли управления было легко ориентироваться. Консоль предлагает основной экран состояния, который дает представление о функциональных возможностях устройства в виде приборной панели.

С первого взгляда я смог увидеть нагрузку на устройство, оповещения, используемые порты и другую важную информацию на приборной панели. Я был немного разочарован тем, что панель инструментов не настраивалась и что мне приходилось просматривать несколько меню, чтобы углубиться в другую информацию.С положительной стороны, я нашел экраны управления информативными, как только я углубился в элементы, по которым пытался найти информацию.

Элементы управления разделены по категориям, что упрощает навигацию по графическому интерфейсу управления. Например, если вы хотите определить порталы и управлять ими, просто щелкните элемент меню «Портал». То же самое касается NetExtender, EndPoint Control, Secure Virtual Assistant, Secure Virtual Meeting, брандмауэра веб-приложений, высокой доступности, пользователей, журналов и виртуального офиса.Каждый элемент меню ведет к экрану управления соответствующей услугой.

Это оказывается более важным, чем может показаться на первый взгляд. Используя методологию «разделяй и властвуй», Dell значительно упростила управление теми частями SRA 4600, которые вы будете использовать. Это важный момент, поскольку у большинства покупателей, вероятно, уже есть сервисы, подобные Secure Virtual Assistant и Secure Virtual Meeting.

Жизнь с SRA 4600

После установки и базового развертывания ценность SRA 4600 сводится к услугам, которые он может предоставить.Вот где устройство превосходно. Эти услуги, включая удаленный доступ, мобильность BYOD, беспроводную безопасность, непрерывность бизнеса, безопасность веб-приложений, виртуальные встречи и удаленную поддержку, объединены простым в использовании способом — благодаря концепции дизайна, использующей портальный подход.

Администраторы просто настраивают портал для доступа пользователей, который легко определить и может содержать несколько ссылок, отображаемых в виде пунктов меню, из которых пользователь может выбирать. За кулисами ссылки на странице портала связаны с функциями, определенными администратором.Мне удалось быстро настроить элементы портала для удаленного управления, запуска приложений и запуска сеансов поддержки.

SRA 4600 включает расширенные функции безопасности, которые можно интегрировать с другими приложениями безопасности в сети. Например, SRA 4600 можно интегрировать с Active Directory, чтобы унифицировать процесс входа в систему и обеспечить возможность единого входа. Более того, устройство включает в себя технологию VPN Secure Sockets Layer (SSL), а также средства безопасности приложений для создания полностью защищенной среды удаленного доступа.

SRA 4600 обеспечивает многоуровневый подход к удаленному доступу. Устройство можно настроить как систему доступа только через Интернет, что устраняет необходимость в установке агента и использует разгрузку приложений, службу, которая может использовать ActiveSync. Более того, методология только для Интернета поддерживает SharePoint, Интранет, веб-почту и другие собственные приложения без необходимости установки чего-либо на клиентский ПК.

Добавить комментарий

Ваш адрес email не будет опубликован.