Продавать мозги, а не руки: как в MOAB автоматизируют рутину в SEO — Маркетинг на vc.ru

→ Оригинал (без защиты от корпорастов) | Изображения из статьи: [1]

Семантическое ядро таких гигантов, как Ozon или Hoff, содержит сотни тысяч или миллионы запросов. Как собрать и почистить такую семантику всего за 10-15 часов? Ответ на этот вопрос — в большом техническом гайде с внутренней SEO-кухни MOAB. Все описанное читатель сможет повторить самостоятельно с минимальными усилиями.

Последние годы SEO переживает новый ренессанс: по сути, сейчас это единственный способ дотянуться до аудитории Google. Мы в MOAB тоже столкнулись со значительным ростом интереса к услуге, в первую очередь, со стороны крупного и среднего e-com — сейчас мы работаем с OZON, Эвотор, Hoff, VK Group, Divers.ru, Музторгом и многими другими.

Чем больше проектов — тем быстрее агентство утыкается в лимит по производительности. Работа есть — а сделать ее некем (про ситуацию на рынке труда в IT пояснять, наверное, не стоит).

Впрочем, плюс такой ситуации в том, что это — лучший стимул для автоматизации процессов. Фишка автоматизации также и в том, что она продает сама себя:

  • На пресейле продавцы всегда могут сказать: ну, вот мы тут ядро собрали между делом, посмотрите на файл, в нем 100500 запросов, заняло всего часов 5. Вау-эффект гарантирован: проверено.
  • На продакшене мы продаем мозги, а не руки: там, где конкуренты дают оценку в 50-100 часов для SEO-специалистов, мы просим 10-15 часов — но для разраба. Часы разраба дороже, но сумма — меньше, и это работает.

В этой статье мы расскажем, как мы автоматизировали работу с семантикой для крупных проектов.

На данный момент для сбора и очистки ядра размером в 50 или 100 тысяч фраз мы тратим от силы 10-15 часов рабочего времени.

Долго, дорого и скучно: как обычно работают с семантикой

Как выглядит типовой процесс работы с семантикой в агентстве?

В агентство приходит проект, и до начала работы нужно собрать семантику и построить прогноз трафика. Иногда у заказчика есть уже настроенный мониторинг позиций — и тогда нужно оценить, можно ли расширить эту выборку и много ли дополнительной частотности даст это расширение.

Все эти процессы — крайне трудозатратные: нужно собрать маркерные запросы, распарсить семантические хвосты, затем очистить их от мусора, и только потом можно что-то оценивать.

Если речь о пресейле — таким анализом не будет заниматься почти никто, прогноз просто «нарисуют» по оценке конкурентов в Spywords.

Если речь о работе после подписания договора, то здесь другая проблема — обычно бюджета не хватает на то, чтобы проработать все ядро, поэтому от него отрезают те или иные куски, тем самым снижая охват.

Нам в MOAB хотелось давать клиентам адекватные прогнозы и быстро собирать максимально полные сем. ядра — так, чтобы бюджет задачи был незначительным даже для малого и среднего бизнеса.

После нескольких экспериментов мы разработали методологию т.н. «масок URL», которую применяем для быстрого формирования больших пулов запросов в e-com.

Ниже мы расскажем о теории процесса на упрощенном примере, а затем покажем практический кейс.

Маски URL для быстрого сбора и очистки семантики: как это работает

Итак, представим, что ваш клиент — крупный ритейлер электроники, и перед вами стоит задача продвижения раздела «Смартфоны».

В процессе сбора семантики вам предстоит:

  • Собрать все маркерные запросы со словом «смартфон» и «телефон», брендовые маркеры (Xiaomi, Сяоми, ксиаоми, etc).
  • Убрать из массива запросы, не имеющие отношения к смартфонам (пример).
  • Убрать из массива некоммерческие запросы (пример).

Оставшиеся в массиве запросы будут отвечать нескольким условиям:

  • это запрос про смартфоны;
  • это коммерческий запрос;
  • запрос проходит нужный нам ценз по частотности.

Самое простое — частотность, тут все понятно. Но как автоматизированно выяснить, что запрос а) точно про смартфоны и б) коммерческий?

Анализируем структуру URL конкурентов

Для этого обратимся к структуре URL некоторых конкурентов, который ранжируются в этой тематике.

Тип запроса: категорийный, безбрендовый

Ссылки из выдачи:

Тип запроса: категорийный, безбрендовый

Ссылки из выдачи:

Тип запроса: категорийный, брендовый

Ссылки из выдачи:

Тип запроса: товарный, брендовый

Что мы можем узнать из анализа данных серпов и URL в них:

  • Если запрос коммерческий — в выдаче будет ссылка на Маркет (Спасибо, Кэп!).
  • Структура URL значительного количества сайтов содержит повторяющиеся паттерны, которые мы называем масками. Мы можем отследить частоту встречаемости этих паттернов по тому или иному запросу, и затем сделать вывод о том, полезный этот запрос для нас или нет.

Во всех примерах ниже звездочка «*» означает любые символы.

Все URL МВидео, как категорийные, так и товарные, будут содержать маску *mvideo.ru/smartfon* (товар, бренд, категория).

К сожалению, структура URL не содержит повторяющихся паттернов.

Очень удобная для нас структура URL, которая, как вы увидите в дальнейшем, выручит нас там, где нас подвела структура URL Ozon. Содержит повторяющийся паттерн: *avito.ru*telefon* (категория, товар, бренд).

  • Маркет: здесь довольно интересный случай.

Наличие Маркета в выдаче Яндекса — один из самых точных признаков того, что запрос — коммерческий. В то же время ситуация осложняется тем, что однозначный паттерн не выявляется, скорее, их три:

  • *market.yandex.ru* — признак того, что запрос коммерческий;
  • *market.yandex.ru*telefon* — признак того, что это коммерческий категорийный запрос про смартфоны;
  • *market.yandex.ru*smartfon* — признак того, что это коммерческий товарный запрос про смартфоны.

На практике в последнее время Яндекс нередко показывает по категорийным запросам URLы Маркета вида search, что как раз и вынуждает нас учитывать самую общую маску типа *market.yandex.ru*.

В общем, суть ясна: в большинстве случаев сайты используют повторяющиеся паттерны URL, и мы можем этим воспользоваться. Можно было бы собрать маски по брендовым магазинам Huawei, Oppo, Vivo, Apple и других, но для упрощенного примера достаточно и того, что есть.

Что дальше делать с масками

Мы составляем вот такую табличку:

Здесь мы приводим для примера абстрактный файл про смартфоны, ниже разберем практический кейс с нашим клиентом — компанией Hoff.

Итак, мы собрали маски URL, которые могут появляться в выдаче по коммерческим запросам про смартфоны. Затем мы снимаем выдачу Яндекса (можно и Google, тут зависит от задачи), и смотрим, попадает ли та или иная маска в выдачу по конкретному запросу.

Если маска ozon.ru*smartfon* найдена в топ-10 — записываем значение «1», если нет — «0»:

В последнем столбце, как можно видеть в табличке, считается сумма вхождений. В грубом приближении — чем больше сумма, тем более «коммерческий» запрос и тем более вероятно, что он про смартфоны.

С практической точки зрения мы обычно применяем следующие фильтры:

Маркет = 1, это позволяет сразу надежно отсечь некоммерческие запросы:

Сумма вхождений: от «≥2» до «≥4»

Чем больше сумма вхождений — тем чище выборка.

Но чем чище выборка — тем больше вероятность отрезать «целевые» запросы.

Тут надо искать баланс вручную, исследуя то, как меняется суммарная частотность запросов, количество фраз и их чистота в зависимости от установленного фильтра. Если же страсть к исследованиям вам несвойственна — воспользуйтесь готовой рекомендацией:

  • 4 или более вхождений масок в выдаче,
  • 1 из вхождений — Яндекс.Маркет,
  • если в вашей тематике Маркет не ранжируется (авто, недвижка), то либо подбирайте такой же аналог, прибитый гвоздями в топе (Авто.ру, Циан), либо, чтобы перестраховаться, ставьте «5 или более вхождений масок в выдаче».

Практический кейс: сбор семантики для HOFF.RU

Вообще, методика масок URL лучше всего работает в конкурентных, охватных нишах, где выдача уже сформирована, есть устоявшиеся лидеры, а количество запросов измеряется десятками и сотнями тысяч.

Для HOFF.RU такая методика подходила идеально, поэтому было решено использовать ее на полную мощность. Расскажем о процессе по шагам.

Сбор маркеров и хвостов

Маркеры брали максимально широкие:

  • стол
  • стул
  • кресло
  • диван
  • кровать
  • тарелка
  • сервиз и так далее.

Затем собирали «все, что включено» из Wordstat в 2 уровня по указанным маркерам.

Всего получилось 168 маркеров и 762 000 «грязных» запросов.

Сбор масок URL

Всего в базе масок 26 разделов, для каждого — 10-12 масок, «Диваны» — один из них.

Для некоторых сайтов используется несколько масок, например, в «Кухнях»:

  • *sbermegamarket.ru*kuhonnye-garnitury*
  • *sbermegamarket.ru*modulnye-kuhni*

Логика в этом случае такая: при нахождении любой из масок в выдаче по запросу, записываем в ячейку «1», даже если (что крайне маловероятно), будут найдены 2 маски по одному сайту — все равно записываем «1».

Результат после сбора выдачи — Диваны

Самое интересное — пример финального файла.

Итак, всего в файле «Диваны» было 85 642 «грязных» запроса, собранных по маркеру «диван»:

После применения фильтров:

осталось 8750:

Можно видеть, что мусорных фраз в файле практически нет.

Суммарная частотка:

  • до: 813 320
  • после: 105 101

Общий результат: 55 209 коммерческих фраз по 26 разделам, трудозатраты — около 12 часов.

Использование масок для работы с товарными запросами

Впрочем, методика масок URL не ограничивается задачами сбора и фильтрации категорийных запросов. Одно из возможных применений — массовая генерация товарных запросов из XML-фида, методика разработана совместно с Виктором Репиным из OZON.

Процесс строится так:

  • Берем XML-фид с товарами.
  • Берем все слова из названия товара, строим все возможные комбинации фраз, содержащие 2 слова и более (в некоторых случаях можно ставить 3+). Как правило, получаем 5-15 вариантов фраз на товар, при желании можно добавить библиотеку транслитераций (samsung → самсунг).
  • Все полученные комбинации прогоняются через проверку масками (документ с масками по тематикам, пользуйтесь бесплатно, актуальность — около 8 месяцев назад).
  • Запросы, по которым более 3 вхождений разных товарных масок — очевидно, товарные.
  • На следующем этапе пробивается частотность в виде «!», убираются нулевки.
  • Итог — полностью автоматизированное получение очень обширного НЧ-ядра практически по любым товарам.

Стоит отметить:

  • Мы осознанно пробиваем сначала выдачу, а потом частотку: на больших объемах, с которыми мы работали в OZON (десятки миллионов фраз), это дешевле. Себестоимость съема выдачи ниже, поэтому проще сначала уменьшить размер списка, а потом снимать уже более «дорогой» Wordstat.
  • Нужно учитывать специфику ранжирования тех или иных масок при создании фильтров. Очевидно, что маска *avito.ru*telefon* будет реже встречаться по категорийным запросам, но чаще — по товарным.
  • При желании можно создавать «минус-маски», например, если вам надо исключить товарные запросы из массива, во многих тематиках страницам товаров свойственно использование *product*, *goods*, *item*.

Пример готового файла, сделанного по такой методологии для компании MUZTORG:

Математика там такая: из ~300 приоритетных товаров мы получили около 8000 комбинаций, после фильтрации осталось 323 «товарных» запроса.

Как генерировать семантику своими руками

Обычно авторы таких статей в разделе «Практическое применение» предлагают читателям учить Python или же использовать AParser/Zennoposter. Не умаляя всех достоинств этих способов автоматизации, отметим, что они сильно сужают круг тех, кто применит рекомендации в реальности.

Мы все же предпочитаем автоматизацию, максимально близкую к формату «одной кнопки»: зашел, нажал, получил результат. Поэтому мы сделали микросервис «Генерация запросов» в MOAB Tools.

Как его использовать:

Для тех, кто не любит читать документацию, мы подготовили небольшое видео с кратким описанием основных возможностей:

Скринкаст с описанием микросервиса «Генерация запросов»

Нейро-SEO: реальность опережает прогнозы

Если начал говорить про автоматизацию в SEO — рано или поздно скатишься в обсуждение нейросетей. Порой кажется, что спекуляции на тему ChatGPT — один из самых эффективных способов собрать лайки на vc.ru для авторов, которых в других случаях просто не замечают.

Как широкое использование ИИ повлияет на SEO-индустрию: наша точка зрения.

Государства рано или поздно сделают маркировку генеративного контента обязательной, а отказ от маркировки — нарушением (в Китае уже готовятся запрещать). Владельцев нейросетей, вероятно, заставят вести реестр сгенерированного контента. Это позволит маркировать сниппеты и/или понижать в выдаче материалы без маркировки.

  • Качество контента возрастет.

Пресловутый EAT неслучайно превратился в EEAT. Еще одна «E» — это Experience. По сути, нейросети не создают новый контент — в зависимости от качества датасета, они формируют плохую или хорошую компиляцию на его основе.

В условиях засилья генеративного контента дополнительный бонус в ранжировании получат сайты, где будет уникальный по смыслу контент, объединяющий в себе информацию, которая до момента публикации существовала лишь в головах у экспертов в конкретной нише.

  • (нормальный) Контент станет дороже.

Это создаст дополнительные проблемы для малого бизнеса и вытеснит с рынка дешевых «копирайтеров» и «рерайтеров». Конкурентные экспертные тексты они не потянут, а писать простые технические тексты клиенты «наймут» нейросеть.

На их место придут серьезные редакции, умеющие работать с экспертами, разбираться в технических вопросах и структурировать информацию.

Безусловно, в выдаче будет много генеративного контента, в том числе тогда, когда он реально нужен для выполнения чисто технической функции — описания товаров, тексты «как варить пельмени» и «график праздников 2023». Но в то же время по запросу [деревянный дом под ключ проекты и цены] преимущество получит кто-то типа GoodWood, с контентом такого типа.

И это отличная перспектива.

Прозвучит парадоксально, но чем сложнее — тем лучше, чем дороже — тем лучше, чем больше препятствий — тем лучше.

Маркировка рекламы у блогеров грозит уничтожить рынок нативок? Не проблема, мы разобрались и уже продаем блогерам и заказчикам консультации по маркировке.

Чаще всего фискальные, регулятивные и технические ограничения — это решаемая проблема для профессионала и неразрешимое препятствие для новичка.

Если в бизнесе вы можете решить проблему за деньги — это не проблема, это возможность. Главное, помните о том, скольких конкурентов эта проблема убрала с вашего пути.

P.S. Редакция MOAB выражает глубокую признательность CMO Hoff.ru Виталию Шахматову за возможность поделиться данными по сбору семантики для проекта.

6.5K показов

8.7K открытий