Кликстрим - где используется и при чем тут SEO

13 января 2023 г.

С каждым днём всё больше криков и хайпа вокруг нейронных сетей. Об их использовании в SEO как со стороны поиска, так и со стороны специалистов. Посты про ChatGPT сейчас летят по несколько штук в день. Что поделать, тема действительно вызывает интерес, особенно из-за простоты его использования. Ничего не нужно кодить, зашел на сайт, написал текстом запрос, получил результат.

В целом тренд в отношении машинного обучения приводит всё больше специалистов в эту область. Не скрою, она затягивает и меня.

Чаще всего сейчас говорят про языковые модели и нейросети работающие над изображениями (NLP и CV два крупных пласта в Data Science). Это клёво, это нужно, но я в основном профилируюсь на e-commerce SEO. А там к сожалению или к счастью оба этих направления имеют не самое высокое значение. Текстовая оптимизация важна, но на ней далеко не уедешь, если мы говорим о продвижении в конкурентных нишах. Если откинуть текстовое ранжирование и внешние ссылки, у нас грубо остаются юзабил и навигация, дизайн, коммерческие факторы, ПФ.

Собственно основываясь на личном опыте я вижу, что действительно перечисленные факторы имеют очень большое значение в коммерческом ранжировании. Например уже несколько раз наблюдал за ростом позиций сайта после редизайна, даже если он был чисто косметическим и с минимальными изменениями верстки.

К чему я веду? Когда-то векторное представление текста было для человечества задачей. Сейчас же мы имеем способы векторного представления Кликстрима (Кликстрим - последовательность действий). И именно об этом я хотел бы поговорить. Собственно где-то услышав об этом, мне стало интересно. Но если погуглить тему, то на самом деле понимаешь, что информации об этом в сети не так уж много. Точнее достаточно, но в большинстве своём это патенты и научные публикации.

Далее я кратко расскажу о паре таковых. А потом мы сделаем какие-то выводы.

Первая публикация

Данный научный труд о векторном представлении кликстрима пользователей на e-commerce сайте для изучения пользовательского поведения. В данном случае кликстрим представляет из себя последовательность посещенных URL. Никаких дополнительных эвентов нет. Анализируются часто посещаемые страницы и последовательности посещений страниц, "воронки продаж".

Что тут цепляет внимание:

We identify two application use cases, Funnel Analysis and User Interface Testing: A funnel analysis is a method to understand the steps necessary to achieve a result on a website 1 . The set of steps is called a "funnel" because the typical shape that visualizes users’ flow is similar to a real kitchen funnel. For example, consider an e-commerce company whose ultimate goal is to get users.

Т.е. авторы видят 2 сценария использования данного метода:

  1. Анализ воронок - определение важных этапов необходимых для достижения какого-либо результата на сайте (например покупки).
  2. Тестирование UI. Получить частые последовательности действий и на их основе генерировать автоматические сценарии тестирования приложений.

The proposed methodology identifies clusters of similar user behavior by grouping similar user sequence patterns.

Тут о том, что предложенная методология определяет группы пользователей со схожим поведением.

identify unexpected user behaviors

Еще короткая цитата, говорящая о возможности выделения неожиданного поведения пользователей.

И это только на основе истории посещения URL.

Второй научный труд показывает больше возможностей:

Данная публикация о методе обнаружения злоумышленников и сложного поведения пользователей. Так же о кластеризации пользователей по их поведению.

Публикация интереснее предыдущей тем, что в данном случае анализируются не только URL, но и эвенты (события).

Данные - кликстримы с 2 социальных сетей.

В первый кликстрим включены 55 типов эвентов, сгруппированные в 8 групп - Такие как добавление в друзья, загрузка фото на сайт, просмотры профилей пользователей и проч.:

  • Friending: Sending friend requests, accepting or denying those requests, and un-friending.
  • Photo: Uploading photos, organizing albums, tagging friends, browsing photos, and writing comments.
  • Profile: Browsing user profiles. Profiles on Renren can be browsed by anyone, but the displayed information is restricted by the owner’s privacy settings.
  • Sharing: Users posting URLs linking to videos, blogs or photos in/outside Renren.
  • Message: Status updates and instant-messages.
  • Blog: Reading/writing blogs, and commenting.
  • Notification: Users actively clicking on the notifications.
  • Like: Users liking (or unliking) content.

Во втором датасете 33 типа эвентов сгруппированные следующим образом:

  • Browsing: Browsing whispers, visiting the public whisper feeds (popular/nearby/latest list).
  • Account: Creating a user account and login the app.
  • Posting: Posting original whispers and replies, hearting/unhearting a whisper, sharing whispers, and tagging a whisper to a topic.
  • Chatting: Initiating a chat, blocking other users in a chat, and being blocked in a chat.
  • Notication: Receiving notications about hearts/replies on their whispers, and whisper recommendations.
  • Spam: Whispers being examined or deleted by system admins. Events in this category are all below 1%.

Даже предварительный анализ данных показывает явные отличия между обычными юзерами и "мошенниками":

Представленная авторами модель имела хорошую точность в определении "неверных". И была протестирована в LinkedIn и Renren. Более того, обнаружила "новый тип" спамерских акков, ранее не обнаруженных на Renren:

While corporate privacy policies prevented Renren from sharing detailed results with us, their feedback was very positive. They indicated that our system identied a new type of attack performed by a large cluster of “image spammers”. These accounts’ clickstream behavior focused heavily on photo sharing. Manual inspection revealed that these accounts embedded spammy text and URLs to promote brands of clothes and shoes. Traditional text analysis-based spam detectors and URL blacklists were unable to catch this new attack since the content were embedded into images.

Далее авторы копают глубже и кластеризуют юзеров по их поведению на большое число кластеров:

Какие применения анализа кликстрима пользователей могут быть, в том числе на поиске?

  • Самое очевидное, что всплывает сразу же при знакомстве с первой публикацией - отсеивание ботов на сайтах для исключения их влияния на ПФ. Второй труд еще более глубокий. Всё это даёт пищу для размышлений (что определить бота можно не только по истории кук, но и по поведению на целевом сайте. А можно и вовсе не определять бота, а выделять доли "хороших" пользователей и анализировать только их или брать во внимание отношение плохих к хорошим - фич напридумывать можно кучу).
  • Определение важных точек на пути пользователя для достижения цели (1ая публикация) и как последствие построение предиктивных моделей, говорящих об удобстве сайта. Следующий пункт продолжает мысль.
  • Предсказание эвента или клика куда-то (определение ключевых точек в целевых визитах может быть частью модели предсказывающей конверсию или эвент (клика в ссылку, кнопку), включая во внимание патенты Google о влиянии расположения ссылки на странице на ее "ценность", могут включаться гипотезы вокруг оценки дизайна, юзабила и др. факторов).
    Кстати, метрика сейчас уже умеет настраивать автоцели на сайтах. Причем, наверняка Яндекс и ранее умели майнить эти данные, но для собственных целей (срабатывание цели это такой же эвент как во 2ой публикации). Но только недавно добавили такой функционал в паблик в счетчики метрики, чтобы и владельцы сайтов получали данные об этих эвентах, без ручной настройки.
  • Определение "полезных" страниц/сайтов на основе логов пользователей (Browse Rank). 
  • Построение предсказательных моделей покупки от кликстрима и др. фич.
  • Предположения о поле и возрасте юзера по кликстриму.
  • Определение интента пользователя на основе кликстрима.
  • Коммерческие платформы используют кликстрим для персонализации (рекомендации товаров, персональные предложения основываясь на предположениях об интенте пользователя и тд.). Например Сбер
  • Рекомендации лучших товаров основанные на анализе кликстрима ссылка

Как то так. Данной статьёй я ни в коем случае не утверждаю, что что-то из перечисленного используется на поиске. Лишь показываю частичку доступного на данный момент арсенала методов анализа данных и возможных его применений в прикладных задачах.

В машинном обучении главное данные. Методы машинного обучения строятся от данных и целей, к которым мы хотим прийти. А у поисковиков данных разного рода очень много.

Например у Яндекса есть Метрика, куки, толокеры. А Яндекс Маркет... это вообще море коммерческих данных для анализа, к тому же завязанных на поиск (люди в том числе приходят к ним через поиск).

Комментарии - 1


    13 января 2023 г. 13:21 - Костик  
    Ваще, с точки зрения просто даже затронуть эту тему - круто)) Кстати, по поводу автоцелей тема: когда их не было - на сайтах с серьезным подходом к дизу и прочим кф удобствам - всегда по максимуму пытались ставить целей разных и сложных/составных и простых, чтобы отдать больше инфо Яндексу… в теории считали что таким образом алго четче схавают изменения и повысят релевашку, а если эффект был слабый - то отсматривали цели, поведение и че-нить корректили, но слова кликстрим в далеком 15ом году мы не знали :D
    Ответить

Добавить комментарий

Необходима для подтверждения комментария