Расстояния внутри Я.предложений

Созрели данные по еще одному эксперименту. На этот раз вопрос был в том, как Яндекс ведет себя с расстояниями внутри Очень Длинных Предложений.

Вот экспериментальная страница с красивым джаваскриптом. Все это можно было посмотреть на «живом» материале, но уж больно запарно считать непронумерованные слова, да и повторы мешаются. Итак, проверяем, что страница в индексе, и поехали.

Слова 000 & 062 находятся в одном пассаже/предложении.
Слова 000 & 063 не находятся в одном пассаже/предложении (в смысле, их нельзя найти).
Слова 062 & 063 не находятся в одном пассаже/предложении.
Слова 063 & 064 находятся в одном пассаже/предложении.
Слова 063 & 125 находятся в одном пассаже/предложении.
Слова 063 & 126 не находятся в одном пассаже/предложении.
И так далее — проверьте сами.

Вывод:

Яндекс делит длинные пассажи/предложения на пассажи/предложения длиной в 63 слова (максимальное расстоянием между ними — 62).

Все границы мне было преверять лень, но вот, к примеру, явно граница проходит между 944 & 945, что абсолютно логично (945 / 63 = 15). Алексей «Interitus» Поляков что-то вроде того и предсказывал.

Расстояния между полученными субпассажами/подпредложениями работают как между обычными пассажеми/предложениями. Вот, например, расстояние между словами 000 и 999 составляет ровно 15 пассажей/предложений.

Тут некоторые любят задавать вопрос имени академика Нариньяни: зачем это все нужно простому трактористу? В общем случае ответ прост: учи матчасть. Но не каждому Нариньяни скажешь такое. 8)

В данном случае могу привести простой пример. Пусть мы продвигаем двусловный запрос, который переколдовывается с одиночным знаком амперсанда; мы написали очень длинное и распространенное предложение, в котором перечислили все наши заслуги перед мебельной индустрией, расписали как хорош наш товар, нагородили кучу дополнительных ключевиков вроде «продажа», «купить», «дешево» и «сердито», описали наших гениальных сейлз-менеджеров, которые способны удовлетворить любой запрос клиента, и, наконец, влепилитипа на сладкоенаш главный ключевик «офисная мебель». Дальше думайте сами. 8)

Напомню, что недавно я провел эксперимент на близкую тему — как Яндекс делит текст на предложения. Таким образом (если не выяснятся какие-нибудь неучтенные хитрости) для построения модели анализа того, какие единицы текста доступны Яндексу, остается только проверить наличие границ по HTML-тегам (тут, думаю, все элементарно) да всякие экзотические знаки препинания типа «…» и «·» (тут тоже несложно — достаточно посмотреть на то, во что они превращаются в сниппетах).

Занимательно, кстати, вот что: когда идет куча знаков препинания подряд, Яндекс их как-то хитроумно «сжимает».

UPD: странное что-то с отрицательными расстояниями творится… Надо будет еще поковыряться. 8/

Комментарии: 17 шт. Добавить »

Денис, респект за эксперимент.
То что предложения режутся на части было ясно давно, но то что эти части все равны 63 токенам - для меня сюрприз :)
Всегда приятно узнать что-от новое.

Ну да, Леша Поляков так и сказал на ЯБете. Только я сразу не вкурил. Так что баян. 8)

http://www.minich.ru/business/seo/
натурально баян ))

Ну дык, Миныч рулит; впрочем, никогда не вредно получить данные наглядно и эксперментально. 8)

Очень интересно.
Интересно они режутся несмотря на знаки препинания от начала текста или от начала каждого предложения.

Спасибо за статью, уже нашел ей применение :-) Главное не забывать, что Первое Слово в пассаже имеет №0 ;-)

О как… А где, если не секрет? А то тут мне в аську пеняют, что я занимаюсь общей теорией, малоценной в практическом применении. 8)

РЕСПЕКТ тебе и УВАЖУХА Денис..
Правда молодец…

[…] Интересное на сегодня: Википедия на первом месте: что будем делать, SEO: ручной труд или автоматизация, «как выйти замуж за миллионера» и ответ миллионера (обязательно к прочтению всем), продажа ссылок: как избежать пессимизации в Яндекс, расстояния внутри Я.предложений, с «клоном» по сети, в Интернете заработала доменная зона .asia, пять убийц вашего онлайн бизнеса, прямые жирные ссылки бесплатно (кстати, куплю сквозняки от PR 5, пишите на почту), как молодые люди зарабатывают на Facebook сотни тысяч долларов, Google AdSense - проблема с чеками решена. […]

[…] Поганка #1: если ссылка попала на границу подпредложений/субпассажей (которые по 63 слова), то сработает только первая часть. Это, в общем-то, стандартное свойство границ предожений. Где встречается: в «подвалах» жадных линкоторговцев, которые разделяют ссылки «вертикальками» и прочим хламом вместо тегов <br>, <p>, <li> и т. п., чем и создают очень длинные пассажи/предложения. Как бороться: если формат размещения позволяет, то перед ссылкой нужно принудительно провести границу предложений. Например: Нужен бегемот? Загляните на наш аукцион бегемотов! […]

По поводу растояний есть вопрос. [deleted]
Сам коммент удалите пожалуйста, если можно разговор перевести в асю - я буду рад. [deleted]

Сорри, но у меня нет никаких разумных мыслей на этот счет. 8/

очень жаль. ни как не могу придумать как безошибочно проверить свои мысли.
Натолкнулся на материал - http://www.seonews.ru/analytics/detail/6886.php
Есть мысли? Тут уже можно отойти от теории к практики =) Так сказать можем получить идельную формулу для seo оптимизированного текста.

Это все старье, но принцип, конечно же, верный. В общем случае чем больше в тексте предложений, которые содержат все слова запроса, тем релевантнее текст.

Оказывается свой блог не правильно указал =)
Денис ты меня за спамера случаем не принял? =)=)

Гы, была такая мысль. 8)

[×]
Показать/Скрыть xHTML-теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>


Рейтинг блогов
8)