Как Яндекс делит текст на Я.предложения

Нескончаемая тема про «пассажи» обрела новую жизнь и так надоела, что я решил перестать гадать на кофейной гуще, а проверить все аккуратно и наглядно.

Результат размечен галочками на самой тестовой страничке; пока что по быстророботу, но очень сомневаюсь, что это принципиально.

Вывод: граница предложений проходит по конструкции

знак «.», «:», «!» или «?» + пробел + слово, начинающееся с заглавной буквы

Сейчас ждем результатов аналогичного эксперимента Михаила Райцина, где проверяться будут границы пассажей/предложений в анкор-листе. У эксперимента Михаила, как кажется, велик шанс провалиться из-за всяких фильтров на ссылочное — просто тестовые ссылки не сработают на ссылочное — ну да будем надеяться на лучшее. 8)

А еще в той дискуссии появился отдельный поток «религиозный диспута» (© wolf) о запросозависимости «пассажа». Лезть туда как-то неохота; скажу только, что pro-maker меня убедил, что есть три сущности:

  1. лингвистическое предложение (которого, на самом деле, нет и которое к делу не относится)
  2. предложение-глазами-Яндекса (то, что я опрометчиво называю «пассажем»)
  3. и, наконец, собственно «пассаж», который «релевантный».

В этом тексте речь идет именно о «предложении-глазами-Яндекса».

Комментарии: 49 шт. Добавить »

[+] romych :

«:» или «;»?

В принципе это и так было известно. Только про двоеточие что-то новое.
И что нам может дать инфа о разделении пасажей в анкор листе?
Чтобы четко было 1 анкор 1 пасаж?

Есть и еще где использовать. В том числе, чтобы вылизывать текстовую релевантность и сниппеты.

[+] MaulNet :

“где проверяться будут границы пассажей/предложений в анкор-листе”

Что выяснилось по поводу анкоров?

Ничего. Мои опасения подтвердились: сработала только одна ссылка из всей серии. 8(

[+] MaulNet :

Можно поподробнее?
Или если лень - где почитать?

Да все просто — Михаил сделал аналогичную моей страничку и поставил ссылки из каждого проверяемого отрезка текста. Но все обломалось. 8(
Впрочем, я полагаю, что правила «нарезки» текстов в теле документа и при формировании анкор-файла совпадают. Есть некоторые странные исключения, но не думаю, что их можно повторить экспериментально. То есть я не знаю версий, которые имеет смысл проверять экспериментально.

[+] MaulNet :

“Впрочем, я полагаю, что правила «нарезки» текстов в теле документа и при формировании анкор-файла совпадают.”

Логично, спасибо за информацию. Но вот как получается - к примеру, анкор “курорты Зимбабе” - неужели полюбому на 2 части?

Нет, конечно:

знак «.», «:», «!» или «?» + пробел + слово, начинающееся с заглавной буквы

[+] MaulNet :

Дак вот объснение то и не совсем ясно.
Тут плюс это обязательное условие? Я лично сразу этого не понял. Но если обязательное, то “рыба. Рыба” поделиться, а “рыба. рыба” нет?

Обязательное; про рыбу — именно так.

[+] MaulNet :

Окей, спасибо, что уточнил. Сейчас сошлюсь на твой эксперимент.
Пиши чаще.

Спасибо. Ща заценим твой блог как источник трафика. 8)

Впрочем, сам можешь посмотреть.
Тут тоже заметен прогресс.
И еще 9 спам-комментов тут же навалило. 8)

а как быть с городами…
например, !+г &/(1 1)!+Москва находится, точка не делит на 2 разных предложения, это подтвержается, если искать с расстоянием в предложение !+г &&/(1 1)!+Москва

Дык, надо попробовать сослаться не на один документ, а на много разных :)

А ты серьезно полагаешь, что там могут быть серьезные регулярные отличия от текстового разбиения?
(аномалии типа Серча-курятника в рассчет не берем)

Не учтет яша ссылки с одной страницы на одну страницу

Денис, а ссылки вели на одну страницу?

Ага, в этом-то и был прокол.

[…] Денис Иванов: Как Яндекс делит текст на Я.предложения. Вообще стоит пролистать блог - там много полезного. […]

[…] Тут некоторые любят задавать вопрос имени академика Нариньяни: зачем это все нужно простому трактористу? В общем случае ответ прост: учи матчасть. Но не каждому Нариньяни скажешь такое. 8) […]

[…] 1) Серию полезных экспериментов провел Денис Иванов: - Как Яндекс делит текст на Я.предложения - Расстояния внутри Я.предложений […]

Непонятки с городами…
Например, !+г &/(1 1)!+Москва не делит на 2 предложения, это подтверждается и при использовании !+г &&/(1 1)!+Москва

А в чем непонятки-то? Таких конструкций несколько, и список их явно закрытый. Если охота, то можно просто сесть и проверить все распространенные сокращения.

[+] zangzezi :

а как на разделение предложений влияют скобочки () не смотрели?

Нет. Полагаю, что не делят.

[+] Наталия :

После прочтения статьи и анализа выдачи возник вопрос. Помогите, пожалуйста, разобраться. Если я не права - укажите в чем.

Если, как видно из опыта, Яндекс видет пассаж(предложение) от “. Большая буква” и до “. Большая буква” (частный случай). По запросу “театральные кресла” (колдунщик до того как его отменили переколдовывал запрос в “театральные&кресла”) оба слова должны находится в одном предложении. В результатах выдачи в сниппете по одному сайту выдается “Большое внимание наша компания уделяет реализации офисных стульев и кресел. У нас в ассортименте театральные кресла, кресла для кинотеатров”.

Почему выдается данный сниппет и поиск идет между предложениями? Либо предложение определяется не как показал опыт (от “. Большая буква” и до “. Большая буква”), либо по-новому переколдовывается запрос, либо в сниппете отображается не вполне реальная картина.

Помогите разобраться!!!

Странно. Кажется, глюк уже прошел?

[+] Наталия :

Нет, не прошел. Посмотрите позицию №8.
Это видно при поиске всего фрагмента: “Большое внимание наша компания уделяет реализации офисных стульев и кресел. У нас в ассортименте театральные кресла, кресла для кинотеатров”.

Да, теперь понял о чем речь. Замечу еще, что совершенно нестандартная ситуация, когда в одном сниппете мы видим два предложения, разделенных точкой.
Единственное, что подумалось, — может, дело в   между предложениями. Попробуйте заменить на нормальный пробел.

[+] Наталия :

Возможно Вы правы на счет  . Но к сожалению сайт не мой проверить это не могу, однако если настроить поиск на выдачу 5 фрагментов в позиции 2 можно увидеть следующий сниппет: “Приоритетом для нашей компании является офисная мебель. Большой выбор офисных,театральных и различных кресел руководителя, а также офисных стульев …” И если смотреть в коде, то предложения разделены как раз  .

<!– P.S. удален, но принят к сведению. 8) –>

А в чем проблема убрать &nbsp;? Или это не ваш сайт?

[+] Наталия :

Сайт не мой, это просто наблюдение в тему, которое, возможно, расширит понимание “предложение” и “пассаж”.

И спасибо, что удалили P.S.

И вам спасибо за интересный пример. Надо будет написать об этом. 8)
Что касается P.S. — напишу, как будет время, окей?

[+] Наталия :

Буду ждать с нетерпением - вопросов и примеров много интересных, а вот поделиться и обсудить по достоинству не с кем!

Нашел еще один чудной пример.
Тут сразу куча интересного:
1. Внутреннее ссылочное (мой сайт).
2. «Рабочий» cквозняк (мой сайт).
3. «Второй пассаж» в анкор-листе (несколько).
4. Пример с &nbsp; (www.gazeta.ru).
Скриншот:

[+] А.Ю. :

Денис, в приведенном примере присутствует знак “точка с запятой”, а не “двоеточие”. Это опечатка?

Где именно? Вроде все правильно: двоеточие устроено как точка, точка с запятой — как запятая. Проверьте тут.

[+] А.Ю. :

Все что сейчас написал - все стер, внимательней приглядевшись к примеру. Теперь понятно, что
граница предложений не проходит по конструкции

знак «,», «;» или «—» при любых вариантах следующих за ними символов.

Спасибо!

[…] Назрело уточнение к устройству разделителей предложений: по конструкции точка + &nbsp; (неразрывный пробел) + большая буква граница предложений не проходит. […]

Небольшое дополнение.
[слово>3 букв]&&(«.»||«:»||«!»||«?»)&&пробел&&[(слово, начинающееся с заглавной буквы)||«(»||«[»||«цифра»)]
Левые скобки под вопросом, точно определить не получается.
пример: Шолохов & речь

Да, с инициалами и экзотикой не разбирался. Может быть, и так.

[…] несколько раз упоминал эксперимент Дениса Иванова «Как Яндекс делит текст на Я.предложения», ближе к концу мероприятия из зала был задан вопрос: […]

[+] Наталия :

Анализируя выдачу яндекса по запросу “асбестоцементные трубы”, было замечено, что для cайта на 19 месте (http://www.truba-torg.ru) формируется сниппет странным образом:

Пластиковые и асбестоцементные трубы от Труба-торг. Наша торговая ​компания работает на рынке строительных материалов более 10-ти лет​.

Смотря код страницы, можно увидеть следующее:

Пластиковые и асбестоцементные трубы от Труба-торг
Наша торговая компания работает на рынке строительных материалов более 10-ти лет Каталог нашей компании содержит большое…

Получается, что в сниппет яндекс добавляет точки сам (как для первого, так и для второго предложения) и для него пассажем в данном случае будет подобная конструкция.

Да, занятно. Похоже, что действительно сам цепляет точку.
Кстати, мудреное чтиво про новые сниппеты (доклад с последнего РОМИПа).

Получается что если использовать &nbsp; вместо пробела то яндекс не сможет понять где начало предложения а где конец? Ведь так получается? Поправьте Денис если я чего то не понимаю

Так было на момент написания этого поста. Конечно, если речь про текст, не разделенный границами HTML-блоков.

Теперь не так, проверьте сами: http://ivanov.in/separators/#nbsp

[×]
Показать/Скрыть xHTML-теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>


Рейтинг блогов
8)