Как Яндекс делит текст на Я.предложения
Нескончаемая тема про «пассажи» обрела новую жизнь и так надоела, что я решил перестать гадать на кофейной гуще, а проверить все аккуратно и наглядно.
Результат размечен галочками на самой тестовой страничке; пока что по быстророботу, но очень сомневаюсь, что это принципиально.
Вывод: граница предложений проходит по конструкции
знак «.», «:», «!» или «?» + пробел + слово, начинающееся с заглавной буквы
Сейчас ждем результатов аналогичного эксперимента Михаила Райцина, где проверяться будут границы пассажей/предложений в анкор-листе. У эксперимента Михаила, как кажется, велик шанс провалиться из-за всяких фильтров на ссылочное — просто тестовые ссылки не сработают на ссылочное — ну да будем надеяться на лучшее. 8)
А еще в той дискуссии появился отдельный поток «религиозный диспута» (© wolf) о запросозависимости «пассажа». Лезть туда как-то неохота; скажу только, что pro-maker меня убедил, что есть три сущности:
- лингвистическое предложение (которого, на самом деле, нет и которое к делу не относится)
- предложение-глазами-Яндекса (то, что я опрометчиво называю «пассажем»)
- и, наконец, собственно «пассаж», который «релевантный».
В этом тексте речь идет именно о «предложении-глазами-Яндекса».
«:» или «;»?
Там же все видно!
В принципе это и так было известно. Только про двоеточие что-то новое.
И что нам может дать инфа о разделении пасажей в анкор листе?
Чтобы четко было 1 анкор 1 пасаж?
Есть и еще где использовать. В том числе, чтобы вылизывать текстовую релевантность и сниппеты.
“где проверяться будут границы пассажей/предложений в анкор-листе”
Что выяснилось по поводу анкоров?
Ничего. Мои опасения подтвердились: сработала только одна ссылка из всей серии. 8(
Можно поподробнее?
Или если лень - где почитать?
Да все просто — Михаил сделал аналогичную моей страничку и поставил ссылки из каждого проверяемого отрезка текста. Но все обломалось. 8(
Впрочем, я полагаю, что правила «нарезки» текстов в теле документа и при формировании анкор-файла совпадают. Есть некоторые странные исключения, но не думаю, что их можно повторить экспериментально. То есть я не знаю версий, которые имеет смысл проверять экспериментально.
“Впрочем, я полагаю, что правила «нарезки» текстов в теле документа и при формировании анкор-файла совпадают.”
Логично, спасибо за информацию. Но вот как получается - к примеру, анкор “курорты Зимбабе” - неужели полюбому на 2 части?
Нет, конечно:
Дак вот объснение то и не совсем ясно.
Тут плюс это обязательное условие? Я лично сразу этого не понял. Но если обязательное, то “рыба. Рыба” поделиться, а “рыба. рыба” нет?
Обязательное; про рыбу — именно так.
Окей, спасибо, что уточнил. Сейчас сошлюсь на твой эксперимент.
Пиши чаще.
Спасибо. Ща заценим твой блог как источник трафика. 8)
Впрочем, сам можешь посмотреть.
Тут тоже заметен прогресс.
И еще 9 спам-комментов тут же навалило. 8)
а как быть с городами…
например, !+г &/(1 1)!+Москва находится, точка не делит на 2 разных предложения, это подтвержается, если искать с расстоянием в предложение !+г &&/(1 1)!+Москва
Дык, надо попробовать сослаться не на один документ, а на много разных :)
А ты серьезно полагаешь, что там могут быть серьезные регулярные отличия от текстового разбиения?
(аномалии типа Серча-курятника в рассчет не берем)
Не учтет яша ссылки с одной страницы на одну страницу
Денис, а ссылки вели на одну страницу?
Ага, в этом-то и был прокол.
[…] Денис Иванов: Как Яндекс делит текст на Я.предложения. Вообще стоит пролистать блог - там много полезного. […]
[…] Тут некоторые любят задавать вопрос имени академика Нариньяни: зачем это все нужно простому трактористу? В общем случае ответ прост: учи матчасть. Но не каждому Нариньяни скажешь такое. 8) […]
[…] 1) Серию полезных экспериментов провел Денис Иванов: - Как Яндекс делит текст на Я.предложения - Расстояния внутри Я.предложений […]
Непонятки с городами…
Например, !+г &/(1 1)!+Москва не делит на 2 предложения, это подтверждается и при использовании !+г &&/(1 1)!+Москва
А в чем непонятки-то? Таких конструкций несколько, и список их явно закрытый. Если охота, то можно просто сесть и проверить все распространенные сокращения.
а как на разделение предложений влияют скобочки () не смотрели?
Нет. Полагаю, что не делят.
После прочтения статьи и анализа выдачи возник вопрос. Помогите, пожалуйста, разобраться. Если я не права - укажите в чем.
Если, как видно из опыта, Яндекс видет пассаж(предложение) от “. Большая буква” и до “. Большая буква” (частный случай). По запросу “театральные кресла” (колдунщик до того как его отменили переколдовывал запрос в “театральные&кресла”) оба слова должны находится в одном предложении. В результатах выдачи в сниппете по одному сайту выдается “Большое внимание наша компания уделяет реализации офисных стульев и кресел. У нас в ассортименте театральные кресла, кресла для кинотеатров”.
Почему выдается данный сниппет и поиск идет между предложениями? Либо предложение определяется не как показал опыт (от “. Большая буква” и до “. Большая буква”), либо по-новому переколдовывается запрос, либо в сниппете отображается не вполне реальная картина.
Помогите разобраться!!!
Странно. Кажется, глюк уже прошел?
Нет, не прошел. Посмотрите позицию №8.
Это видно при поиске всего фрагмента: “Большое внимание наша компания уделяет реализации офисных стульев и кресел. У нас в ассортименте театральные кресла, кресла для кинотеатров”.
Да, теперь понял о чем речь. Замечу еще, что совершенно нестандартная ситуация, когда в одном сниппете мы видим два предложения, разделенных точкой.
Единственное, что подумалось, — может, дело в между предложениями. Попробуйте заменить на нормальный пробел.
Возможно Вы правы на счет . Но к сожалению сайт не мой проверить это не могу, однако если настроить поиск на выдачу 5 фрагментов в позиции 2 можно увидеть следующий сниппет: “Приоритетом для нашей компании является офисная мебель. Большой выбор офисных,театральных и различных кресел руководителя, а также офисных стульев …” И если смотреть в коде, то предложения разделены как раз .
<!– P.S. удален, но принят к сведению. 8) –>
А в чем проблема убрать ? Или это не ваш сайт?
Сайт не мой, это просто наблюдение в тему, которое, возможно, расширит понимание “предложение” и “пассаж”.
И спасибо, что удалили P.S.
И вам спасибо за интересный пример. Надо будет написать об этом. 8)
Что касается P.S. — напишу, как будет время, окей?
Буду ждать с нетерпением - вопросов и примеров много интересных, а вот поделиться и обсудить по достоинству не с кем!
Нашел еще один чудной пример.

Тут сразу куча интересного:
1. Внутреннее ссылочное (мой сайт).
2. «Рабочий» cквозняк (мой сайт).
3. «Второй пассаж» в анкор-листе (несколько).
4. Пример с (www.gazeta.ru).
Скриншот:
Денис, в приведенном примере присутствует знак “точка с запятой”, а не “двоеточие”. Это опечатка?
Где именно? Вроде все правильно: двоеточие устроено как точка, точка с запятой — как запятая. Проверьте тут.
Все что сейчас написал - все стер, внимательней приглядевшись к примеру. Теперь понятно, что
граница предложений не проходит по конструкции
знак «,», «;» или «—» при любых вариантах следующих за ними символов.
Спасибо!
[…] Назрело уточнение к устройству разделителей предложений: по конструкции точка + (неразрывный пробел) + большая буква граница предложений не проходит. […]
Небольшое дополнение.
[слово>3 букв]&&(«.»||«:»||«!»||«?»)&&пробел&&[(слово, начинающееся с заглавной буквы)||«(»||«[»||«цифра»)]
Левые скобки под вопросом, точно определить не получается.
пример: Шолохов & речь
Да, с инициалами и экзотикой не разбирался. Может быть, и так.
[…] несколько раз упоминал эксперимент Дениса Иванова «Как Яндекс делит текст на Я.предложения», ближе к концу мероприятия из зала был задан вопрос: […]
Анализируя выдачу яндекса по запросу “асбестоцементные трубы”, было замечено, что для cайта на 19 месте (http://www.truba-torg.ru) формируется сниппет странным образом:
Пластиковые и асбестоцементные трубы от Труба-торг. Наша торговая компания работает на рынке строительных материалов более 10-ти лет.
Смотря код страницы, можно увидеть следующее:
Пластиковые и асбестоцементные трубы от Труба-торг
Наша торговая компания работает на рынке строительных материалов более 10-ти лет Каталог нашей компании содержит большое…
Получается, что в сниппет яндекс добавляет точки сам (как для первого, так и для второго предложения) и для него пассажем в данном случае будет подобная конструкция.
Да, занятно. Похоже, что действительно сам цепляет точку.
Кстати, мудреное чтиво про новые сниппеты (доклад с последнего РОМИПа).
Получается что если использовать вместо пробела то яндекс не сможет понять где начало предложения а где конец? Ведь так получается? Поправьте Денис если я чего то не понимаю
Так было на момент написания этого поста. Конечно, если речь про текст, не разделенный границами HTML-блоков.
Теперь не так, проверьте сами: http://ivanov.in/separators/#nbsp
Добавить комментарий »