Про ударе́ния в Я́ндексе

Я неравнодушен ко всяким буковкам. Наверное, потому что (а, быть может, поэтому) я учился на отделении теоретической и прикладной лингвистики. Когда-то давным-давно, только еще осваивая веб, я написал джаваскриптик, с помощью которого я мог любоваться на всевозможные прекрасные юникодные буковки, символы и прочее. Это чудо-юдо сохранилось тут, и нормально оно работает только под IE.
Недавно я переписал этот скриптик на PHP в двух версиях: по 100 символов на страницу и по 64 символа (меня с них прет, да), и Денис Мезенцев (Юни) задал интересный вопрос про ударения.

Дальше не буду пересказывать и публиковать его и мою историю переписки с глубокоуважаемым Платоном Щукиным, а изложу только результат.

Итак, какие есть способы расстановки русских ударений так, чтобы Яндекс их нормально кушал:

1. Способ имени Википедии: си́мволом ́ после соответствующей буквы. Яндекс при построении индекса его попросту пропускает. Проверка. Этот символ кстати прикольно ведет себя с регистрами — см. заголовок поста.

2. Способ имени Файнридера: некоторые русские буквы можно заменять на соответствующие латинские с акутом. В частности, это работает для буквы á (á или á) и ý (ý или ý). См. Удивительным образом, срабатывает замена русской и на ú (ú или ú). Но это не работает для ? и ?. Ни фига.

Как пишет Платон, видимо, ó и é нужно добавить в список вариантов букв о и е. Но пока что, как видите, это не сделано.

Мораль сей басни такова: лучше не париться и всегда пользоваться символом ́ (когда надо, конечно — я вовсе не призываю всегда проставлять ударения, как делают некоторые ударенные на голову). Распознанные тексты с акутами недолго и автозаменой проавтозаменять. 8)

PS. А ни у кого нет не слишком заспамленых сайтов, на которых постоянно публикуются новые материалы (новости и т. п. по 2–3 и более раз в день) и админятся вменяемыми админами? Если да, то меня есть что предложить — в «личку» на Форуме или просто в комментариях — я вижу ваши емейлы. 8)

Комментарии: 12 шт. Добавить »

[+] случайный :

> 1. Способ имени Википедии: символом ́ после соответствующей буквы. Яндекс при построении индекса его попросту пропускает.

Если ударение стоит на последней букве слова, оно будет в Я.сниппете
См. … в христианском миру … tao-evil.narod.ru

А Рамблер не ищет слово, разбитое ударением.

Да, появление ́ в сниппете — это странно.
А Рамблер — да, туповат в этом отношении.
Ну да вроде ему недолго осталось. 8/

[+] случайный :

Тут длинное тире обнаружилось — в текстовом фрагменте, но не в тексте ссылке…

Как! Почему? От кодировок зависит?

Фиг знает. Можно последить за формированием сниппетов. Они их явно активно переделывают.

[+] случайный :

Поддержка ответила уже:

“Длинное тире” кодируется в HTML коде комбинацией —, в этом случае оно одинаково будет отображаться в ссылках и аннотациях к ним.

Уже перегружаю файлы, в которых было — хотя может быть этого и не требуется.

PS. В том примере видно в конце аннотации спецсимвол “многоточие” а не три точки, так что наверное меняют.

Ага, клево. Спасибо за замечания. Кстати, оно сейчас «пляшет». Ср. (1) и (2). Проставил в этом посте — — будем посмотреть, что из этого выйдет. 8)

[+] случайный :

Эмм… К чему бы это? Давно вроде известно, что Яндекс в сниппетах не шибко любит типографику. 8/

[+] saurongorynich :

Длинное тире всегда отображается в сниппете, если его ставить не HTML-кодом, а как обычный символ или букву.

ЗЫ если неправильно сформулировал, то:
не —
а просто —

ЗЫЫ Проверено на документах в CP-1251

Ну вот у меня в UTF-8 — все окей вроде c —.

[+] saurongorynich :

Я не имел ввиду, что по-другому не работает, а сообщил проверенный 100% рабочий вариант :)

[×]
Показать/Скрыть xHTML-теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>


Рейтинг блогов
8)