Про ударе́ния в Я́ндексе
Я неравнодушен ко всяким буковкам. Наверное, потому что (а, быть может, поэтому) я учился на отделении теоретической и прикладной лингвистики. Когда-то давным-давно, только еще осваивая веб, я написал джаваскриптик, с помощью которого я мог любоваться на всевозможные прекрасные юникодные буковки, символы и прочее. Это чудо-юдо сохранилось тут, и нормально оно работает только под IE.
Недавно я переписал этот скриптик на PHP в двух версиях: по 100 символов на страницу и по 64 символа (меня с них прет, да), и Денис Мезенцев (Юни) задал интересный вопрос про ударения.
Дальше не буду пересказывать и публиковать его и мою историю переписки с глубокоуважаемым Платоном Щукиным, а изложу только результат.
Итак, какие есть способы расстановки русских ударений так, чтобы Яндекс их нормально кушал:
1. Способ имени Википедии: си́мволом ́ после соответствующей буквы. Яндекс при построении индекса его попросту пропускает. Проверка. Этот символ кстати прикольно ведет себя с регистрами — см. заголовок поста.
2. Способ имени Файнридера: некоторые русские буквы можно заменять на соответствующие латинские с акутом. В частности, это работает для буквы á (á или á) и ý (ý или ý). См. Удивительным образом, срабатывает замена русской и на ú (ú или ú). Но это не работает для ? и ?. Ни фига.
Как пишет Платон, видимо, ó и é нужно добавить в список вариантов букв о и е. Но пока что, как видите, это не сделано.
Мораль сей басни такова: лучше не париться и всегда пользоваться символом ́ (когда надо, конечно — я вовсе не призываю всегда проставлять ударения, как делают некоторые ударенные на голову). Распознанные тексты с акутами недолго и автозаменой проавтозаменять. 8)
PS. А ни у кого нет не слишком заспамленых сайтов, на которых постоянно публикуются новые материалы (новости и т. п. по 2–3 и более раз в день) и админятся вменяемыми админами? Если да, то меня есть что предложить — в «личку» на Форуме или просто в комментариях — я вижу ваши емейлы. 8)
> 1. Способ имени Википедии: символом ́ после соответствующей буквы. Яндекс при построении индекса его попросту пропускает.
Если ударение стоит на последней букве слова, оно будет в Я.сниппете
См. … в христианском миру … tao-evil.narod.ru
А Рамблер не ищет слово, разбитое ударением.
Да, появление ́ в сниппете — это странно.
А Рамблер — да, туповат в этом отношении.
Ну да вроде ему недолго осталось. 8/
Тут длинное тире обнаружилось — в текстовом фрагменте, но не в тексте ссылке…
Как! Почему? От кодировок зависит?
Фиг знает. Можно последить за формированием сниппетов. Они их явно активно переделывают.
Поддержка ответила уже:
“Длинное тире” кодируется в HTML коде комбинацией —, в этом случае оно одинаково будет отображаться в ссылках и аннотациях к ним.
Уже перегружаю файлы, в которых было — хотя может быть этого и не требуется.
PS. В том примере видно в конце аннотации спецсимвол “многоточие” а не три точки, так что наверное меняют.
Ага, клево. Спасибо за замечания. Кстати, оно сейчас «пляшет». Ср. (1) и (2). Проставил в этом посте — — будем посмотреть, что из этого выйдет. 8)
http://forum.searchengines.ru/showthread.php?t=295587
Эмм… К чему бы это? Давно вроде известно, что Яндекс в сниппетах не шибко любит типографику. 8/
Длинное тире всегда отображается в сниппете, если его ставить не HTML-кодом, а как обычный символ или букву.
ЗЫ если неправильно сформулировал, то:
не —
а просто —
ЗЫЫ Проверено на документах в CP-1251
Ну вот у меня в UTF-8 — все окей вроде c —.
Я не имел ввиду, что по-другому не работает, а сообщил проверенный 100% рабочий вариант :)
А, ок. 8)
Добавить комментарий »