Софт-Портал

основная страница яндекса

Рейтинг: 4.1/5.0 (1177 проголосовавших)

Категория: Windows

Описание

Яндекс - это

Яндекс это:

«Я?ндекс»  — российская ИТ -компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является 5-ой среди поисковых сайтов мира по количеству обработанных поисковых запросов (более 3 млрд, 1,7 % от мирового количества, статистика за сентябрь 2011 года) [2]. По состоянию на 16 ноября 2012 года, согласно рейтингу Alexa.com. по популярности сайт yandex.ru занимает 18-е место в мире и 1-е место в России [3] .

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года. и первое время развивалась в рамках компании CompTek International. Как отдельная компания «Яндекс» образовался в 2000 году. В мае 2011 года Яндекс провёл первичное размещение акций. заработав на этом больше, чем какая-либо из Интернет-компаний со времён IPO поисковика Google в 2004 году [4] [5] .

Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы «Яндекс» стал мультипорталом. В 2011 году «Яндекс» предоставляет более 30 сервисов. Самыми популярными являются [6]. Яндекс.Картинки, Яндекс.Почта. Яндекс.Карты. Яндекс.Новости. Яндекс.Погода и другие.

Содержание История [19]

Самый старый офис Яндекса на улице Вавилова

Ворота старого офиса на улице Самокатной

Новый офис Яндекса в бизнес-центре «Красная роза »

Предыстория

В 1988 году предприниматель и программист Аркадий Волож основал фирму CompTek. продававшую персональные компьютеры и занимавшуюся автоматизацией рабочих мест. Также Волож интересовался алгоритмами обработки данных, и его заинтересовала возможность написания приложения, которое могло бы осуществлять поиск информации в больших объёмах текста, учитывая морфологию языка. Совместно со специалистом по компьютерной лингвистике Аркадием Борковским он основал в 1989 году компанию «Аркадия». После 1990 года сотрудники «Аркадии» написали информационно-поисковые системы «Международная классификация изобретений» и «Классификатор товаров и услуг». В последующие три года они продавались НИИ и патентным организациям.

Слово «Яndex» придумали Илья Сегалович, нынешний директор Яндекса по технологиям, и генеральный директор компании — Аркадий Волож. Илья выписывал разные производные от слов, описывающих суть технологии. В результате появился вариант «yandex».

В 1993 году «Аркадию» присоединили к CompTek, в которую ранее пришёл школьный друг Воложа программист Илья Сегалович. В том же году была создана программа для поиска на жестком диске компьютера. Программу назвали «Yandex». Сотрудничая с Институтом проблем передачи информации. CompTek создала словарь с поиском, который учитывал морфологию русского языка [20] [21]. В 1994 году был создан «Библейский компьютерный справочник» [22] .

В 1995 году было принято решение об использовании поискового приложения для сети Интернет. Сначала оно работало с ограниченным числом ресурсов, а позже со всем русскоязычным сегментом Интернета [21] .

1997 год. Первые шаги

Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года [23] на выставке Softool. Основными отличительными чертами Yandex.ru на тот момент были:

  • Проверка уникальности документов (исключение копий в разных кодировках).
  • Учёт морфологии русского языка (в том числе и поиск по точной словоформе ).
  • Поиск с учётом расстояния (в том числе в пределах абзаца, точное словосочетание).
  • Тщательно разработанный алгоритм оценки релевантности. учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа), расстояние между словами и положение слова в документе.

Через два месяца, в ноябре 1997 года, была реализована возможность задавать запросы на естественном языке. [24]

1998 год

За этот год «объём» русского Интернета удвоился, что привело к необходимости оптимизации поисковых механизмов. Появились возможности:

  • «найти похожий документ»;
  • список найденных серверов ;
  • поиск в заданном диапазоне дат;
  • сортировка результатов поиска по времени последнего изменения. [25]
1999 год

За 1999 год Рунет вырос на порядок, как в объёмах текстов, так и в количестве пользователей. Yandex создал нового поискового робота, который позволил оптимизировать и ускорить обход сайтов Рунета.

У пользователей появились новые возможности:

  • Поиск по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам).
  • Ограничение поиска на группу сайтов, поиск по ссылкам и изображениям.
  • Выделение документов на русском языке.

Появился поиск в категориях каталога и впервые в Рунете было введено понятие «индекс цитирования » — количество ресурсов, ссылающихся на данный. [25]

2000 год

Образована компания «Яндекс». Она была учреждена акционерами CompTek — компании, создавшей и в течение долгого времени развивавшей проект Яndex. Компания ru-Net Holdings инвестировала 5 миллионов 280 тысяч долларов и получила в новой компании долю в 35,72 %. В число акционеров вошли также менеджеры и ведущие разработчики поисковой системы. Генеральным директором стал Аркадий Волож .

2009 год

Яндекс запустил поисковую программу «Снежинск», основанную на новом методе машинного обучения — Матрикснете [26]. Это позволило показывать локальные результаты поиска для пользователей из 1250 российских городов. [27]

В середине сентября 2009 года стало известно, что материнская компания «Яндекса» — голландская компания Yandex N. V. — выпустила приоритетную акцию, которая была передана Сбербанку за символический 1 евро. Единственное право, которое даёт акция, — накладывать вето на продажу более 25% акций компании. [28]

2010 год

Доля Яндекса в поисковых запросах в рунете впервые за четыре года превысила 60 %. [29] 19 мая 2010 года компания запустила англоязычную версию своей поисковой системы на домене yandex.com, и, таким образом, вышла на международный уровень. [30] Был открыл портал для Белоруссии (yandex.by) [31] и поиск на татарском [32]. запущен региональный поиск для Украины [33]. ряд специализированных сервисов — Яндекс.Недвижимость. Яндекс.Работа. Яндекс.Музыка. Яндекс.Услуги. Кроме того, в 2010 году Яндекс приобрел картографическую компанию «ГИС Технологии », которая с 2008 года поставляла данные для одного из ключевых сервисов Яндекса — Яндекс.Карты. В июне 2010 года была запущена программа работы со стартапами [34] .

2011 год

Яндекс начал продавать георекламу — приоритетное размещение в справочнике организаций на Яндекс.Картах и в поиске [35] .

Была запущена программа инвестиций в российские и зарубежные стартапы — Яндекс.Фабрика [36] .

24 мая 2011 года «Яндекс» осуществил первичное размещение акций на американской бирже NASDAQ. В ходе размещения было продано 52,2 млн акций класса «А» по цене 25 долларов за акцию, за счёт чего было выручено около $1,3 млрд (из них примерно треть будет использовано самой компанией, а остальное — пойдёт акционерам, продавшим свои акции) [37] [38] [39]. С учетом того, что у банков-организаторов IPO есть опцион на дополнительный выкуп акций, объём размещения составляет $1,43 млрд, а в свободном обращении окажется 17,6 % акций «Яндекса» [40]. Предварительно бизнес компании был оценён в диапазоне от $6,4 млрд до $7 млрд [41] [42]. по итогам IPO оценка компании составила $8 млрд [38]. После первого дня торгов цена акций «Яндекса» выросла ещё на 42 %, а капитализация компании достигла $11,4 млрд [43] .

20 сентября «Яндекс» вышел на поисковый рынок Турции — запустил соответствующий портал и открыл офис в Стамбуле [44]. Турецким пользователям доступны поиск, почта, новости и другие сервисы «Яндекса». К 31 января 2012 года количество ежедневных пользователей сервисов Yandex в Турции достигло 100 тысяч человек [45] .

26 сентября. В рамках проекта Яндекс.Работа можно теперь узнать среднюю заработную плату по различным вакансиям [46]

30 сентября на проекте Яндекс.Карты стало возможно прокладывать маршруты по территории всей России [47]

19 октября. Сервис Яндекс.Карты теперь доступен на турецком портале. Были добавлены панорамы Стамбула и Анкары. появилась возможность просматривать пробки по стране. [48]

2012 год

25 января Аркадий Волож сообщил, что Яндекс планирует выйти на европейский рынок [49] .

20 февраля Яндекс сообщил о подготовке к запуску сервиса поиска людей. Система предоставляет возможность искать людей одновременно во всех популярных в России блогохостингах и соцсетях. На момент объявления о новой услуге была запущена бета-версия сервиса [50] .

13 марта Яндекс открыл второй офис в Швейцарии [51] .

5 апреля Яндекс запустил облачный сервис для хранения файлов Яндекс.Диск. Максимальный бесплатный объём диска на данный момент — 10 Гб, информация хранится на диске бессрочно [52] .

30 мая Яндекс запустил платное музыкальное приложение для iPhone «Яндекс.Музыка ». Мобильная «Яндекс. Музыка» доступна пользователям из России, Украины, Белоруссии и Казахстана. Скачать приложение можно в App Store [54] .

22 июня Яндекс приобрёл долю в компании «Сейсмотек» и предоставил ей свои технологии и ресурсы для обработки сейсмических данных [55] .

28 августа Яндекс вступил в Консорциум Всемирной паутины. в рамках которого собирается участвовать в разработке стандартов Интернета. Представителем компании в W3C стал Чарльз МаКети Невил (Charles McCathie Nevile). [56]

25 октября Яндекс запустил новый интерфейс Яндекс.Почты под названием Trinity

Собственники и руководство

Компания зарегистрирована в России как ООО «Яндекс», 100 % уставного капитала которого владеет зарегистрированное в Нидерландах акционерное общество Yandex N.V. По словам Аркадия Воложа, решение о создании зарубежной материнской компании было обусловлено нерегулярностями в законодательстве России в части акционерных обществ [58] .

Основные акционеры Yandex N.V. Аркадий Волож (19,77 % голосующих акций), Илья Сегалович (4,15 %), фонды Baring Vostok Private Equity Funds (25,97 %), International Finance Corporation (5,51 %), Roth Advisors Ltd. (5,95 %), Tiger Global Holding Cooperatief (2,67 %), «золотая акция » — у Сбербанка [43]. 16,3 % акций находится в свободном обращении на NASDAQ [59] (биржевой тикер NASDAQ. YNDX ).

Руководство

Аркадий Волож  — со-основатель и генеральный директор Яндекса

Илья Сегалович  — директор по технологиям и разработке

  • Аркадий Волож  — генеральный директор.
  • Илья Сегалович  — директор по технологиям и разработке.
  • Елена Колмановская — главный редактор.
  • Алексей Третьяков — коммерческий директор.
  • Светлана Кондрашова — директор по рекламе.
  • Дмитрий Иванов — директор по проектам.
  • Андрей Себрант — директор по маркетингу сервисов.
  • Екатерина Фадеева — директор по правовым вопросам.
  • Аркадий Борковский — CTO of Yandex Labs.
  • Александр Шульгин — финансовый директор.
  • Максим Киселёв — директор по развитию бизнеса.
Показатели деятельности

Количество сотрудников компании превышает 4000 человек [1] .

Компания вышла на самоокупаемость в 2002 году [60]. В 2011 году выручка «Яндекса» по US GAAP составила $622,2 млн (в 2010 году — $439,7 млн), операционная прибыль — $218,5 млн ($169,7 млн), чистая прибыль — $179,3 млн ($134,3 млн) [41] [61]. Значительную часть выручки компании приносит контекстная реклама [62] .

Бренд Название

Название «Яндекс» можно трактовать как сокращение от «Y et a nother index er» («ещё один индексатор») или как «Языковой iNDEX». [63]

Рекламные кампании Яндекса Найдётся всё!

Первым масштабным лозунгом, запущенным «Яндексом», является фраза «Найдётся всё!». Директор по рекламе «Яндекса» Светлана Кондрашова вспоминает: «Как и всё хорошее в этой жизни, данный слоган придумали сразу несколько человек — сотрудников компании, собравшихся в начале весны 2000 года для обсуждения своего телеролика ». [64] Само выражение быстро стало крылатым.

При этом впервые этот слоган был использован в телерекламе в 2000 году. [65] Когда пользователь вводил запрос, на который выдавался ноль результатов, к слогану добавлялась ещё одна строчка — «Найдётся всё. Со временем» [66]. А в конце 2000 года стартовала рекламная кампания «Все вопросы — к „Яндексу“».

Все вопросы к Яндексу!

В 2006 году Яндекс провёл оффлайновую рекламную кампанию с тем же слоганом, но новой реализацией — объявлениями с окончанием «… справок не даёт. Все вопросы к Яндексу». Остался неизменным и основной слоган — «Найдётся всё». Рекламная кампания 2006 года стала победителем в номинации «Лучший слоган года» по версии журнала «Индустрия рекламы». [67]

В 2008 году Яндекс запустил ещё одну рекламную кампанию. На биллбордах и рекламных тумбах крупных городов были «ответы» на известные вопросы: например, «Любит», «На Фонтанке водку пил» и пр.

Дизайн проекта

С момента своего основания Яндекс сотрудничает со Студией Артемия Лебедева. Специалисты студии разрабатывают дизайны сайтов, полиграфии и деловой графики для компании. Наибольшее количество работ выполнено Ромой Воронежским, однако в работах «на Яндекс» принимали участие почти все ведущие дизайнеры cтудии. У этого правила есть считанное количество исключений: дизайн первой версии проекта «Яндекс. Игрушки» делала компания «Город-Инфо», дизайн проекта «Яндекс.Лето» — «Болоtov.ru», а дизайн «Яндекс. Денег» образца 2009 года — фрилансер Александра Павлова [68] .

Кубок Яндекса

До 2009 года Яндекс регулярно проводил соревнования по поиску в Интернете.

Поиск Яндекса Персонализированные
  • Деньги — платёжная система, позволяющая оплачивать товары и услуги в Интернете.
  • Открытки — сервис для отправки электронных открыток
  • Закладки — система хранения закладок, интегрированная с «Яндекс. Баром».
  • Подписки — подписка на новости.
  • Лента — онлайновый RSS-ридер.
  • Мои находки — история поисковых запросов.
  • Я.Онлайн — мессенджер на основе технологии Jabber .
Другие
  • Вебмастер — сервис для владельцев сайтов. Настройка индексирования, региона, отслеживание позиций в результатах поиска.
  • Кубок — регулярные соревнования по поиску в Интернете. C 2009 года Яндекс их больше не проводит.
  • Игрушки . Закрыт.
  • Весна — автоматическая генерация философских эссе.
  • Интернетометр — измеряет скорость интернет соединения.
  • Mirror — Зеркало основных дистрибутивов ОС Linux. а также FreeBSD и других проектов.
  • Локальная сеть Яндекса — предоставляет возможность пользоваться всеми сервисами Яндекса не по федеральному, а по локальному тарифу.
  • Поиск для сайта — сервис организации поиска по сайту.
  • Яндекс.Нано — площадка, посвящённая различным экспериментальным проектам и проектам, находящимся в стадии разработки. Закрыт.
  • Яндекс.Клавиатура - Экранная клавиатура Яндекса
  • Яндекс.Удача - Страница удачи. Закрыт.
Программные продукты Интересные факты
  • Средняя длина запроса в Yandex.Ru в 2009 году составляла три слова [92]. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю. [25]
  • Яндекс появился до www.yandex.ru. Слово Яндекс придумали в 1993 году. а публично оно было произнесено в 1996 году и означало тогда не компанию и не поисковую машину, а ряд программных продуктов — например, морфологическую приставку к поисковой системе Altavista.com .
  • www.yandex.ru запустили для демонстрации возможностей технологии Яндекс, о заработках на рекламе никто не думал.
  • Слоган «Найдётся всё» придумали в 2000 году. В этом же году Яндекс запустил первую рекламу интернет-сайта на российском телевидении. [93]
  • В Эстонии существует сайт с одноименным названием: там зарегистрирован сайт yandex.ee. В «Яндексе» утверждали, что будут добиваться его закрытия [94]. По состоянию на конец августа 2012 года эта ссылка ссылается на основной Яндекс.
  • Часть сотрудников технической поддержки Яндекса действует под коллективным псевдонимом «Платон Щукин». [95]
  • У Яндекса существуют зеркала на разных доменных зонах: yandex.eu. yandex.ee. yandex.lt. yandex.lv. yandex.md. yandex.uz. yandex.mx. yandex.do. yandex.tm. yandex.de. yandex.ie. yandex.in. yandex.qa. yandex.so. yandex.nu. yandex.tj. yandex.dk. yandex.es. yandex.pt. yandex.pl. yandex.lu. yandex.it. yandex.az. yandex.ro. yandex.rs. yandex.sk и yandex.no .
См. также Примечания Литература
  • Гусев Владимир Сергеевич. Яндекс: эффективный поиск информации в Интернет. Краткое руководство. — М. Диалектика, 2007. — 224 с. — ISBN 978-5-8459-1230-5
  • Абрамзон Михаил. Яндекс для всех. — СПб. БХВ-Петербург, 2007. — 544 с. — ISBN 978-5-9775-0144-6
Ссылки

основная страница яндекса:

  • скачать
  • скачать
  • Другие статьи, обзоры программ, новости

    Индексация страниц и разделов сайта поисковыми роботами Яндекс

    Индексация страниц и разделов сайта поисковыми роботами Яндекс Введение

    Количество ресурсов, проиндексированных поисковыми системами, постоянно растет. Чтобы ресурс мог попасть в базу поисковой системы, поисковику, как минимум, необходимо сообщить о существовании вашего ресурса. Узнать о нем поисковик может двумя способам:
    • если вы зарегистрируетесь в поисковой системе;
    • либо перейдя на ваши страницы по ссылке с ресурсов, уже проиндексированных системой.

    После этого поисковый робот будет время от времени возвращаться на ваши страницы, обновляя информацию о них. Постоянная индексация ресурса – один из важнейших элементов в работе поисковых систем. От того, каким образом и в каких поисковых системах проиндексирован ваш сайт, будет зависеть конечный результат продвижения в той или иной поисковой системе.

    Успешная индексация сайта роботами поисковых систем – это то, чего вы должны обязательно добиться на начальном этапе продвижения. О том, какими способами добиться корректной индексации сайта, какие сложности могут возникнуть при подготовительной работе, а также о том, как устроены поисковые системы, роботы которых будут обрабатывать ваши страницы, пойдет речь в данном мастер-классе.

    Процесс индексации мы будем рассматривать на примере поисковой системы Яндекс. Это вполне логично, поскольку пользователей, владеющих русским языком, используют именно эту поисковую системы для поиска необходимой информации.

    Роботы поисковой системы Яндекс

    Говоря об индексации, прежде всего, следует рассказать о том, кто ее осуществляет непосредственно, то есть о роботах поисковых систем. На вопрос: “а что такое робот поисковой системы и что он делает?”. Яндекс отвечает следующим образом: «Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса».

    Обладая знаниями о них, вы с легкостью сможете подготовить ваш сайт для успешной индексации. Индексация сайта происходит следующим образом: роботы-индексаторы посещают страницы и вносят их содержимое в базу документов, доступных для поиска.

    Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

    Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

    Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

    Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

    1. Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех SEO-специалистов важно отслеживать появление на своих сайтах в первую очередь этого робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.

    2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны в поиске Яндекс. Картинки (http://images.yandex.ru ). Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на лотосы на странице (http://en.npftravel.ru/news/issue_117.html ). Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg.

    3. Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс, скорее всего, покажет только один сайт, в этом собственно и заключается процесс зазеркаливания. То есть сайт-зеркало представляет собой ничто иное, как полную копию сайта.

    4. Yandex/1.03.003 (compatible; Win16; D) – робот, определяющий доступность страницы для индексации при добавлении ее через форму «Добавить URL» .

    5. Yandex/1.03.000 (compatible; Win16; M) – робот, посещающий страницу при ее открытии по ссылке «Найденные слова», ниже сниппета.

    6. YaDirectBot/1.0 (compatible; Win16; I) – робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса.

    7. Yandex/1.02.000 (compatible; Win16; F) – робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

    Процесс индексации документа

    Процесс индексации документа роботами поисковых систем, как правило, начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница http://webmaster.yandex.ru/. Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. В Рамблере, например, требуется указывать еще название сайта, дать краткое описание регистрируемого сайта и контактное лицо.

    Если сайт добавляется впервые, то Яндекс выдаст сообщение:
    «Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска».

    Если сайт уже посещался роботом-индексатором, то появится сообщение:
    «Документ http://example.com/ уже проиндексирован и доступен для поиска.
    Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц)».

    После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является «русскоязычность» ресурса. Поэтому, как пример, может возникнуть такая ситуация:
    «Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст».

    Если же все хорошо, то в логах сайта можно будет обнаружить строку:
    213.180.206.223 -- [18/Jul/2006:10:22:08 +0400] "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
    213.180.206.223 -- [18/Jul/2006:10:22:08 +0400] "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"

    Видно, что сначала робот обратился к файлу robots.txt (его в данном случае просто не существует) чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

    После добавления сайта на странице http://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

    Управление индексацией

    То что Ваш сайт проиндексировался – это еще полдела, гораздо важнее научиться грамотно управлять индексацией. Подумайте, какие бы вы хотели видеть страницы вашего сайта в выдаче поисковых систем: какие из них будут полезны пользователю, а какие из них не несут никакой смысловой нагрузки и используются исключительно как техническая информация, к примеру. Желательно закрыть от индексации административный раздел сайта, директории /images/ (если она названа таким образом), где хранится графическая информация. Владельцам интернет-маагазинов следует закрыть служебные станицы, например, те страницы сайта, через которые осуществляется непосредственная покупка того или иного продукта и т.д. Приняв данные меры, во-первых, вы будете уверены в том, что роботы проиндексируют именно ту информацию, которая на самом деле важна, во-вторых, облегчите роботу роботам, которые не будут посещать все страницы сайта.

    1. Управление индексацией при помощи файла robots.txt
    Файл robots.txt является самым популярным инструмент, посредством которого вы сможете эффективно управлять индексацией вашего сайта. Крайне прост в эксплуатации, не требует специальных навыков. По большому счету, нужен только для того, чтобы запрещать индексацию страниц или разделов сайта для той или иной поисковой системы.

    2.Основная информация по файлу robots.txt
    Файл /robots.txt предназначен для указания всем поисковым роботам, как индексировать информационные сервера.
    Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов.

    К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию информации роботом поисковой системы или вообще к недееспособности данного файла.
    Основные требования:
    • все буквы в названии файла должны быть прописными, т. е. должны иметь нижний регистр: robots.txt – правильно, Robots.txt или ROBOTS.TXT – не правильно;
    • файл robots.txt должен создаваться в текстовом формате. При копировании данного файла на сайт, ftp-клиент должен быть настроен на текстовый режим обмена файлами;
    • файл robots.txt должен быть размещен в корневом каталоге сайта.

    2.1. Содержимое файла robots.txt
    Файл robots.txt обязательно включает в себя две директивы: «User-agent» и «Disallow». Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система Яндекс использует директиву «Host» для определения основного зеркала сайта.
    Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.
    Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.
    Директива «User-agent»
    Запись «User-agent» должна содержать название поискового робота. Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»:
    User-agent: *
    Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Яндекс:
    User-agent: Yandex
    Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать эти названия:
    1. На сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру» (на Яндексе он тоже есть http://webmaster.yandex.ru/faq.xml ), в котором часто указываются названия поисковых роботов.
    2. При просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.
    Названия основных роботов популярных поисковых систем:
    Google – «googlebot»;
    Яндекса – «Yandex»;
    Рамблера – «StackRambler»;
    Yahoo! – «Yahoo! Slurp»;
    MSN – «msnbot».
    Директива «Disallow»
    Директива «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено.
    Рассмотрим различные примеры записи «Disallow».
    Пример1.Сайт полностью открыт для индексирования:
    Disallow: /
    Пример 2. Для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»:
    Disallow: /page.htm
    Disallow: /dir/page2.htm
    Пример 3. Для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё содержимое данной директории:
    Disallow: /cgi-bin/
    Disallow: /forum/
    Возможно закрытие от индексации ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты.
    Пример 4. Для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д:
    Disallow: /dir
    Некоторые поисковые системы разрешают использование регулярных выражений в записи «Disallow». Так, например, поисковая система Google поддерживает в записи «Disallow» символы «*» (означает любую последовательность символов) и «$» (окончание строки). Это позволяет запретить индексирование определенного типа файлов.
    Пример 5. Запрет индексации файлов с расширением «htm»:
    Disallow: *.htm$
    Директива «Host»
    Директива «Host» необходима для определения основного зеркала сайта, то есть, если сайт имеет зеркало, то с помощью директивы «Host» можно выбрать url того сайта, под которым проиндексируется ваш сайт. В противном случае поисковая система выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.
    В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять ее непосредственно после записей Disallow.
    Пример 6. www.site.ru – основное зеркало:
    Host: www.site.ru
    Оформление комментариев в файле robots.txt
    Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.
    Пример 7. Комментарий находится на одной строке вместе с директивой:
    Disallow: /cgi-bin/ #комментарий
    Желательно размещать комментарий на отдельной строке.

    2.2 Управление индексацией с помощью мета-тегов
    С помощью мета-тегов тоже можно управлять индексацией страниц сайта. Мета-теги должны находиться в заголовке HTML-документа (между тегами и ).

    Наиболее полезные МЕТА-теги, которые помогут поисковикам правильно индексировать страницы вашего сайта:
    1. или – управление индексацией страниц для поисковых роботов. В данном случае, указывает поисковому роботу, чтобы он не индексировал все страницы.
    2. – необходим для поисковых систем, чтобы определить релевантна ли страница данному запросу.
    3. – повышает вероятность нахождения страницы поисковиком по выбранному запросу (ам).
    4. – управление индексацией страницы для поисковых роботов. Определяет частоту индексации. В данном случае указывается, что ваш документ является динамичным и роботу следует индексировать его регулярно.
    Есть теги, которые непосредственно к индексации не относятся, но выполняют также важную роль дл удобства работы пользователя с сайтом:
    1. – контроль кэширования для HTTP/1.0. Не позволяет кэшировать страницы.
    2. – определение задержки в секундах, после которой браузер автоматически обновляет документ или происходит редирект.
    3. – указывает, когда информация на документе устареет, и браузер должен будет взять новую копию, а не грузить из кэша.
    Есть еще один мета-тег revisit-after, по поводу использования, которого ходило раньше много слухов, что он может заставить роботы поисковых систем посещать сайт с определенной периодичностью, однако специалисты Яндекс официально опровергли это.
    Нет гарантии, что поисковые системы учитывают содержимое мета-тегов, индексируя сайт. Тем более нет гарантии, что эта информация будет учитываться при ранжировании сайта в выдаче. Но мета-теги полезны тем, что при индексации страниц позволяют поисковикам получить необходимую информацию о ресурсе.
    Для того, чтобы прописать их не нужно много времени, поэтому старайтесь ввести максимально полную мета-информацию о странице.

    Проблемы при индексации страниц

    Работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче поисковых систем. Далее будет рассмотрен список проблем, с которыми Вы можете столкнуться при индексации.

    3.1 Динамические страницы, идентификаторы сессий.
    Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы. Тоже самое происходит и с динамическими страницами.
    Описание. На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3. Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати».
    Схожая проблема возникает при использовании, по умолчанию, ссылок на директорию и на файл в директории, например /root/ и /root/index.htm. Для пользователей она решается использованием директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.
    Один из видов динамических страниц – страницы с идентификаторами сессий. На сайтах, где принято использовать идентификаторы сессий, каждый посетитель при заходе на ресурс получает уникальный параметр &session_id=. Это парамет добавляется к адресу каждой посещаемой страницы сайта. Использование идентификатора сессии обеспечивает более удобный сбор статистики о поведении посетителей сайта. Механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в куки или добавляется как параметр в адрес страницы.
    Однако, так как роботы поисковых систем не принимают куки, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.
    Известно, что поисковые системы имеют алгоритмы «склейки» страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена. В некоторых случаях она может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.
    Решение.
    Что касается динамических страниц, то нужно закрывать страницы «версия для печати» и другие дубликаты в файле robots.txt, либо с помощью атрибута мета-тега noindex. Другое решение - заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.
    Что касается идентификаторов сессий, то решение данной проблемы простое - прописать с .htaccess следующие команды:
    php_flag session.use_trans_sid Off
    php_flag session.use_only_cookie On
    php_flag session.auto_start On

    3.2 Неверная обработка 404 статуса
    Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.
    Описание. Обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.
    Решение. Выход из данной проблемы таков: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

    3.3 Плагиат
    Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.
    Описание. Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.
    Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, хостеру сайта-плагиатора, предварительно предупредив, конечно, виновного в том, что он поступает незаконно.

    3.4 Другие проблемы
    Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:
    1. Текст заключен в тег. Это специальный тег, запрещающий индексацию текста роботу Яндекса.
    2. Текст расположен в скрипте, т.е между тегами
    3. Текст расположен в комментариях
    4. Очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб)
    5. Ресурс не содержит русский текст (опять же, это касательно Яндекса)

    Заключение

    Каждому, кто ведет в Интернете серьезный проект, необходимо понимать, как роботы поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

    Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

    Знание основ индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

    25 сентября 2007 в 13:03