Малыш раз уж мы с тобой немного поговорили об Интернете, я хочу немного углубить эту тему. В том тексте, который ты сейчас увидишь на экране монитора отцовского компьютера, я хочу рассказать тебе о поисковых системах Интернета. Основные поисковики (их ещё иногда называют поисковыми машинами, поисковыми системами, ПС) индексируют данные(Индексирование, совершаемое поисковой машиной — процесс собирания, разбора и сохранения данных с целью облегчить быстрый и точный поиск информации),содержащиеся на интернет-страничках.
Индексацию в поисковых машинах делает поисковый робот. Он 24 часа в сутки сканирует Интернет исследуя появившиеся в Интернете ссылки, а также исследует изменения в документах, которые он нашёл раньше.
Поисковик - огромный комплекс вычислительных машин и специальных программ на них установленных. Некоторые занимаются скачиванием (скачивание — термин, применяющиеся в отношении данных, передаваемых между двумя ЭВМ интернет-страниц) другие эти страницы индексируют (ты уже знаешь значение этого слова), третьи группируют присвоенные интернет-страницам индексы в единую базу данных, осуществляют нормализацию (приведение слов к единой форме)…
Во время подачи человеком запроса посковику, из его базы данных отбираются проиндексированные ранее интерне странички, содержащие слова, которые были введены интернет-пользователем в строке запроса. Потом отобранные интернет странички ранжируются по алгоритму таким образом, чтобы выдавлись первыми те страницы которые содержат самый точный ответ на заданный запрос. Это называется релевантностью.
Проще говоря-релевантность, это соотношение между запрашиваемой пользователем Интернет и реально получаемой им информацией. Это то слово значит, насколько выданный поисковиком документ представляет собой то, что именно желает получить из ПС (поисковой системы) пользователь. Не взирая на то, что все ПС выполнены на общин для них всех принципах (чем более часто задаваемые для поиска слова будут встречаться на Интернет страничке, тем выше он находится в результатах поиска), хотя и делают это поисковые машины каждая по - своему.
Каждый поисковик использует оригинальный способ нахождения релевантных страниц. Он не похож на алгоритмы других поисковых машин (к примеру, для подавляющего числа поисковых систем высокорелевантным текстом считается такой, в котором содержится приблизительно 4-7% слов, которые вводит пользователь в строку пользования поисковика . Если будет больше, то поисковая система может посчитать текст за поисковый спам (поисковый спам— это сайты и страницы в Интернета, созданные с целью манипуляций результатами поиска в поисковых машинах) и наложить на эту страницу фильтр понижающий её в поисковой выдаче или вообще не выводить её в результатах поиска по искомому запросу).
Кроме того, многие поисковиковые машины берут во внимание взаимное расположение слов на страничке-если на найденной странице слова расположены в том же порядке, как и в запросе на поиск, интернет-страница будет иметь более высокое место в результатах поиска. Поисковики могут учитывать расстояние между словами – содержащимися в поисковом запросе. Если слова составляют одно предложение, интернет-страничка будет выше в результатах поиска.
Кроме того, повышение интернет-странички в результатах поиска, может производится поисковой системой, если на данную интернет-страницу(сайт)есть ссыли с других сайтов. Причём их больше, чем на другую похожую интернет страницу. Значимость и соответственно, более высокое место в результатах поиска должны добавлять ссылки со страниц с высоким тИЦ и PageRank.
Здесь я отмечу,что тИЦ - тематический индекс цитирования, является показателем, введенным поисковой системой Яндекс и характеризует количество ссылок, на какую - либо Интернет – страницу со страниц, содержание информации на эту же тему.
PR (PageRank) – показатель используемый поисковиком GOOGLE для похожих целей. Рассчитывается по несколько другому алгоритму.
Напоследок замечу, что алгоритмы расчёта как тИЦ, так и PageRank хранятся всеми поисковиками в тайне.