Как устроен индекс поисковой системы?

девушка работает за компьютером
0Автор sidyara дата Март 28, 2012

Для того, чтобы составить индекс, индексная система поискового робота должна собрать все слова из «выкачанных» ею текстов и расположить их в определенной последовательности.
Также индексация подразумевает создание номеров страниц и разного рода служебных данных о каждой странице.

Для этого индексный робот изучает все выбранные им страницы, нумерует их и удаляет из текста страниц ненужный, нетекстовый спам (к примеру, разметку HTML). После этого из текста документа им извлекаются конкретные слова и помещаются в индексную базу данных. При этом к каждому слово добавляется описание страницы, с которых оно было взято. У каждой поисковой системы есть свое «понимание» того, что такое нужный ему текст и какие именно слова он возьмет себе в индексную базу. Эти определения зависят от алгоритмов работы поисковой системы, а они достоверно известны лишь их создателям. В большинстве поисковых систем, слова перед занесением в индекс, проходят определенную лингвистическую обработку, в результате чего слова приобретают свои изначальные грамматические формы и основы или же приобретают именительный падеж. Данный алгоритм действия системы именуют поисково-индексной морфологией. Эта функция поискового робота нужна для экономии места в индексе, но что важнее всего для осуществления более точного и быстрого поиска информации.

Собранные все вместе основы слов из миллионов веб-документов сводятся в индекс – своего рода словарь, в котором все слова расположены в алфавитном порядке с номерами страниц (с которых были взяты эти слова) и номерами их вхождения в эти страницы. Таким образом, индексная запись имеет следующею структуру: основа (слово), номер страницы и номер вхождения. Для дальнейшей экономии места и повышения точности и скорости поиска структура индекс постоянно меняется и усложняется. Основы слов хранят отдельно от их номеров, использую только номера, так как они короче и требуют меньшего времени на их обработку; номера вводятся системой только один раз для всех вхождений с конкретной страницы.

Популярные сообщения из этого блога

Быстрый и выгодный обмен валюты с гарантией

Коэффициент натяжения арматуры