Рад претраживача

Многи почетни вебмастери и само љубитељи Интернет сурфања баве се питањем: како функционишу претраживачи? Основни принципи претраживача данас ће разматрати државу савета.

Савремени претраживач је читав комплекс који се састоји од најкомпликованијих програма и алгоритама који раде са запањујућом брзином. Замисли, нови алгоритам тражења Кофеин из Гоогле-а може да обради информације еквивалентне 3 км А4 листова за само 1 секунду!

У свим претраживачима, софтверске компоненте могу бити подељене у пет главних група:

"Паукови"

"Путујући паукови"

индексери

базе података

системе резултата

Паукови - паукови (паукови) - алгоритам њиховог рада подсећају на прегледаче, али немају никакве визуелне компоненте. Паук учитава хтмл-код странице користећи ХТТП протоколе.

Захтев робота на сервер садржи команду"Гет / патх / доцумент" и неке друге наредбе за хттп захтјеве. На овај захтев, паук добија одговор од сервера као текстуални ток који садржи информације о услугама о документу и самом документу. Паук је део модула индексирања за претраживаче.

"Путујући паук" - цравлер - је још једна компонентамодул индексирања. Цравлер се аутоматски креће кроз све хиперлинкове које је пронашао паук на страници и потражи документе који још нису познати претраживачу.

Робот-Индекер (индексер) ради директно са садржајем страница које су учитали роботи паука. Индексер води морфолошку, лексичку анализу страница, разбијајући их на одвојене делове.

Базе података (база података) су посебан софтвер дизајниран за чување индексираних докумената прикупљених и индексираних по компонентама.

Мотор претраживача - систем издавања резултата је један од најважнијихкомпоненте претраживача. Са излазним системом се бави крајњи корисник, који уноси упит у низ за претрагу. Систем резултата резултата на основу више од двије стотине различитих критеријума врши избор резултата који највише задовољавају циљеве претраживања.

Алгоритам таквог избора обично се назива алгоритам или рангирани механизам. Како би се избјегла превара од стране вебмастера како би се утицало на резултате издавања, претраживачи са тачним рангирним алгоритмима чувају се у најстрожијој тајности.

Упркос томе, постоји велики број познатих критеријума који се узимају у обзир у раду претраживача, оптимизујући што вебмастер може "законито" утјецати на резултате претраге. На пример, Искључивач претраживача приликом анализе странице узима у обзир:

да ли постоји кључна реч у наслову странице (наслов)

Да ли се кључна реч појављује у УРЛ-у странице?

да ли постоји кључна реч у заглављу Х1-Х6, ознаке СТРОНГ, Б, ЕМ, И

која је густина кључних речи на страници (Густина)

Да ли кључна реч постоји у мета ознакама: кључне речи, опис

Да ли постоје интерне и екстерне везе на страници?

Корисник интерактивно са претраживачем преко сервера за претрагу. Примио упит за претрагу од корисникаСервер процесира и пролази ранг модул као улаз у параметар. Заузврат, модул обавља процесирање докумената, информације о којима се чува у бази података претраживача, и врши оцењивање страница које одговара захтеву корисника.

Затим, систем генерише фрагментне текстуалне информације које се приказују кориснику у облику СЕРП (страница са резултатима претраживача) - странице са резултатима претраживања.

Дакле, чак и кратак опис главногПринципи претраживача показује колико су блиско повезани једни са другима све софтверских компоненти система и колико добро и Отклањање грешака мора радити претраживача како би се брзо и поуздано обезбеди корисника са информацијама о својој потрази.