Поисковые системы




Скачать 67.07 Kb.
НазваниеПоисковые системы
Дата19.02.2013
Размер67.07 Kb.
ТипКурсовая работа
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ


Московский Государственный институт электроники и математики

(Технический университет)

Кафедра информационно - коммуникационных технологий


КУРСОВАЯ РАБОТА НА ТЕМУ:

«Поисковые системы»

ПО ДИСЦИПЛИНЕ "ОРГАНИЗАЦИЯ ЭВМ "


ВЫПОЛНИЛИ:

СТУДЕНТЫ ГРУППЫ С-34

Курдюков Алексей Алексеевич

Логинов Константин Вячеславович


ПРЕПОДАВАТЕЛЬ: доцент

Мартиросян Сашик Торгомович


Москва, 2010г.

Введение


Интернет – это мировая информационная свалка. Помимо хранения информации, её необходимо структурировать, организовать быстрый поиск искомой информации. Для этого были созданы специальные поисковые роботы. * Сюда надо ещё что-то приписать!*


Постановка Задачи:


Целью нашей работы является выработка методики составления поисковых запросов изучение и овладение приёмами поиска информации в интернете. Наша курсовая делится на три части :


  1. Произвести анализ существующих поисковых систем(наиболее популярных)

  2. Произвести теоретическое сравнение ПС

  3. Практически показать достоинства и недостатки ПС



Анализ существующих поисковых систем


Общяя часть


Что такое ПС и как она работает? Эти два вопроса мы рассмотрим в данной главе.


ПС - Поисковая система .Сайт который предоставляет возможность поиска информации в интернете. Пользователь вводит запрос и после обработки запроса ,«Сайт» выдаёт список искомого по релевантности( на сколько ссылка «адекватна» запросу)

Конечно же не сайт ищет ,а специальный поисковый робот. Рассмотрим более подробно как происходить поиск.

Каждый поисковик(будь то яндекс ,рамблер,гугл) имеет базу обратных (инвертированных) индексов. Поисковые системы преобразовывают документы в текстовые файлы, содержащие список всех имеющихся в документе слов. Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым словом указаны в виде координат те места в документе, где это слово встречается. Кроме позиции в документе, для каждого слова приводятся еще и другие параметры, определяющие его значение в документе.

Помимо базы ,каждый поисковик имеет робота-паука(spider) который сканирует все сайты(не только тот список который дала ПС но и переходя по ссылкам),тем самым индексирует их(или производит переиндексацию, если вы изменили что-либо на своей страницы после того как произошла первоначальная индексация) и

копирует содержимое этих страниц, дабы отдать это содержимое на дальнейшую переработку ПС для преобразования этих документов в обратные индексы.

Итак как же происходит поиск. После ввода запроса ПС начинает, искать в своей базе обратных индексов страницы сортируя найденные документы в порядке убывания релевантности поискового запроса.

Поисковая система должна не только предоставить список всех документов (веб-страниц), на которых встречаются слова из поискового запроса. Она должна предоставить этот список документов в такой форме, когда в самом начале этого списка будут находиться наиболее соответствующие запросу пользователя документы (осуществить сортировку найденных страниц по релевантности (И тут у каждой ПС разные способы реализации этого ,но об этом чуть позже.)) Эта задача не тривиальна и по умолчанию не может быть выполнена идеально. Именно поэтому есть такие специально обученные люди - ассесоры, которые просматривают выдачу поисковых систем (конкретно той поисковой системы, которая их наняла) по различным запросам и оценивают качество работы математической модели поисковой системы. (математическая модель- это «формула» для поиска и ранжирования документов).


Google


Google имеет свой российский аналог, менее популярный чем исходный американский, но ничем ему не уступающий по качеству поиска. У Google в России есть многочисленные поклонники, считающие, что этот посковик выдает наилучший результат. Тут следует отметить, что всё зависит от того, что вы ищите. Так как алгоритм поисковых машин не одинаков, то и результат будет разный.


PageRank, используемый в Google, в основном основан на link popularity(индекс цитирования). При вычислении релевантности страницы наибольший вклад имеет количество и качество ссылок на страницы с других страниц.


PageRank - это название алгоритма, запатентованного компанией Google, и представляющего собой способ учета внешних ссылок на сайт. Для каждой страницы PageRank рассчитывается отдельно, он служит для определения «важности» веб-страницы. То есть, чем больше на других сайтах ссылок на конкретную страницу, тем выше ее величина PageRank, и, соответственно, «весомее» эта страница.


PageRank веб-страницы – это числовая величина, характеризующая вероятность нахождения посетителя на данной странице, причем суммарная вероятность по всем страницам в сети равна единице, поскольку на какой-нибудь странице обязательно находится посетитель. В более удобном виде PageRank отображается в надстройке браузера Google Toolbar, где каждой странице соответствует показатель в виде целого числа от 0 до 10. На самом деле это число - не точное значение, а диапазон PageRank, в который попадает страница. Высчитывается оно по логарифмической шкале.


На данный момент база данных Google насчитывает более миллиарда проиндексированных страниц.


Google – одна из немногих поисковых систем, которая глубоко индексирует ваш сайт. Google использует link populariry как наиболее весомый фактор в определении релевантности страницы. Поэтому большим и популярным сайтам проще попасть на высокие позиции в результатах поиска. Это также защищает Google от спама.


Google полагает, что следующие факторы будут наиболее весомыми при ранжировании страниц:

Link popularity (индекс цитирования);

Keyword proximity and density (плотность и частота ключевых слов);

Keywords in the link text (ключевые слова в ссылках);

Emphasized text (выделенный текст).


Yandex


Отличительная особенность Yandex – интуитивный поиск во всех словоформах. Уникальная разработка под особенности русского языка.


В каталоге Яндекса используется такое понятия, тематический индекс цитирования (тИЦ). Он рассчитывается для сайта в целом и показывает авторитетность ресурса относительно других, тематически близких ресурсов (а не всех сайтов Интернета в целом). И взвешенный индекс цитирования (вИЦ) – аналог PageRank, применяемый поисковой системой Яндекс. Значения ВИЦ нигде не публикуются и известны только Яндексу. Поскольку узнать ВИЦ нельзя, следует просто помнить, что у Яндекса есть собственный алгоритм оценки «важности» страниц. ВИЦ Яндекса непосредственно влияет результаты поиска в Яндексе, т.е. на места по которым распределяются сайты.


При подсчете индекса цитирования не берутся во внимание ссылки с форумов, веб-досок, конференций, сайтов, расположенных на бесплатных хостингах (если они не описаны в каталоге Яндекса). Естественно, не учитываются ссылки с тех сайтов, которые Яндекс не индексирует (например, зарубежные сайты).


Количество хостов зависит от посетителей (чем их больше, тем больше хостов), а индекс цитирования Яндекса – от авторов сайтов (чем больше авторов поставят ссылку на ваш ресурс, тем выше значение CY).


По значению индекса цитирования определяется релевантность ресурса в каталоге Яндекса и, соответственно, позиция вашего сайта в выбранном разделе.


Переиндексация документа происходит примерно раз в две недели, но под каждый сайт робот подстраивается в отдельности. Все зависит от частоты обновления. По словам Яндекса, тег никакой роли в работе робота не играет.


Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные сервера вносятся, только если на них найден текст на русском языке.


Информация в заголовке (тег ) Яндекс отображает в результатах поиска. Слова, находящиеся в теге <title>, имеют больший вес чем все остальные. Ключевые слова в теге <meta> также увеличивают вес слова в документе, но только если само слово находится на странице.<br /><br /><br />Помимо вышеперечисленных способов, на релевантность слова влияют частота его использования в заголовках (<h2>, <h2> ...), в атрибуте alt, во всплывающих подсказках (тег <acronym>) и процент встречаемости этого слова в документе, т.е. как часто вы его используете. Но при этом необходимо сохранить смысл документа, иначе Яндекс может посчитать это слово спамом. <br /><br /><br />Rambler<br /><br /><br />Является лучшим рубрикатором на сегодняшний день. Удобен тем, что все ресурсы разбиты на разделы, подразделы и т.д. Многие из них участвуют в рейтинге Top100, что позволяет определить популярность того или иного ресурса. <br /><br /><br />Считается, что основополагающим фактором для продвижения сайта в Rambler является хороший контент и посещаемость, измеряемая с помощью установленного на сайте счетчика. Таким образом, высокие позиции в рейтинге может занимать сайт хорошо раскрученный, качественно и давно зарекомендовавший себя в интернете, с большой посещаемостью.<br /><br /><br />Рамблер как и Яндекс русскоязычный и сканирует сайты, находящиеся в следующих доменах первого уровня:<br /><br /><br />• .ru, .su, .ua, .by, .kz, .kg, .uz, .ge<br /><br /><br />Роботы рамблера при сканировании игнорируют поля <meta name="keywords"...> и все другие поля <meta...>, кроме <meta name="robots"...>. Это связано с тем, что поисковая система рамблер старается индексировать документ таким, какой он есть (то есть таким, каким его видит пользователь).<br /><br /><br />Достаточно удачная архитектура продукта позволяет "Рамблер" иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса".</meta></meta></acronym></h2></h2></meta>

Похожие:

Поисковые системы iconВ. П. Захаров Информационно-поисковые системы
З-38 Информационно-поисковые системы: Учебно-метод пособие. — Спб., 2005. — 48 с
Поисковые системы iconРабочая программа Наименование
Информационно-поисковые системы правового назначения в профессиональной деятельности
Поисковые системы iconПоисковые системы и каталоги
Поисковая система для студентов Referat Search (одновременный поиск по 100 коллекциям рефератов)
Поисковые системы iconЛабораторная работа №2 по дисциплине: «Информационно-поисковые системы»
Перешла на сайт поисковой системы Апорт (Яндекс, Рамблер. Нашла в каждой системе ссылки на ее описание в целом, на описание языка...
Поисковые системы iconЛабораторная работа №2 по дисциплине: «Информационно-поисковые системы»
Перешла на сайт поисковой системы Апорт (затем Яндекс и Рамблер). Нашла в каждой системе ссылки на ее описание в целом, на описание...
Поисковые системы iconРеферат Данная дипломная работа посвящена разработке и реализации электронного учебного пособия на основе Web-технологий на примере дисциплины «Документальные информационно-поисковые системы»
Данная дипломная работа посвящена разработке и реализации электронного учебного пособия на основе Web-технологий (на примере дисциплины...
Поисковые системы iconЛандэ Дмитрий Владимирович, Дармохвал
Извлечение сущностей [1] является важным этапом автоматизированной обработки текстов в таких приложениях, как информационно-поисковые...
Поисковые системы iconИнформационные правовые системы
Информационное общество: основные черты. Государство и право в информационном обществе. Информация в правовой системе. Информация...
Поисковые системы iconТемы вашего учебного проекта
Скорость передачи данных. Информационные услуги компьютерных сетей: электронная почта, телеконференции, файловые архивы и пр. Интернет....
Поисковые системы iconИнформационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства
С точки зрения различных областей знания, данное понятие описывается своим специфическим набором признаков. Информация совокупность...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib.znate.ru 2014
обратиться к администрации
Библиотека
Главная страница