Евгений Леонидович Ющук Интернет-разведка. Руководство к действию




НазваниеЕвгений Леонидович Ющук Интернет-разведка. Руководство к действию
страница6/41
Дата31.08.2012
Размер3.06 Mb.
ТипРуководство
1   2   3   4   5   6   7   8   9   ...   41

Невидимый Интернет



Феномен невидимого Интернета и принципы работы с ним детально описаны в лучшей, на наш взгляд, книге по этому вопросу Криса Шермана и Гэри Прайса «Невидимый Интернет».

Видимый Интернет – это та часть ресурсов, содержимое которой может быть обнаружено с помощью поисковых машин. К Невидимому Интернету относятся ресурсы, которые существуют в Глобальной Сети, и к которым можно получить доступ, если знать, где эти ресурсы находятся. Однако с помощью поисковых машин найти содержимое ресурсов Невидимого Интернета нельзя.

По мнению разных авторов, к видимому Интернету относится порядка 20–30 % содержимого Сети. Самые смелые источники указывают другую цифру – не более 50 %. Таким образом, можно утверждать, что невидимый Интернет – это основная часть ресурсов, доступных онлайн.

Причины существования невидимого Интернета



Невидимый Интернет существует в силу целого ряда причин, как технического, так и организационного характера.

Некоторые ресурсы могут быть индексированы поисковыми машинами с технической точки зрения, главное – обнаружить содержимое страницы. Некоторые виды контента не индексируются информационными системами потому, что «пауки» сознательно настроены так, чтобы игнорировать те или иные адреса.

К каким-то ресурсам доступ ограничили сами владельцы страниц.

А некоторые страницы имеют такой формат, который пока еще не поддерживается поисковыми машинами.

Вот что говорят о невидимом Интернете и причинах его существования Крис Шерман и Гэри Прайс.


Парадокс невидимого Интернета в том, что легко понять, почему он существует, но трудно точно его определить в конкретных, специфических терминах.

Невидимый Интернет трудно точно определить и классифицировать по нескольким причинам.

1. Большинство страниц невидимого Интернета могут быть проиндексированы технически, но не индексируются, потому что поисковые системы решили их не индексировать. Это очень важный момент для невидимого Интернета – что поисковики просто решили исключить из индексации страницы определенного содержания. Мы не говорим о страницах со «взрослым» содержанием или спамерских сайтах, вовсе наоборот. Большинство «невидимых» сайтов имеют высококачественный контент. Просто эти ресурсы не могут быть найдены с помощью поисковых машин общего назначения, т. к. они были заблокированы.

Есть много причин, почему так происходит. Если поисковик изменит свою политику по отношению к страницам подобного рода, то эти страницы станут частью видимого Интернета.

2. Довольно легко классифицировать сайты как часть видимого или невидимого Интернета, если посмотреть на то, каким образом они работают. Некоторые сайты используют технологию баз данных, что действительно сложно сделать поисковой машине. Это действительно невидимый Интернет. Другие сайты, однако, используют сочетание файлов, которые содержат текст и которые содержат мультимедиа, а поэтому часть из них может быть проиндексирована, а часть – нет. Такие сайты нельзя отнести четко к видимой или к невидимой части Интернета.

Некоторые сайты могут быть проиндексированы поисковыми машинами, но это не делается потому, что поисковые машины считают это непрактичным – например, по причине стоимости или потому, что данные настолько короткоживущие, что индексировать их просто бессмысленно – например, прогноз погоды, точное время прибытия конкретного самолета, совершившего посадку в аэропорту и т. п.


Мы рассмотрим каждую из основных причин существования невидимого Интернета более подробно.

Ограничения возможностей поисковых машин



1. Физические ограничения скорости. Информационные системы имеют физические ограничения по скорости поиска новых страниц. Скажем так, скорость, с которой сегодня паук пытается найти новые страницы, оказывается ниже, чем скорость появления новых страниц. Ежесекундно идет негласное соревнование:

в Интернете появляются новые страницы, а поисковые машины наращивают свою мощь. Кроме добавления новых страниц, в Интернете происходят еще и исчезновение старых, а также внесение изменений в содержимое существующих, что также оттягивает на себя часть ресурсов поисковых машин. В этой постоянной гонке Интернет выигрывает у поисковых машин с большим перевесом.

2. Поиск информации – мероприятие довольно дорогостоящее. Содержание сер веров, обеспечение подключений пользователей, рассылка пауков по Интернету, индексация, исключение сдвоенной информации – все это требует немалых затрат.

Понимая, что проиндексировать все документы в Сети не реально, а расходы надо приводить в соответствие с доходами, владельцы поисковых машин вводят собственные ограничения в работе своих систем. Например, лимитируют глубину проникновения паука на сайте, общее количество страниц в индексе, пропускают старые ресурсы, на которые никто никогда не ходит, либо регламентируют частоту их повторных посещений пауком, в результате чего часть страниц устаревает.

В любом случае, когда принимается решение о вводе ограничений на работу поисковой машины, это автоматически означает, что существуют страницы, которые могли бы быть проиндексированы, чего, однако, сделано не было.

Такое положение вещей имеет необычный побочный эффект: большие сайты могут порой проигрывать небольшим по полноте охвата информационными системами.

3. Принцип попадания страниц в индекс при помощи пауков.

Паук попадает только на те страницы, на которые есть ссылки с других страниц, либо по которым делались запросы в поисковые системы с целью уточнения рейтинга страницы в поисковой системе, либо которые внесены в очередь на индексирование вручную – путем заполнения формы «Добавить страницу» («Add URL»). Соответственно, если на страницу никто не ссылался, и никто о ней не сообщал поисковой системе вручную, то такая страница не будет проиндексирована.

Кроме того, если даже паук регулярно посещает страницу, то он делает это с определенной периодичностью. Если в промежутке между двумя посещениями ресурс изменится, то это изменение некоторое время будет неизвестно поисковой системе и ее пользователям.

Таким образом, существуют две задержки по времени в индексировании страниц: когда сайт создан, но еще неизвестен поисковику, и когда паук проиндексировал страницу, но не посетил ее повторно.

4. Необычные слова на странице, интересующей пользователя.

Страница, которая нужна пользователю, может содержать слова, отличные от тех, которые он, вероятнее всего, введет в поисковую строку. В результате, человек, не обладающий большим опытом поиска информации в Интернете, не сможет найти нужную страницу с помощью поисковой машины.

5. Предпочтение поисковой машиной быстроты поиска, а не его глубины.

Выбор между «максимально быстро» и «максимально полно» существует в любой отрасли, связанной с получением и обработкой информации. Поисковые системы обычно сориентированы их владельцами на наиболее быстрое получение результатов, пусть даже в ущерб полноте. Поэтому некоторые страницы, индексирование которых трудоемко, остаются за пределами базы данных, попадающей на сервер поисковой машины.

Хотя бывают исключения из этого правила. Существуют специализированные поисковики, которые добывают информацию, копая вглубь и напрочь отметая критерий скорости ее нахождения. Но они при этом «ходят» лишь на тематические сайты. Примером такой специализированной системы может служить, по информации Гэри Прайса Law Crawler ( http://lawcrawler.lp.findlaw.com/ ) или Politicalinformation.com ( http://www.politicalinformation.com ).

6. Ориентация поисковых машин на поиск текстов в разных вариантах.

Поисковые машины изначально сориентированы на поиск текстов. На раннем этапе развития Интернета – представленных в формате HTML, после чего стали добавляться и другие их разновидности – Word (.doc), Adobe Acrobat (.pdf), Flash. Однако и эти форматы все равно содержат тексты. Индексировать изображения или, например, звуковые файлы (не названия звуковых файлов, а именно сам звук), поисковые машины пока не научились.

1   2   3   4   5   6   7   8   9   ...   41

Похожие:

Евгений Леонидович Ющук Интернет-разведка. Руководство к действию icon1. Что такое управление знаниями (УЗ) 3 Букович У., Уильямс Р. Управление знаниями: руководство к действию сс. 1 4 3
Букович У., Уильямс Р. Управление знаниями: руководство к действию – сс. 5 – 12 38
Евгений Леонидович Ющук Интернет-разведка. Руководство к действию iconРуководство к действию оно же
Уважаемые сотрудники турагентств! Распечатайте, пожалуйста, нижеследующую информацию для ваших туристов и обязательно ознакомьте...
Евгений Леонидович Ющук Интернет-разведка. Руководство к действию iconЕвгений Иванович Фокин Хроника рядового разведчика. Фронтовая разведка в годы Великой Отечественной войны. 1943-1945 гг
...
Евгений Леонидович Ющук Интернет-разведка. Руководство к действию iconРуководство пользователя Государственная публичная научно-техническая библиотека России
Интернет-серверов и Интернет-комплексов. Система полностью отвечает международным требованиям, предъявляемым к таким системам, и...
Евгений Леонидович Ющук Интернет-разведка. Руководство к действию iconЕвгений Чебалин Гарем ефрейтора
Две армии, две разведки – германская и советская – напрягают силы в противоборстве. Задача первой – создать «пятую колонну» на Северном...
Евгений Леонидович Ющук Интернет-разведка. Руководство к действию iconРуководство пользователя Rev. 02 ( April,2001 )
Интернет средствами dsl или кабельного модема всеми компьютерами в локальной сети. Данное Руководство рассказывает о возможностях...
Евгений Леонидович Ющук Интернет-разведка. Руководство к действию iconМартиросян А. Б. Заговор маршалов. Британская разведка против СССР
Нетрудно предвидеть, какой взрыв эмоций может вызвать уже эта, первая из трилогии единого концептуального замысла «Геополитика и...
Евгений Леонидович Ющук Интернет-разведка. Руководство к действию icon«Шаги к устойчивым школам»: руководство к действию
Учебно-методические материалы для учителей «Шаги к устойчивым школам» Бишкек, 2010 г
Евгений Леонидович Ющук Интернет-разведка. Руководство к действию iconРабочая программа курса «Конкурентная разведка» Москва 2009 Оборотная сторона титульного листа Программа курса «Конкурентная разведка»
«Конкурентная разведка» составлена в соответствии с требованиями к обязательному минимуму и уровню подготовки магистра международной...
Евгений Леонидович Ющук Интернет-разведка. Руководство к действию iconСписок электронных версий печатных публикаций за ноябрь 2005 года
Золотая рыбка в "сети" [Электронный ресурс] : Интернет-технологии в средней школе (практическое руководство) : по материалам конкурса...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib.znate.ru 2014
обратиться к администрации
Библиотека
Главная страница