VZ
animation controlruen
dotNetCrawler это сетевой робот, который загружает страницы с веб серверов и анализирует их содержание.
Робот сканирует загруженную страницу, собирает ссылки на этой странице и, затем, загружает и анализирует страницы по этим ссылкам.
Этот процесс может быть бесконечным, поэтому есть несколько ограничений для сканирования:
dotNetCrawler сканирует только желаемый сайт и только страницы расположенные в указанном контексте (веб каталоге).
Количество сканируемых файлов тоже ограничено.
Страницы - результат сканирования будут доступны несколько часов после сканирования.
Они будут удалены из базы данных специальной процедурой в последствии.

Crawler dotNetCrawler

Веб интерфейс программы сделан с использованием JSF 2.0, RESTful веб сервисов с JSON и AJAX с YUI JavaScrypt библиотекой.
В java коде робота использованы несколько Apache компонентов с открытым кодом - для загрузки и синтаксического разбора веб страниц, а также стандартный SAX парсер.

 

Copyright© 2004-2014 Vadims Zemlanojs
e-mail:vadim@tenplanets.net