Начиная поиски удобного, бесплатного, а, главное, работоспособного линкчекера под Win, я и не подозревал, что это может оказаться настолько сложной задачей... Но все же, несколько часов поисков на sourceforge и freshmeat не прошли даром. В итоге я наткнулся на вполне вменяемый проект под названием Webchek.
Коротко о возможностях Webcheck:
- Краул сайта с последующим составлением карты сайта
- Собственно проверка ссылок
- Определение и проверка внешних ссылок
- Определение "возраста" страниц с последующим разделением их на новые и устаревшие
- Оценка объема страниц, с указанием страниц слишком большого объема
- Генерация весьма подробного и удобного отчета (карта сайта, битые ссылки с указанием страницы-источника, список проблемных страниц с указанием ошибок найденых на них и т.д.)
- Возможность работы через прокси
Итак, что нужно, чтобы все это счастье заработало? Для этого необходимы:
1. Python 2.4 и выше (Внимание! Необходим Python только ветки 2.x, если вы используете 3.х, то исходники придется конвертировать с помощью скрипта 2to3.py). Для тех кто не знает, Питон можно взять здесь http://python.org/
2. Собственно сам Webcheck, который можно взять на оффсайте http://ch.tudelft.nl/~arthur/webcheck/ , либо здесь
Краткую справку по опциям программы можно получить запустив webcheck с ключом --help:
python webcheck.py --help
В большинстве случаев хватит и дефолтных настроек, поэтому для запуска достаточно набрать в командной строке следующее:
python webcheck.py -o c:\results http://mysite.com
где c:\results следует заменить на папку в которую вы хотите поместить результаты проверки, а http://mysite.com на URL проверяемого сайта. После окончания проверки в папке, которую вы указали, появится несколько HTML файлов с отчетом. Пример отчета можно увидеть здесь.
Наверно, стоит сказать несколько слов об особенностях работы через прокси. Webcheck берет настройки из ветки реестра HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Internet Settings, поэтому, если у вас возникли проблемы при работе через прокси, то, прежде всего, проверьте наличие в этой ветке ключей ProxyEnable (должен иметь значение 1) и ProxyServer (должен содержать адрес прокси сервера, например, http=myproxy:3128). Если даже после установки ключей Webcheck отказывается работать, то попробуйте изменить в файле config.py строку PROXIES = urllib.getproxies_environment() на PROXIES = urllib.getproxies().
Вроде бы все... Удачного линкчекинга 










- Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии и скачивать файлы


Последние комментарии
3 дня 16 часов назад
2 недели 3 дня назад
2 недели 3 дня назад
4 недели 20 часов назад
4 недели 1 день назад
4 недели 4 дня назад
6 недель 20 часов назад
7 недель 3 дня назад
11 недель 5 дней назад
11 недель 5 дней назад