Отслеживание изменений страниц web сайтов

Иногда бывает необходимо быть в курсе изменений некоторых WEB страниц произвольных сайтов. Но что делать если сайт не имеет RSS или других видов автоматизированного оповещения об изменениях сайта. В этом случае требуется инструмент который откроет сайт на нужной странице и посмотрит изменилась ли она с предыдущего посещения и если изменилась каким-то образом оповестить заинтересованное лицо.

На самом деле есть несколько разных видов такой услуги.

  1. Плагин для Firefox
  2. Программа которая запускается и отслеживание нужные сайты
  3. Онлайн сервисы которые дают возможность прописать эти страницы и условия контроля и получать оповещения при обнаружении каждого изменения.


1) Плагины FireFox

https://addons.mozilla.org/en-US/firefox/addon/alertbox/
AlertBox 0.4.6.20111013
by Ajit K
Add, manage and track changes in web pages. Get alerts for important changes.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/
Update Scanner 3.1.10
автор sneakypete81
Следит за обновлениями web-страниц. Полезно для web-сайтов, которые не имеют лент новостей (Atom или RSS).

https://addons.mozilla.org/en-us/firefox/addon/sitedelta/
SiteDelta 0.13.1
by Andreas Schierl
Notifies when websites are changed and highlights the changes since last visit.

ВНИМАНИЕ
Были сообщения что Update Scanner и Site Delta установленные и активированные одновременно могут конфликтовать и завешивать браузер.

2) Список программ которые удалось нагуглить выглядит примерно так:
http://aignes.net/ Платный с триалом.
http://www.activeurls.com/ Платный с триалом.
http://www.eldos.org/timelyweb/timelyweb.html Бесплатный
http://www.eyeonweb.com/eowwin.html Платный с триалом.
http://www.cmcode.co.uk/webmon/ Бесплатный
http://www.right-soft.com/webmon/ Платный с триалом.
http://www.xemico.com/newswatch/ Бесплатный с регистрацией, но автор опубликовал код DC8AF-00029-AFAB0
http://www.ykwong.com/chk4new.html Бесплатный

3) WEB сервисы

http://www.ChangeDetection.com/monitor.html Бесплатный
http://feed43.com/ Бесплатный и платный расширенный варианты
http://www.rsspect.com/ Бесплатна урезанная версия.

Для пользователей Linux есть такие инструменты:
http://baruch.ev-en.org/proj/websec/ Бесплатный в исходниках
http://kwebwatch.sourceforge.net/
Базируется на предыдущем но написан на С++ и имеет GUI интерфейс (KDE)
http://www.antbear.org/urlchange/urlprj.html
Проверяет только время на странице а не реальное её содержимое, поэтому применима для немногих сайтов.
http://sourceforge.net/projects/wrep/ Фактически экстрактор интересующих частей страницы. Программа только экспортирует содержимое страницы используя регулярные выражения и не ищет изменения. Далее можно использовать diff. :)
http://lab.madscience.nl/wrep/
Язык для преобразования web страниц во что-то другое. Может быть использован для создания сводной страницы изменений на других сайтах.

9 thoughts on “Отслеживание изменений страниц web сайтов”

  1. Добрый день!

    Хотел добавить камент про то что мы сделали веб сервис по мониторингу изменений страниц сайта NeoWatcher.com Аналитическа SAAS продукта Неовочер выдает что именно изменилось: в читабельном тесте, html, какие картинки удалены и добавлены. Делаются даже скриншоты. Отчет на email содержит краткую сводку изменений. Есть интерфейс для руководителя и сеошника. Сервис платный – 10 евро в месяц. Бесплатно первый месяц.

    Приглашаем оценить NeoWatcher

  2. Спасибо. Будет интересно посмотреть.
    Но лично меня вполне устраивает бесплатный ChangeDetection.com. Подчеркну что я не занимаюсь SEO, а использую сервис для мониторинга некоторых сайтов которые меняются сравнительно редко и на них нет вкраплений рекламы. Была бы реклама — было бы муторно от частых оповещений.

  3. Мы фильтрами настраиваем так, что мониторится только то что нужно мониторить. Т.е. исключаем баннеры, captcha из формы обратной связи и т.п. вещи.

    Директора от NeoWatcher.com обычно получают сведенную статистику за неделю что произошло с сайтом – где в какой деть какую страницу как отредактировали.
    Те кто курирует изменения сайта – те раз в день (если было изменение).

  4. Фильтрация конечно это замечательно.
    Но фильтрами настраиваете именно Вы или всё же сам пользователь?

  5. Фильтры под конкретный сайт, чтобы его правки корректно мониторил NeoWatcher.com настраиваем пока мы, не потому что у обычного пользователя не хватает квалификации.
    Для программистов которые хотят мониторить сами есть инструкция. Добавил ее в FAQ http://neowatcher.com/ru/faq/ (спасибо за вопрос).
    Мануал http://goo.gl/N5L49p

    В планах – упростить настройку фильтров методом кнопки “об этом изменении не информировать”

  6. Вот еще один бесплатный веб сервис по отслеживанию изменений на сайтах. Принцип работы простой: выделяем мышкой фрагмент страницы который хотим мониторить, сканируем сайт и все наблюдение установлено. И когда изменится содержимое этого фрагмента то будет выдано оповещение, вот собственно и сам сайт: http://sitecentr.ru/index.php

  7. cotez Я бы потестировал предложенный Вами сервис. И добавил бы в статью если бы он мне понравился. Если Вы автор этого сервиса то я рекомендовал бы кроме соцсетей добавить обычную авторизацию по имени паролю. Не все присутствующие в сети являются пользователями социальных сетей. Я один из них.

  8. admin, да сервис только начал свое плаванье по широтам интернета, изучаю спрос, что надо обывателю, какие функции, постепенно сервис будет расширяться, насчет регистрации, в ближайшие дни добавлю формы для реги и логинизации помимо соц сетей.

  9. Спрос безусловно есть. На этот сайт приходит в среднем 10 человек в сутки по запросам “Отслеживание изменений на сайте”.
    Но другой немаловажный вопрос, как в современных условиях монетизировать этот спрос. Ведь бесплатные сервисы есть. И есть бесплатные тарифные планы на платных сервисах. Возможно вас натолкнёт на нужную жилу такая вещь, как отслеживание изменений с целью обнаружения взлома сайта. Но для этого анализ должен вестись в другом срезе.
    Первое это анализ видимого контента, то что видит посетитель.
    Второе это невидимый контент скрипты и ссылки. Нужно вычитывать скрипты и анализировать их размеры и контрольные суммы разными алгоритмами чтобы нельзя было подобрать коллизию.

    Побочным продуктом в этом случае может быть доступность сайта. Если ваш робот не смог прочесть сайт — оповещает администратора сайта. Конечно это делает яндекс робот и бесплатно, но у меня сообщения доходят не всегда.

Leave a Reply