wespiva — Web Spider Validator
Web Spider Validator, oder kurz wespiva, ist eine Mischung aus einem
- Web-Spider (Robot, Crawler) , der alle Links einer Site durchwandert und dabei tote Links findet,
- und einem XHTML-Validator, der jede besuchte Webseite auf XHTML-Konformität überprüft. Dabei werden die HTML-Tags, die Attribute zu den Tags, und auch die Attributwerte geprüft.
Inhaltsverzeichnis
Beschreibung
Der Zweck dieses Werkzeugs ist
die Sicherstellung von hochqualitativen
standardkonformen Web-Sites.
Mit
Xenu's Link Sleuth
existiert schon ein großartiges Programm
um eine Site zu spidern und tote Links zu finden,
aber Xenu validiert die besuchten Webseiten nicht.
Mit dem
w3.org-Validator
gibt es ein hervorragendes Validierungs-Tool,
aber es wird immer nur eine einzelne Webseite geprüft, keine ganze Site.
Zudem ist der w3.org-Validator manchmal langsam oder nicht erreichbar,
oder sie möchten nicht den Inhalt ihrer Seiten an Dritte geben.
Die Lösung dieser Restriktionen ist wespiva,
der gleichzeitig die Links validiert und die Webseiten
auf XHTML-Konformität
validiert, alles in einem Rutsch.
wespiva ist damit auch sehr hilfreich in
der periodischen Prüfung von bestehenden Sites,
um dort schnell tote Links oder defektes XHTML aufzufinden.
Aber auch bei der Transition einer Site
vom veralteten HTML-Wildwest Tagsoup zu einer
modernen XHTML-konformen Site hilft wespiva.
Download
Obwohl es nach bestem Wissen und Gewissen programmiert wurde, besteht die Möglichkeit eines Absturzes oder von Programmfehlern in der Anwendung selbst oder einer der benutzten .NET-Bibliotheken. Diese Fehlfunktionen könnten Ihr System beschädigen.
Damit ich nicht verantwortlich gemacht werden für irgendwelche Datenverluste, Zeitausfälle oder fehlerhafte Reports des Programms, darf das Programm nur auf eigene Gefahr genutzt werden. Einsatzbedingungen:
- Komplettes Backup durchführen oder wespiva nur in einer virtuellen Maschine ausführen.
- Sie werden mich nicht für irgendwelche Schäden verantwortlich machen, es sei denn, ich hätte diese Schäden bewußt provoziert.
Click here to
download wespiva
Version 1.2010
(100 kb ZIP-File, 2010-01-27)
wespiva Version 0.1.9
(117 kb ZIP-File, 2008-12-19)
wespiva Version 0.1.8
(119 kb ZIP-File, 2008-12-11)
wespiva
Version 0.1.7
(115 kb ZIP-File, 2008-08-21)
wespiva Version 0.1.6
(100 kb ZIP-File, 2007-09-14)
Installation
Voraussetzungen
wespiva läuft unter Windows mit installiertem NET Framework 3.5.
Wie führt man das Programm aus?
Einfach die heruntergeladene ZIP-Datei öffnen und die darin enthaltene EXE-Datei auspacken und starten - fertig!
FAQ - Häufige Fragen zum Thema wespiva
- Läuft wespiva unter MONO für Windows?
- Ja, eine Spezialversion von wespiva läuft unter Mono 2.2, allerdings hängt die Applikation, wenn das Applikationsfenster verändert werden soll, während wespiva gerade eine Website spidert. Die Ursache ist unbekannt, offensichtlich hat Mono noch Probleme mit Windows.Forms und Multithreading. Wenn während des Spiderings die Benutzeroberfläche von wespiva in Ruhe gelassen wird, bis er durch ist, funktioniert es.
- Wird es eine MONO-Version für Linux/OS-X geben?
- Vielleicht — wenn jemand es bezahlt.
- Wie viele Webseiten können in einem Rutsch untersucht werden?
- Es wurden damit schon Sites mit mehr als 50.000 Elementen in weniger als 15 Minuten geprüft. Die Dauer der Prüfung hängt primär von der Leitungs-Bandbreite und der Antwortzeit des untersuchten Webservers ab.
- Warum überhaupt Validation?
- Ich möchte hier andere schreiben lassen:
Samples
Features
- einfach zu benutzen
- einfach zu installieren (es ist nur eine EXE-Datei, die direkt gestartet werden kann)
- schnell (kann mehr als 50.000 Element in weniger als 15 Minuten prüfen)
- der Validator ist im Programm enthalten, wespiva kann auch im reinen Intranet benutzt werden.
- Findet tote Links
- Findet XHTML-Validierungs-Probleme und Fehler
- Erzeugt eine einfach zu verstehenden Ergebnis-Zusammenfassung
- Kann eine Sitemap im Standard-Sitemap-Format von google erzeugen.
- Aufruf per Kommandozeile für die periodische automatische Prüfung einer Site ist möglich
- Das Spidern und Validieren erfolgt in einem Hintergrundprozess, so dass die Bedienoberfläche immer reaktiv ist
- Einfache Konfiguration von Spider- und Validierungs-Parametern
Aufruf per Kommandozeile
c:\wespiva.exe "www.wissing.com" "example@example.not"
Bekannte Fehler
-
Es ist kein Fehler, sondern eine bekannte Einschränkung:
Nur XML-konforme Seiten werden validiert. Wenn eine Webseite nicht wohlgeformt ist, wird in diesem Fall nur der erste gefundene Fehler für diese Seite protokolliert. Das Spidering ist davon nicht betroffen, alle Links der fehlerhaften Seite werden besucht.
Zukünftige Features:
- https-Support
- Online-Version
- Multi-Threading beim Spidern und Validieren
- JavaScript-Extraktion
- Vorschaubild für jede besuchte Webseite und andere Ressourcen (Bilder, PDF)
- Prüfen von inline-Anchor-Href-Beziehungen (wie #top)
schon erledigt:
- robots.txt Standard einhalten
- Basic Authentication (Zugang zu kennwortgeschützten Bereichen, einstellbar)
- X.509 Zertifikate nutzen (einstellbar)
- Proxy ggf. nutzen (einstellbar)
- Integration in unser CMS .webtop
- Text-Extraction (noch in der Testphase)
- Extraktion von CSS-Angaben aus style-Attributen der Tags
Änderungen / Versionshistorie
- 2010-01-27, einige kleinere Fehler beseitigt, Option um JavaScript zu extrahieren aus den besuchten Seiten, Multithreaded Validation (=speedup)
- 2008-12-19, version 0.1.9: robots.txt, Parsing-Problem beseitigt
Andere gute XHTML-Validatoren
Die folgenden Validatoren sind wirklich empfehlenswert, auch wenn sie nicht ganze Sites prüfen:
