| | | Webspider Jeanie 2010 | | Webspider Jeanie 2010
Webspider Jeanie 2010 ist ein Windows Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert.
Webspider Jeanie 2010 ist ein voll automatisches, parallelisiertes Webspider Webcrawler System (je nach Hardware können bis zu 100 Webspider Webcrawler Prozesse gestartet werden) und ist die zentrale Komponente für Ihre eigene Suchmaschine. |
| Für den Start werden lediglich einpaar seed pages (Start-URLs) benötigt. Ausgehend von den seed pages werden alle darin enthaltene Hyperlinks ausgelesen gespeichert und in getrennten Prozesse abgearbeitet. Für die Indexierung und Beurteilung der Qualität der Webseite stehen zahlreiche Einstellungen und Vorgaben zur Verfügung.
Webspider Jeanie 2010 im Detail: - Vorwort
Nachfolgend sind für Sie als Interessent die wichtigsten Merkmale aufgeführt. Um Webspider Jeanie 2010 komplett zu beschreiben, müssten wir mehr als 1000 Webseiten verfassen und das würde Sie nur verwirren. Sollten Sie noch Fragen zu unserem Webspider haben, senden Sie uns eine Email oder rufen Sie uns an. - Todo
- Auswahl Todo Datei
- Url zur Todo-Liste hinzufügen
- Urls aus Textdatei einlesen
- Todo Datei löschen
- Url in der aktuellen Todo löschen
- Webserver Todo einlesen
- Url Fremd-Extraktion - Optional
Sollten Sie einmal neue Urls fuer einen bestimmten Bereich benötigen, dann wählen Sie diese Funktion an. Diese Funktion holt auf Ihre Anforderung die Urls bei: Google.De, Google.Com, De.Yahoo.Com, Yahoo.com, Ask.De und Ask.Com. Beispiel: Sie benötigen Urls aus dem Bereich: Brad Pitt Sie Klicken auf den Button dieser Funktion. Geben Brad Pitt in das Eingabefeld ein und Klicken auf den Button Start. Fertig! Sie haben 155500 neue Urls und weiter mit der nächsten Eingabe! Die neuen Urls werden in der aktivierten Todo zur Indexierung gespeichert. So Einfach kann das Leben sein. Mehr Information zu Url Fremd-Extraktion finden Sie hier. - Inhalte Lokale Datenbank
- Alle Datei-Inhalte löschen
- Inhalt aktuelle Todo-Datei löschen
- Inhalt Index-Datei löschen
- Reorganistion Datenbank
- Index Lokal
- Check, Auswahl von 0 bis 10000000
Hier können Sie einstellen wieviele indexierte Webseiten für die überprüfung in der Index-Datei verbleiben sollen. - Beginn, Auswahl von 2000 bis 4000
Hier können Sie einstellen ab wann der automatische Transport indexierte Webseiten zum Webserver übertragen soll. Beispiel: Check eingestell auf 5000000 Beginn eingestellt auf 3000 Der automatische Transport zum Webserver beginnt bei 5003000 indexierte Webseiten. - Threads - Parallele Webspider Prozesse
(Parallele Prozesse: mehrere Prozesse, die gleichzeitig auf mehreren Prozessoren ausgeführt werden.) - Auswahl von Thread 1 bis Thread 100
(Je nach eingesetzte Hardware) - Schlagwort Filter
- Hier können Sie Schlagwörter oder auch Schlagwort-Kombinationen für den
Webspider hinterlegen. Befindet sich ein Schlagwort oder eine Schlagwort-Kombination in einer Webseite, dann wird diese Webseite ignoriert bzw. nicht indexiert. - Domain Filter
- Hier können Sie Domain-Namen für den Webspider hinterlegen.
Diese Domains werden ignoriert bzw. nicht indexiert. - Schriftliche Sprache der Webseite
- Analayse und Zuordnung der schriftlichen Sprache der Webseite.
Kann der Webspider die schriftliche Sprache der Webseite nicht ermitteln, dann wird versucht anhand von dem Webseiten-Inhalt die schriftliche Sprache zu ermitteln und der Webseite zu zuordnen. - Herkunftsland der Webseite
- Analyse und Zuordnung des Herkunftslandes der Webseite.
Kann der Webspider das Herkunftsland der Webseite nicht ermitteln, dann wird versucht das Herkunftsland über den Domainnamen zu ermittlen und der Webseite zu zuordnen. - Webseiten mit erotischen Inhalt
Webseiten mit pornografischen und erotischen Inhalt werden durch link-topologischen Analysen und inhalts-basierten Analysen (Klassifikation) automatisch erkannt und erhalten eine spezielle Kennung. Auf Wunsch können Sie diese Webseiten in der SQL-Abfrage der Suchmaschine ausklammern. - Pagerank
Für die Pagerank berechnung sind folgende Bereiche von Geschwichtigkeit: Webseitenangebot, Verlinkung, Beurteilung von Title und Beschreibung und einiges mehr. Auf Wunsch können Sie die Ergebnisseite der Suchmaschine auf Sortierung Pagerank umstellen. - Options für Webseiten Indexierung
(Diese Options können Sie Aktivieren oder Deaktivieren.) - Urls mit Query Strings nicht berücksichtigen
- Frontpage Verzeichnisse nicht berücksichtigen
- Schlagwort/Keyword Filter
- Domain Filter
- Extrahiere alle Urls in der Webseite
- Indexiere nur die Haupt-Webseite
- überspringe/Ignoriere Subs-Domains
- überspringe/Ignoriere Webseiten, wo Titel und Beschreibung gleich sind
- überspringe/Ignoriere Webseiten, wo Titel und Beschreibung aus
Domainnamen besteht - überprüfe den Title der Webseite
Befindet sich der Title in einer anderen indexierten Url, wird die Webseite ignoriert bzw. nicht indexiert. - Erstelle eine Beschreibung der Webseite
Sollte eine Webseite keine eindeutige Beschreibung haben, dann wird, sofern möglich, eine Beschreibung aus dem Webseiten-Inhalt erstellt. - überprüfe gleiche Wörter
Hier wird in Title und Beschreibung die Worthäufigkeit geprüft. Die Title- und Beschreibung- Länge spielt hierbei eine große Rolle. Wörter die in einem Text öfters vorkommen dürfen, wie: der, die, das usw. werden von der überprüfung ausgeschlossen. Anhand der Title- und Beschreibungs-Länge wird ermittelt wie oft ein Wort vorkommen darf. Wird eine nicht akzeptable Worthäufigkeit gefunden, dann wird die Webseite ignoriert bzw. nicht indexiert. - Strategie
- Todo Maximum
Hier kann eingestellt werden, von 199999 bis 10000000, wieviele Urls in der Todo hinzugefügt werden. Ist das Maximum erreicht werden alle Threads/Webspider automatisch auf nur indexieren umgestellt. - Todo Minimum
Hier kann eingestellt werden, von 19999 bis 59999, wie weit die Todo abgearbeitet wird. Ist das Minimum erreicht und alle Threads/Webspider sind auf nur indexieren umgestellt, dann werden alle Threads/Webspider automatisch auf Url-Extrakt umgestellt. - Extrakt Threads
Hier können Sie die aktivien Thread/Webspider wie folgt einstellen: Auswahl von 10% bis 100% Beispiel: Auswahl 80% - 80% der Threads/Webspider Extrahieren Urls und indexieren - 20% der Thread/Webspider indexieren nur die Webseiten - Dateigrösse
Hier hinterlegen Sie die max. Webseiten-Dateigrösse in KByte. Beispiel: Sie hinterlegen den Wert: 1800 Webseiten mit dieser Dateigrösse werden nicht indexiert. - User-Agent
Hier hinterlegen Sie Ihren User-Agent für das Webspider/Webcrawler-System. Beispiel: Mozilla/5.0 (compatible; askpeter_bot/5.1; +http://www.askpeter.info) - Webseiten Konnektierung
- Auswahl Time-Out
- Auswahl Wartezeit zwischen den Verbindungen
- Eingabe User Agent
- Eingabe max. Webseiten Größe
- Index to Webserver
Manuelle Anwahl, mit einem Klick starten Sie den Transport der indexierten Webseiten zu Ihrem Webserver. Kontrolle: Das gespiegelte Webseiten nicht dem Index zugeführt werden, führt der Transporter verschiedene Kontrollen aus. Gepiegelte Webseiten sind: Exakt die gleiche Webseite 1:1 auf verschiedene Domains. - Leistungsmerkmal
Je nach Analyse-Einstellung und Erreichbarkeit der Urls, verarbeitet WebContents Spider Jeanie bis zu 2 Millionen Urls innerhalb von 24 Stunden. Je nach Hardware und Internetverbindung kann die Leistung um das vielfache gesteigert werden. - Programmpflege
Webcontents Spider Jeanie wird stets weiterentwickelt. Alleine für die Webseiten-Analyse kontrollieren wir jeden Monat tausende von Webseiten, sodass wir unseren Anwendern immer eine hoch aktuelle Version anbieten können. - Demo
Damit Sie einen ersten Einblick in die Arbeitsweise von Webcontents Spider Jeanie bekommen, haben wir hier einpaar Videos zusammen gestellt. | Noch Fragen? Verwenden Sie bitte dieses Kontaktformular oder rufen Sie an. Wir stehen Ihnen für weitere Informationen gerne zur Verfügung.
| | | |