P&T Software Entwicklung - WebSpider-, Webcrawler-, Informations-Extraktions-Technik
Menü
Home Jeanie 2010 Jeanie 2010 Thema Jeanie 2010 Country Jeanie 2010 News Jeanie 2010 Images Jeanie 2010 Jobs Jeanie 2010 Video Jeanie 2010 Audio Google & Co. Demo/Video System Voraussetzung Fragen
Webspider Jeanie 2010 Web page in English Language

Webspider Jeanie 2010

Webspider Jeanie 2010 ist ein Windows
Computerprogramm, das automatisch das
World Wide Web durchsucht und Webseiten analysiert.

Webspider Jeanie 2010 ist ein voll automatisches,
parallelisiertes Webspider Webcrawler System
(je nach Hardware können bis zu 100
Webspider Webcrawler Prozesse gestartet werden)
und ist die zentrale Komponente für Ihre
eigene Suchmaschine.



Webspider Webcrawler Jeanie 2010
Für den Start werden lediglich einpaar seed pages (Start-URLs) benötigt.
Ausgehend von den seed pages werden alle darin enthaltene Hyperlinks ausgelesen
gespeichert und in getrennten Prozesse abgearbeitet.
Für die Indexierung und Beurteilung der Qualität der Webseite stehen zahlreiche Einstellungen
und Vorgaben zur Verfügung.

Webspider Jeanie 2010 im Detail:
  • Vorwort
    Nachfolgend sind für Sie als Interessent die wichtigsten Merkmale aufgeführt.
    Um Webspider Jeanie 2010 komplett zu beschreiben, müssten wir mehr als
    1000 Webseiten verfassen und das würde Sie nur verwirren.
    Sollten Sie noch Fragen zu unserem Webspider haben, senden Sie uns eine Email
    oder rufen Sie uns an.
  • Todo
    • Auswahl Todo Datei
    • Url zur Todo-Liste hinzufügen
    • Urls aus Textdatei einlesen
    • Todo Datei löschen
    • Url in der aktuellen Todo löschen
    • Webserver Todo einlesen
  • Url Fremd-Extraktion - Optional
    Sollten Sie einmal neue Urls fuer einen bestimmten Bereich
    benötigen, dann wählen Sie diese Funktion an.
    Diese Funktion holt auf Ihre Anforderung die Urls bei:
    Google.De, Google.Com, De.Yahoo.Com, Yahoo.com,
    Ask.De und Ask.Com. Beispiel:
    Sie benötigen Urls aus dem Bereich: Brad Pitt
    Sie Klicken auf den Button dieser Funktion. Geben Brad Pitt
    in das Eingabefeld ein und Klicken auf den Button Start.
    Fertig! Sie haben 155500 neue Urls und weiter mit der nächsten
    Eingabe! Die neuen Urls werden in der aktivierten Todo zur
    Indexierung gespeichert. So Einfach kann das Leben sein.
    Mehr Information zu Url Fremd-Extraktion finden Sie hier.
  • Inhalte Lokale Datenbank
    • Alle Datei-Inhalte löschen
    • Inhalt aktuelle Todo-Datei löschen
    • Inhalt Index-Datei löschen
    • Reorganistion Datenbank
  • Index Lokal
    • Check, Auswahl von 0 bis 10000000
      Hier können Sie einstellen wieviele indexierte Webseiten für die
      überprüfung in der Index-Datei verbleiben sollen.
    • Beginn, Auswahl von 2000 bis 4000
      Hier können Sie einstellen ab wann der automatische Transport
      indexierte Webseiten zum Webserver übertragen soll.
      Beispiel:
      Check eingestell auf 5000000
      Beginn eingestellt auf 3000
      Der automatische Transport zum Webserver beginnt bei 5003000
      indexierte Webseiten.
  • Threads - Parallele Webspider Prozesse
    (Parallele Prozesse: mehrere Prozesse, die gleichzeitig auf mehreren Prozessoren
    ausgeführt werden.)
    • Auswahl von Thread 1 bis Thread 100
      (Je nach eingesetzte Hardware)
  • Schlagwort Filter
    • Hier können Sie Schlagwörter oder auch Schlagwort-Kombinationen für den
      Webspider hinterlegen. Befindet sich ein Schlagwort oder eine
      Schlagwort-Kombination in einer Webseite, dann wird diese Webseite
      ignoriert bzw. nicht indexiert.
  • Domain Filter
    • Hier können Sie Domain-Namen für den Webspider hinterlegen.
      Diese Domains werden ignoriert bzw. nicht indexiert.
  • Schriftliche Sprache der Webseite
    • Analayse und Zuordnung der schriftlichen Sprache der Webseite.
      Kann der Webspider die schriftliche Sprache der Webseite nicht ermitteln,
      dann wird versucht anhand von dem Webseiten-Inhalt die schriftliche Sprache
      zu ermitteln und der Webseite zu zuordnen.
  • Herkunftsland der Webseite
    • Analyse und Zuordnung des Herkunftslandes der Webseite.
      Kann der Webspider das Herkunftsland der Webseite nicht ermitteln,
      dann wird versucht das Herkunftsland über den Domainnamen zu ermittlen
      und der Webseite zu zuordnen.
  • Webseiten mit erotischen Inhalt
    Webseiten mit pornografischen und erotischen Inhalt werden durch
    link-topologischen Analysen und inhalts-basierten Analysen (Klassifikation)
    automatisch erkannt und erhalten eine spezielle Kennung.
    Auf Wunsch können Sie diese Webseiten in der SQL-Abfrage der
    Suchmaschine ausklammern.
  • Pagerank
    Für die Pagerank berechnung sind folgende Bereiche von Geschwichtigkeit:
    Webseitenangebot, Verlinkung, Beurteilung von Title und Beschreibung
    und einiges mehr.
    Auf Wunsch können Sie die Ergebnisseite der Suchmaschine auf
    Sortierung Pagerank umstellen.
  • Options für Webseiten Indexierung
    (Diese Options können Sie Aktivieren oder Deaktivieren.)
    • Urls mit Query Strings nicht berücksichtigen
    • Frontpage Verzeichnisse nicht berücksichtigen
    • Schlagwort/Keyword Filter
    • Domain Filter
    • Extrahiere alle Urls in der Webseite
    • Indexiere nur die Haupt-Webseite
    • überspringe/Ignoriere Subs-Domains
    • überspringe/Ignoriere Webseiten, wo Titel und Beschreibung gleich sind
    • überspringe/Ignoriere Webseiten, wo Titel und Beschreibung aus
      Domainnamen besteht
    • überprüfe den Title der Webseite
      Befindet sich der Title in einer anderen indexierten Url, wird die Webseite
      ignoriert bzw. nicht indexiert.
    • Erstelle eine Beschreibung der Webseite
      Sollte eine Webseite keine eindeutige Beschreibung haben,
      dann wird, sofern möglich, eine Beschreibung aus dem Webseiten-Inhalt erstellt.
    • überprüfe gleiche Wörter
      Hier wird in Title und Beschreibung die Worthäufigkeit geprüft.
      Die Title- und Beschreibung- Länge spielt hierbei eine große Rolle.
      Wörter die in einem Text öfters vorkommen dürfen, wie:
      der, die, das usw. werden von der überprüfung ausgeschlossen.
      Anhand der Title- und Beschreibungs-Länge wird ermittelt wie oft ein Wort
      vorkommen darf. Wird eine nicht akzeptable Worthäufigkeit gefunden,
      dann wird die Webseite ignoriert bzw. nicht indexiert.
  • Strategie
    • Todo Maximum
      Hier kann eingestellt werden, von 199999 bis 10000000, wieviele Urls in der Todo
      hinzugefügt werden. Ist das Maximum erreicht werden alle Threads/Webspider
      automatisch auf nur indexieren umgestellt.
    • Todo Minimum
      Hier kann eingestellt werden, von 19999 bis 59999, wie weit die Todo abgearbeitet
      wird. Ist das Minimum erreicht und alle Threads/Webspider sind auf nur indexieren
      umgestellt, dann werden alle Threads/Webspider automatisch auf Url-Extrakt umgestellt.
    • Extrakt Threads
      Hier können Sie die aktivien Thread/Webspider wie folgt einstellen:
      Auswahl von 10% bis 100%
      Beispiel: Auswahl 80%
      - 80% der Threads/Webspider Extrahieren Urls und indexieren
      - 20% der Thread/Webspider indexieren nur die Webseiten
  • Dateigrösse
    Hier hinterlegen Sie die max. Webseiten-Dateigrösse in KByte.
    Beispiel:
    Sie hinterlegen den Wert: 1800
    Webseiten mit dieser Dateigrösse werden nicht indexiert.
  • User-Agent
    Hier hinterlegen Sie Ihren User-Agent für das Webspider/Webcrawler-System.
    Beispiel:
    Mozilla/5.0 (compatible; askpeter_bot/5.1; +http://www.askpeter.info)
  • Webseiten Konnektierung
    • Auswahl Time-Out
    • Auswahl Wartezeit zwischen den Verbindungen
    • Eingabe User Agent
    • Eingabe max. Webseiten Größe
  • Index to Webserver
    Manuelle Anwahl, mit einem Klick starten Sie den Transport der
    indexierten Webseiten zu Ihrem Webserver.
    Kontrolle:
    Das gespiegelte Webseiten nicht dem Index zugeführt werden, führt der
    Transporter verschiedene Kontrollen aus.
    Gepiegelte Webseiten sind:
    Exakt die gleiche Webseite 1:1 auf verschiedene Domains.
  • Leistungsmerkmal
    Je nach Analyse-Einstellung und Erreichbarkeit der Urls,
    verarbeitet WebContents Spider Jeanie bis zu 2 Millionen Urls innerhalb von 24 Stunden.
    Je nach Hardware und Internetverbindung kann die Leistung um das vielfache
    gesteigert werden.
  • Programmpflege
    Webcontents Spider Jeanie wird stets weiterentwickelt.
    Alleine für die Webseiten-Analyse kontrollieren wir jeden Monat
    tausende von Webseiten, sodass wir unseren Anwendern immer eine
    hoch aktuelle Version anbieten können.
  • Demo
    Damit Sie einen ersten Einblick in die Arbeitsweise von
    Webcontents Spider Jeanie bekommen, haben wir
    hier einpaar Videos zusammen gestellt.
Noch Fragen?
Verwenden Sie bitte dieses Kontaktformular oder rufen Sie an.
Wir stehen Ihnen für weitere Informationen gerne zur Verfügung.

© 2010 P&T WebSpider/WebBot-Technology - WebContents Analysis - All Rights Reserved