Textextraktion mittels mindUp Web-Crawler/Spider
mindUp verfügt über ein adaptives Web-Crawler bzw- Spider-System, welches automatisiert Web-Inhalte abrufen und verarbeiten kann.
Folgende Eigenschaften hat das Web-Crawler-System:
- Hochgradig skalierbar für jede Anwendungsgröße
- Viele Millionen Web-Seiten täglich
- Beliebige Extraktionsaufgaben möglich (Extraction Agent)
- Adaptive Scanning (Domain-Scanning)
- Webfarming
mindUp beherrscht die Erkennung von Web-Inhalten bis zur Perfektion. Sei es die Extraktion von Produktinformationen (Immobilienanzeigen, Autoanzeigen) zur Generierung von Marktdaten oder Preisvergleichen oder das Finden und Prüfen von Adressdaten. Die Crawler-Technologie von mindUp gepaart mit der Inhaltsextraktion erlaubt viele Einsatzbereiche.
Häufig gestellte Fragen
-
Kann der Crawler auch überwachen?
-
Ja, der Crawler kann zyklisch Web-Seiten oder auch ganze Domänen bzgl. zuvor definierter Inhalte überwachen.
Anwendungsbeispiele für die Überwachungsfunktion:- Monitoring von Konkurrenzprodukten
- Screening von Affiliate-Partnerschaften
- Überwachung von zugesicherten Inhalten bei Affiliate-Marketing (Berücksichtigung von Black-List bzw Verhinderung von politischen, rassistischen oder erotischen Inhalten)
- Screening von Foren, Chats oder Auktionen bzwl. verbotener Inhalte
- u.s.w
-
Was kann der Crawler extrahieren?
-
Der Crawler kann adaptiv auf Ihre Anforderungen angepasst werden, d.h. es kann eigentlich alles extrahiert werden, was sinnvoll erscheint.
Das könnten z.B. sein:- Produkte
- Immobilienanzeigen
- Preise
- Adressen
- Unternehmensdaten
- Jobangebote
- Projektangebote
-
Was ist Competitive Intelligence?
-
Competitive Intelligence wird am besten mit Konkurrenzanalyse, Konkurrenzforschung oder Wettbewerbsforschung übersetzt. Dabei geht es nicht um geheime Spionage, sondern mehr um das Sammeln und Auswerten offiziell vorhandener Informationen der Konkurrenten.
Crawling Techniken können dabei behilflich sein, öffentlich im Internet befindliche Informationen strukturiert zu erfassen, zu aggregieren und auszuwerten. -
Respektiert der Crawler/Spider die robots.txt?
-
Ja, der contentDetection Crawler interpretiert die robots.txt. Ansonsten bestünde die Gefahr, dass der Crawler durch eine sog. "Bot Trap" auf eine schwarze Liste gesetzt wird.
