SWIS: Sophisticated Web Information Service
Kurzbeschreibung
Daten sind in der heutigen Zeit für viele Industrien zu einem wertvollen Rohstoff geworden, da deren Verfügbarkeit und Qualität häufig zu einem Wettbewerbsvorteil von Unternehmen gegenüber deren Mitbewerbern resultiert.
Mit dem Projekt SWIS wurde der Scraper & Crawler von LuxActive erweitert und entwickelt. SWIS durchsucht das World Wide Web und mit State of the Art Machine- und Deep-Learning Methoden, ursprünglich, um touristische Daten aus Webseiten und Dokumenten zu extrahieren. Die erhobenen Daten werden mit Geo-Positionen, Beschreibungstexten, Kategorien und Öffnungszeiten angereichert und als Knowlege Graph gespeichert. Die zuvor beschriebenen Daten und weitere Services sind nun erstmals durch LuxActive für Dritte zugänglich. Neben den extrahierten und aufbereiteten Daten aus dem World Wide Web werden durch das Projekt auch Services angeboten, welche bereits als Teil des Scraper & Crawlers entwickelt wurden und darin verwendet werden.
Konkret bedeutet dies:
- Der Scraper & Crawler wurde hinsichtlich Performance deutlich verbessert und verarbeitet nun 400 bis 800 Millionen neue Datensätze pro Tag pro Server.
- Vom Scraper & Crawler können nun einzelne Services wie Adress-, Öffnungszeiten-Extraktion oder Geocoding separat von Dritten erworben und benutzt werden.
- Der Scraper und Crawler wurde von der Architektur so erweitert, dass er ein lose gekoppeltes Extraktions-Service enthält. Dieser ist um eine Datenbank herum, wie ein Multilayered Datawarehouse aufgebaut. Im untersten Layer befindet sich der SWIS-Graph mit allen Roh- und Extraktionsdaten. In den darüber liegenden Ebenen findet die Anreicherung und Auswertung statt um die Zieldatensätze für verschiedenste Use Cases (z. B. eine Liste von Ärzten oder Shops) zu erstellen. Beispielsweise können damit alle Shops einer gewissen Sparte (z. B. Sportgeschäfte) im Umkreis von 50 Kilometer ermittelt werden, wodurch die Standortplanung einer Kette für Sportgeschäfte für die Neuerrichtung von Standorten deutlich erleichtert wird, da sie ein umfassendes Bild der Mitbewerber erhält.
- Alle Services von SWIS bedienen sich einem Rate Limit, sowie einem Payment und Billing-Service, damit diese Services auch für Dritte nutzbar sind.
- Alle APIs und Services sind so aufbereitet, dass sie einfach in einen Data Market (wie z. B. den Data Market Austria) integriert werden können, aber dennoch parallel ohne Data Market erwerb- und nutzbar sind.
Nachfolgend ein Beispiel für das Service einer Text Bereinigung und Adress-Extraktion von einem übermittelten Text, indem unterschiedliche Adressteile in verschiedenen Farben visualisiert werden. Diese Adressteile können nun bei Übermittlung eines beliebigen Textes via API-Service ermittelt werden und sind somit für Dritte einfach zugänglich.
Publikationen
Broschüre: Digitale Technologien (2024)
Intelligent, grün und souverän in die Zukunft - Projekthighlights aus den Jahren 2016-2021.
Redaktionsteam FFG: Olaf Hartmann, Anita Hipfinger, Peter Kerschl
Herausgeber: Bundesministerium für Klimaschutz, Umwelt, Energie, Mobilität, Innovation und Technologie
Deutsch, 72 Seiten
Downloads zur Publikation
Projektbeteiligte
Projektführung
- LuxActive KG