how to create your own web page

Datenbereinigung

Bringen Sie ihre Daten auf einen Nenner

Datenqualität ist das Thema. Ohne hohe Datenqualität sind die zahlreichen Anwendungen, mit denen man Online Shops attraktiv macht, nicht effizient nutzbar: Filterung, Suchmaschinen, Verkaufsassistenten, Recommendation-Engines, Text-Roboter, Affiliate-Exporte - alle Anwendungen sind von einer hohen Datenqualität abhängig. Der manuelle Aufwand, Daten zu konsolidieren ist nicht tragbar. Deshalb wird eine Lösung benötigt, mit der Sie Ihre Daten automatisch nach Ihren Vorgaben umwandeln können.
Die Thematik Datenbereinigung wird hier in drei Punkten dargestellt:
  1. Wie müssen bereinigte Daten aussehen? - Es wird beschrieben, in welcher Form Daten häufig vorliegen, nämlich in unstrukturierter Form. Und es wird dargestellt, wie "reine" Daten, nämlich strukturierte Daten aussehen müssen.
  2. Wie werden Daten bereinigt? - Es wird beschrieben, auf welche Weise aus unstrukturierten Daten, strukturierte Daten generiert werden
  3. Wie wird die Datenbereinigung in Ihre Prozesse integriert? - in größeren Online Shops gibt es nicht "die Daten". Es gibt PIMs (Product Information Management Systeme), es gibt Datenlieferanten wie Icecat, CNet usw., es gibt Herstellerdaten und es gibt unterschiedliche Datenexporte. Hier werden die unterschiedlichen Datenwege dargestellt und gezeigt, wo das SEMKNOX Data Studio integriert werden kann.

1. Wie müssen bereinigte Daten aussehen

Um die Thematik Datenbereinigung zu verstehen, müssen bestimmte Begrifflichkeiten erläutert werden, um die Datenqualität zu klassifizieren. Wir unterscheiden drei unterschiedliche Arten von Daten: Unstrukturierte Daten, semi-strukturierte Daten und strukturierte Daten.

Unstrukturierte Daten sind Phrasen ohne jegliche Struktur. Produktbeschreibungstexte sind Beispiele für unstrukturierte Daten. Produktbeschreibungen liegen oft in Prosa vor, wie zum Beispiel diese Produktbeschreibung eines Smartphones:

Mobirise

Dieser Beschreibungstext enthält zwar konkrete Daten wie z.B. den Displaytyp (Retina Display) und Kamerafeatures (3D Touch, True Tone, automatischer Weißabgleich). In der reinen Textform lassen sich diese Daten aber natürlich nicht für Filterung oder ähnliches verwenden.  

Oft enthalten Beschreibungen keine Prosa, sondern Feature-Auflistungen wie z.B.:

Mobirise

Solche Featureauflistungen sind bei vielen Online-Shops historisch gewachsen. Es sind viele wertvolle Informationen enthalten, aber auch diese Datensammlungen fallen unter die Klasse der unstrukturierten Daten und sind in dieser Form für keine Weiterverarbeitung verwendbar.


Semi-strukturierte Produktdaten sind als klar getrennte Attribut-Wert-Paare dargestellt. Benennung der Attribute und mögliche Werte sind aber nicht vorgegeben. Diese Art der Datenverwaltung führt oft zu Inkonsistenzen. Inkonsistenzen können durch unterschiedliche Namensgebungen oder durch unterschiedliche Einheiten vorliegen. Als Beispiel sind zwei Eigenschaften von drei unterschiedliche Smartphones dargestellt - Die Displaygröße und die Angabe, ob das Smartphone über WIFI verfügt. 

Mobirise

Die Displaydiagonale wird einmal als "Displaydiagonale", einmal als "Displaygröße" und einmal als "Bildschirmgröße" dargestellt. Die Werte sind einmal in Zoll, einmal in cm und einmal in mm dargestellt. Ebenso wird die Eigenschaft, ob das Smartphone über WIFI verfügt drei mal unterschiedlich dargestellt. Shopfilter und Verkaufsassistenten können semi-strukturierte Daten dieser Form zwar verarbeiten, allerdings ist das Ergebnis wegen der unterschiedlichen Namensgebung und den unterschiedlichen Einheiten sehr unbefriedigend.

Strukturierte Daten sind von der Struktur genauso aufgebaut wie semi-strukturierte Daten. Der entscheidende Unterschied ist, dass hinter strukturierten Daten eine klare Vorgabe, ein sogenanntes Schema, liegt, das Benamungen, mögliche Wertausprägungen und Einheiten strikt vorgibt. Produktdaten können anhand der vorgegebenen Schemata validiert werden. Die Schemata, die den Aufbau von Produktdaten beschreiben, werden oft unterschiedlich bezeichnet: Strukturmodell und Attributisierungsmodell sind zwei bekannte Umschreibungen. Innerhalb des SEMKNOX Data Studios werden die Schemata als Ontolgien bezeichnet und könnten in folgender Form festlegen, dass Smartphones eine numerische Eigenschaft "Displaydiagonale" haben, die in Zentimeter dargestellt wird und eine Eigenschaft "WLAN" haben, die mit "Ja" und "Nein" gekennzeichnet wird.


Für alle Arten von Anwendungen wie Shopfilterung, Verkaufsassistenten oder automatische Textgenerierung sind diese Inkonsistezen Gift. Es sind keine Vergleiche oder klare Auflisungen möglich.

Mobirise

Damit ist das Ziel der Datenbereinigung klar definiert: unstrukturierte und semi-strukturierte Daten sollen automatisch in strukturierte Daten umgewandelt werden - Daten, die einer klaren Vorgabe, einem Schema,  folgen und alle möglichen Werte im Vorfeld bekannt sind. 


2. Wie werden Daten bereinigt

Der Prozess der Datenbereinigung wird anhand der Beispiele für unstrukturierte und semi-strukturierte Daten aus Teil 1 erläutert. Grundlage für die Bereinigung ist die hinterlegte Ontolgie. Ontologien lassen sich mit dem SEMKNOX Data Studio schnell erstellen und effizient managen.

Mobirise

Hier ein Beispiel für eine Ontolgie, die festlegt, dass Smartphones die Eigenschaften "Displaydiagonale" und "WLAN" haben. "Displaydiagonale" ist ein numerisches Attribut, das in Zentimeter angegeben wird. "WLAN" ist Wahrheitsattribut, das die Werte "Ja" und "Nein" annehmen kann (eine Erklärung der möglichen Attribute finden Sie hier) . 

Das SEMKNOX Data Studio analysiert Produktdatensätze und erkennt anhand der Ontologie und Semantik zunächst die Kategorie eines Produkts. Anschließen erkennt es automatisch die Daten und übernimmt die Umwandlung der bestehenden Daten auf die Vorgaben voll automatisch. Die semi-strukturierten Beispiele aus Teil 1 würden wie folgt umgewandelt:

Mobirise
Das Ergebnis sind absolut konsistente Daten mit einheitlichen Bezeichnungen und Einheiten. 

Auf die selbe Weise können unstrukturierte Daten bereinigt und in strukturierte umgewandelt werden. Die Ontologie wird erweitert:
Mobirise
Das SEMKNOX Data Studio wendet die Ontolgie auf die unstrukturierten Daten an und generiert das strukturierte Ergebnis:
Mobirise
Alle generierten Daten entsprechen dem vorgegebenen Schema, der Ontolgie und sind somit strukturiert.

3. Wie wird die Datenbereinigung in Ihre Prozesse integriert?

Die Daten-Infrastruktur in E-Commerce-Systemen lässt sich vereinfacht folgendermaßen darstelllen.
Mobirise

Die zentrale Komponente ist das PIM (Product Information Management System). Das PIM wird mit Produktdaten aus unterschiedlichen Quellen befüllt: Herstellerdaten, Datenlieferanten und Content Manager, welche die Daten manuell einpflegen. 

Die Daten aus dem PIM werden in unterschiedliche Kanäle geleitet: Der Online Shop mit Suche, Filterung, Navigation. Verkaufsassistenten, Textroboter und Export Feeds wie Google Shopping sind weitere Beispiele.

An welcher Stelle lässt sich das SEMKNOX Data Studio integrieren?

Die Datenbereinigung ist in den SEMKNOX Data Service integriert. Daten können in das SEMKNOX Data Studio via REST-Api, per Feed oder manuell integriert werden. 

Es gibt zwei unerschiedliche Möglichkeiten, wie sie das SEMKNOX Data Studio in ihre Infrastruktur und Prozesse integrieren. Wir bezeichnen die Möglichkeiten als Pre-PIM und Post-PIM Integration.

Die Post-PIM Integration beschreibt, wie die Daten aus Ihren PIM an das SEMKNOX Data Studio geleitet und bereinigt werden. Dabei ist es Ihnen überlassen, ob sie die bereinigten Daten in Ihr PIM zurückspielen oder unterschiedliche Datenkanäle direkt mit den bereinigten Daten füttern.

Mobirise
Die Pre-PIM Integration beschreibt, wie die Daten aus unterschiedlichen Quellen, wie z.B. Herstellerdaten, Datenlieferanten etc. zunächst durch das SEMKNOX Data Studio bereinigt werden und anschließend in Ihr PIM integriert werden.
Mobirise
Welche Integration für Sie passend ist ist situationsabhängig. Wir kennen Szenarios, in denen PIM-Daten hoffnungslos vermüllt sind, weiter vermüllen und ständig bereinigt werden müssen. In diesem Fall ist die Post-PIM Integration zu empfehlen. In anderen Szenarien sind die Daten im PIM stark strukturiert, allerdings ist die Sichtung und manuelle Überarbeitung von externen Quelldaten mit zu viel Aufwand verbunden. Für diesen Fall ist die Pre-PIM Variante passend.
Adresse

Webergasse 1
01067 Dresden, Germany

Kontakt

Email: [email protected]
Telefon: +49 (0) 351 3212 3102