Ausreisser suchen

Aus XIMES

Wechseln zu: Navigation, Suche



Kurzbeschreibung

Diese Operation sucht nach Ausreissern in numerischen Daten. Es wird eine zusätzliche Flagspalte in den Datenbestand aufgenommen, in der die Datensätze gekennzeichnet werden.


Konfiguration

Welche Tabellenbereiche sind von der Operation betroffen?
Auf folgende Spalte(n) anwenden
[Eingabe] Angabe der Spalten, die analysiert werden sollen. Achtung: Operation kann nur auf numerische Spalten angewandt werden. Keine Auswertung bei Texten, Datum und Zeitwerten!
Einstellungen
Aktion
[Eingabe] Was soll passieren? Hier kann man entscheiden, ob alle Datensätze im Ergebnis behalten werden sollen oder ob nur die Ausreisser Datensätze oder nur die restlichen Datensätze im Ergebnis behalten werden.
[Auswahl]
  • Alle Datensätze behalten
  • Nur Datensätze mit folgende Kriterien
  • Nur Datensätze ohne folgende Kriterien
In der Ergebnisspalte wird bei allen drei Varianten ein Flag über das Zutreffen der Kritereien gesetzt. Daher kann man zuerst mit Alle Datensätze behalten die Analysen durchführen, die Ergebnisspalte überprüfen und dann entscheiden, welche Datensätze man sich behält.


Wert kleiner als
[Eingabe] Hier gibt man einen Absolutwert ein. Dieser Absolutwert wird mit der/den ausgewälten Spalte(n) verglichen. Dieses Kriterium ist erfüllt, wenn Spaltenwert kleiner als der eingegebene Wert ist.
Wert größer als
[Eingabe] Hier gibt man einen Absolutwert ein. Dieser Absolutwert wird mit der/den ausgewälten Spalte(n) verglichen. Dieses Kriterium ist erfüllt, wenn Spaltenwert größer als der eingegebene Wert ist.
Gültige Wertemenge
[Eingabe] Hier kann man mehrere Werte getrennt durch Strichpunkt und/oder Leerzeichen eingeben. Nach diesen Werten werden die zu analysierenden Spalten durchsucht und bei den Treffern wird in der Ergebnisspalte das Flag auf 1 gesetzt.


Ungültige Wertemenge
[Eingabe] Hier kann man mehrere Werte getrennt durch Strichpunkt und/oder Leerzeichen eingeben. Nach diesen Werten werden die zu analysierenden Spalten durchsucht und bei den Treffern wird in der Ergebnisspalte das Flag auf 1 gesetzt.


Statistische Methode
[Eingabe] Hier wählt man eine statistische Methode für die Analyse aus. Die Vergleichswerte für die statistische Methode werden in den Eingabefeldern Wert kleiner als x Prozent von der statistischen Methode und Wert größer als x Prozent von der statistischen Methode eingegeben.
[Auswahl]
  • Mittelwert
  • Mittelwert mit Standardabweichung
  • Median
  • Perzentil 1
  • Perzentil 5
  • Perzentil 95
  • Perzentil 99
Wert kleiner als ... Prozent von der statistischen Methode
[Eingabe] Hier gibt man einen Prozentwert ein, der von der ausgewählten statistischen Methode verwendet wird.


Wert größer als ... Prozent von der statistischen Methode
[Eingabe] Hier gibt man einen Prozentwert ein, der von der ausgewählten statistischen Methode verwendet wird.


Werte verändern sich wie in Bezug auf den Vorgänger
[Eingabe] Hier können mehrere Methoden für die Auswertung ausgewählt werden, die sich auf den vorherigen Datensatz beziehen. Der Vergleichswert wird im Feld Wertänderung auf Vorgänger eingegeben.
[Auswahl]
Zunahme (zum Vorgänger) um mehr als ... Wenn der neue Datensatzwert um mehr als der eingegebene Wert zugenommen hat, dann trifft dieses Kriterium zu.
Zunahme (zum Vorgänger) um nicht mehr als ... Wenn der neue Datensatzwert um nicht mehr als der eingegebene Wert zugenommen hat, dann trifft dieses Kriterium zu.
Zunahme (zum Vorgänger) um mehr als ... Prozent Wenn der neue Datensatzwert um mehr als der eingegebene Prozentwert zugenommen hat, dann trifft dieses Kriterium zu.
Zunahme (zum Vorgänger) um nicht mehr als ... Prozent Wenn der neue Datensatzwert um nicht mehr als der eingegebene Prozentwert zugenommen hat, dann trifft dieses Kriterium zu.
Abnahme (zum Vorgänger) um mehr als ... Wenn der neue Datensatzwert um mehr als der eingegebene Wert abgenommen hat, dann trifft dieses Kriterium zu.
Abnahme (zum Vorgänger) um nicht mehr als ... Wenn der neue Datensatzwert um nich mehr als der eingegebene Prozentwert abgenommen hat, dann trifft dieses Kriterium zu.
Abnahme (zum Vorgänger) um mehr als ... Prozent Wenn der neue Datensatzwert um mehr als der eingegebene Prozentwert abgenommen hat, dann trifft dieses Kriterium zu.
Abnahme (zum Vorgänger) um nicht mehr als ... Prozent Wenn der neue Datensatzwert um nicht mehr als der eingegebene Prozentwert abgenommen hat, dann trifft dieses Kriterium zu.


Bild: Sceenshots.png Beispiel 1 Bild: Sceenshots.png Beispiel 2


Wertänderung auf Vorgänger
[Eingabe] Hier gibt man einen Absoltwert für die ausgewählte Methode im Feld Werte verändern sich wie in Bezug auf den Vorgänger.
Werte mit 0 als Vorgänger ignorieren
[Eingabe] Hier kann man auswählen, ob 0 Werte als Vorgänger für die ausgewählte Methode im Feld Werte verändern sich wie in Bezug auf den Vorgänger ignoriert werden sollen.


Bezeichnung der Ergebnisspalte
[Eingabe] Hier kann man die Bezeichnung der Ergebnisspalte eingeben, in der die Flags des Operators gespeichert werden.


Hinweise

  • Der Operator ist in der Lage in einem Durchgang mehrere Spalten zu analysieren. Um mehrere Spalten gleichzeitig zu analysieren, gibt man im Feld Analysiere folgende Spalte(n) die entsprechenden Spalten an.
  • Alle Berechnungen und Vergleiche werden für jede Spalte getrennt berechnet, d.h. zum Beispiel die Mittelwerte werden für jede Spalte berechnet.
  • Alle Vergleichsoperationen sind mit UND Verknüpft, d.h. das alle Bedingungen auf dem Datensatz zutreffen müssen, dass dieser in der Ergebnismenge aufscheint.
  • Wertänderungen in Bezug auf den Vorgänger: Der Datenbestand wird so verwendet, wie er ist. Es werden keinerlei Sortierungen durchgeführt. Der erste Datensatz wird als Vorgänger angenommen, damit wird verhindert, dass der erste Datensatz gleich als Ausreißer auftritt. Alle weiteren Datensätze werden mit deren Vorgängerdatensatz vergleichen.
  • Mögliche Probleme mit 0-Werten:
    0-Werte im Datenbestand können zu einer hohen Werteveränderung führen. Relativ normale Werte können dann unberechtigterweise als Ausreißer definiert werden. Daher gibt es die Möglichkeit, 0-Werte als Vorgängerwerte zu ignorieren. Angekreuzt bedeutet dies, dass bei 0-Wert der Vorgängerwert beibehalten und kein Vergleich gemacht wird. Erst wenn wieder ein Wert ungleich 0 kommt, wird der Vergleich zum Vorgänger durchgeführt und dieser neue Wert als Vorgänger gespeichert.
  • Wenn die 0-Werte bei den Prozentvarianten der Wertänderungsmethoden in Bezug auf den Vorgänger erlaubt sind, wird statt den 0-Wert eine Konstante 0,0000000000000000000000000001 verwendet, damit wird die Division durch 0 verhindert. Damit ergeben sich nach Vorgänger mit 0-Werten sehr hohe Prozentwerte im Milliarden Prozentbereich, diese sollen eine nahezu unendliche Steigerung beschreiben.


Persönliche Werkzeuge