Datencharakterisierung und -analyse
Dieser Abschnitt befasst sich mit grundlegenden Konzepten der Datenverarbeitung und -analyse. Es werden wichtige Schritte zur Gewährleistung des Datenzugriffs sowie verschiedene Datenformate und Analysetechniken erläutert.
Um den Datenzugriff zu gewährleisten, müssen zunächst die Datenquellen bestimmt, die Daten in ein geeignetes Format gebracht und der Zugriff ermöglicht werden. Eine wichtige Rolle spielt dabei ODBC (Open Database Connectivity), die als Schnittstelle für Datenbanken dient.
Vocabulary: ODBC (Open Database Connectivity) ist eine standardisierte Programmierschnittstelle für den Zugriff auf Datenbanksysteme.
Zu den standardisierten Datenformaten gehören XLS-, Text-, CSV- und XML-Dateien. XLS-Dateien, die mit Microsoft Excel erstellt werden, eignen sich besonders gut für Auswertungen und den Datenaustausch zwischen Microsoft Office-Produkten. XML-Dateien hingegen beschreiben primär die Struktur und den Aufbau von Daten, wie beispielsweise bei Audio- oder Grafikdateien.
Example: Eine XLS-Datei könnte eine Tabelle mit Verkaufszahlen enthalten, während eine XML-Datei die Struktur eines Musikalbums mit Informationen zu Titeln, Künstlern und Genres beschreibt.
Bei der Datenanalyse werden verschiedene Prüfungen durchgeführt, darunter die Datenqualitätsprüfung, Machbarkeitsprüfung, Datenformatprüfung sowie das Kennenlernen von Datenaufbau und -aussage. Die Datenqualitätsprüfung ist besonders wichtig, um sicherzustellen, dass die Daten sinnvoll und nicht redundant sind.
Highlight: Die Datenqualitätsprüfung ist entscheidend, um die Zuverlässigkeit und Relevanz der Daten für die weitere Analyse sicherzustellen.
Zu den gängigen Datenformaten gehören Zahl, Text, Währung, Datum/Zeit und Boolean. Der Boolean Datentyp kann nur die Werte True oder False annehmen und wird häufig zum Filtern von Tabellen verwendet. Der Zahlentyp hingegen ermöglicht verschiedene Berechnungen, wie beispielsweise die Ermittlung von Durchschnittswerten.
Definition: Der Boolean Datentyp ist ein logischer Datentyp, der nur zwei mögliche Werte (wahr oder falsch) annehmen kann.