Daten

Sowohl der alte Begriff EDV (elektronische Datenverarbeitung) als auch das moderne Kofferwort Informatik tragen Daten und Information bereits im Namen. Und tatsächlich dreht sich ein wesentlicher Teil der IT-Architektur um die Frage, wie Daten und Informationen übertragen und verarbeitet werden. Aber wovon reden wir eigentlich?

Daten, Objekte, Ressourcen, Informationen, etc.
Daten, Objekte, Ressourcen, Informationen, etc.

Daten

Daten sind die grundlegendsten Einheiten, sie können zunächst alles sein, was in digitaler Form gespeichert werden kann: Zahlen, Texte, Bilder, Musik, Videos usw. Sie sind die Rohform von Informationen ohne Kontext, die noch nicht interpretiert oder verarbeitet wurden. Daten können in Form von Datensätzen, Dateien oder Streams (Datenströmen) auftauchen. Sie können stark strukturiert in Tabellen, semi-strukturiert im JSON- oder XML-Format oder unstrukturiert wie in Bildern und Videos vorliegen. In der IT-Landschaft eines Unternehmens geht es meist um die Verarbeitung und Übertragung von geschäftlichen Daten als Geschäfts- oder Datenobjekte wie in Kundenadressen, Rechnungen etc.

Struktur

Die Struktur von Daten beschreibt die Art und Weise wie Daten organisiert und gespeichert werden. Folgendes sind die gebräuchlichsten Definitionen:

Strukturierte Daten

Strukturierte Daten sind klar definierte Daten, die in einem festen Format organisiert sind und leicht in Tabellen (wie in relationalen Datenbanken) organisiert werden können. Geschäftsobjekte wie Kunden, Rechnungen, Buchungen usw. werden in einem Unternehmen normalerweise als strukturierte Daten organisiert. Die Vorteile strukturierter Daten liegen in der einfachen Speicherung, Suche und Analyse der Daten sowie in der Möglichkeit, hochoptimierte Abfragen (mittels SQL - der Structured Query Language) durchzuführen. Strukturierte Daten sind in ihrer Form wenig flexibel, da ihr Datenmodell vor der Verwendung genau definiert werden muss. Je nach Anwendungsfall kann dies ein Nachteil sein.

Semi-Strukturierte Daten

Semi-strukturierte Daten haben keine strikte Tabellenstruktur, sondern enthalten Metadaten oder Tags, die Felder und Beziehungen innerhalb der Daten beschreiben. Alle Daten, die beispielsweise als XML- oder JSON-Dateien vorliegen, sind zumindest semistrukturierte Daten. Semi-strukturierte Daten sind flexibler als strukturierte Daten, da sie keinem festen Schema folgen müssen. Trotzdem ist es natürlich möglich, ein Schema zu verwenden (durch XML Schema oder JSON Schema). Als Nachteil kann angesehen werden, dass die Verarbeitung und Analyse von semistrukturierten Daten komplexer ist als bei strukturierten Daten.

Unstrukturierte Daten

Unstrukturierte Daten haben keine vordefinierte Struktur, in der sie verarbeitet werden können. Allgemeine Textdokumente, Bilder oder Videos sind typische Beispiele für unstrukturierte Daten. Durch die fehlende Struktur sind diese Daten sehr flexibel und können so gut wie alles beinhalten. Dieser große Vorteil ist gleichzeitig ihr größter Nachteil: Sie können nur schwer verarbeitet und ausgewertet werden. Allerdings kann dieser Nachteil mehr und mehr durch künstliche Intelligenz, die die Daten ausgewertet und strukturiert, kompensiert werden.

Form

Datensätze

Ein Datensatz, auch Record und in der Statistik Datenreihe genannt, ist eine zusammenhängende Einheit, die aus einer Menge strukturierter Daten besteht. Ein Datensatz besteht in der Regel aus mehreren kleineren Einheiten, den Datenfeldern oder Attributen, die jeweils spezifische Informationen eine Entität enthalten. Die Struktur eines Datensatzes wird durch das Schema definiert, das die Art der enthaltenen Datenfelder, ihr Format und ihre Beziehungen untereinander festlegt. Idealerweise sind Datensätze eindeutig adressierbar (per ID, UUID oder URI).

Dateien

Eine Datei ist eine Sammlung von Daten auf einem Speichermedium. Dateien können Textdokumente, Bilder, Audiodateien, Datensätze und vieles mehr enthalten. Der Hauptzweck einer Datei besteht darin, Daten so zu organisieren und zu speichern, dass sie leicht zugänglich, übertragbar und nutzbar sind. Das Format einer Datei gibt normalerweise Aufschluss über ihren Inhalt (z. B. ein Bild in einer JPEG-Datei, Datensätze in einer XML-Datei usw.). Dateien können sowohl strukturierte, wie auch semi-strukturierte oder unstrukturierte Daten enthalten.

Streams

Ein Stream (deutsch, aber wenig gebräuchlich: “Datenstrom”) ist eine kontinuierliche Folge von Daten, die in der Regel in Echtzeit oder nahezu in Echtzeit übertragen oder verarbeitet werden. Im Gegensatz zu Dateien, die als Ganzes gespeichert und bei Bedarf abgerufen werden, handelt es sich bei Streams um Daten, die kontinuierlich eintreffen und verarbeitet werden, ohne dass die Länge des Streams und damit die Datenmenge im Voraus bekannt ist. Typische Anwendungsgebiete von Streams sind Audio- oder Videostreams, bei denen multimediale Inhalte übertragen werden, reine Datenstreams, die z.B. im IoT-Bereich kontinuierlich Daten von Sensoren übertragen, oder auch Eventstreams, die z.B. im Finanzsektor Ereignisse wie Kursänderungen von Aktien übertragen. Streams können wie Dateien strukturierte, semi-strukturierte und unstrukturierte Daten enthalten.

Informationen

Informationen entstehen, wenn Daten in einem Kontext interpretiert werden. Informationen liefern Verständnis und Bedeutung und ermöglichen es, Wissen zu erwerben oder Entscheidungen zu treffen. Informationen sind also Daten, die so organisiert, analysiert oder verarbeitet wurden, dass sie nützlich oder aussagekräftig sind. Den Inhalt einer übermittelten Information nennt man Nachricht (engl.: message). Eine solche Nachricht kann eine der folgenden Typen sein:

  • Ein Kommando (engl.: command message): Ein Befehl an ein  IT-System, etwas zu tun.
  • Ein Dokument (engl.: document message): Ein Satz von Informationen für ein IT-System.
  • Ein Ereignis (engl.: event message): Die Benachrichtigung eines IT-System, dass sich in dem sendenden IT-System etwas (zum Beispiel ein Datum oder ein Prozessfortschritt) geändert hat.

Objekte

In der Informatik ist ein Objekt eine Einheit, die Daten (hier auch Attribute genannt) und Verhalten (Methoden) in einer einzigen Struktur kapselt. Objekte sind die Grundbausteine der objektorientierten Programmierung und dienen dazu, die reale Welt innerhalb eines Programms zu modellieren.

Ressourcen

In der REST-Architektur stellen Ressourcen alle Arten von Daten dar, die über ein Netzwerk zugänglich sind. Eine Ressource kann ein Dokument, eine Bild- oder Videodatei, ein Datensatz, eine Information oder sogar ein Datenverarbeitungsdienst sein. Jede Ressource muss jedoch durch einen  URI (Uniform Resource Identifier) eindeutig identifizierbar sein. Der Zugriff und die Manipulation von Ressourcen kann ausschließlich über  HTTP-Methoden erfolgen. Im Gegensatz zu Objekten können also nicht beliebige Methoden auf Ressourcen definiert werden.

Datenobjekte

Ein Datenobjekt im  Metamodell eines  Enterprise Architektur Management ist eine abstrakte Repräsentation einer Einheit von Daten, die für die Geschäftsprozesse eines Unternehmens relevant sind. Es ist ein Konzept, das verwendet wird, um die Struktur, die Art und die Beziehungen der Daten zu beschreiben, die in einer geschäftlichen  Anwendung gespeichert und verarbeitet werden. Datenobjekte können z.B. Kundendaten, Produktinformationen, Transaktionsdaten oder Mitarbeiterinformationen sein. Sie sind oft Teil eines Unternehmensdatenmodells oder einer Informationsarchitektur. Die  Integrationsarchitektur befasst sich mit der Art und Weise, wie Datenobjekte übertragen werden.

Beziehungen des Datenobjekts
Beziehungen des Datenobjekts

Mit Datenobjekten kann ein Enterprise Architektur Management:

  • Daten effizient verwalten: Durch die Festlegung klarer Definitionen, Strukturen und Beziehungen für Daten können Unternehmen ihre Daten effizienter speichern, abrufen und nutzen.
  • Datenqualität verbessern: Durch die Standardisierung von Datenformaten und -strukturen können Fehler reduziert und die Genauigkeit der Daten verbessert werden.
  • Datenintegration fördern: Datenobjekte erleichtern die Integration von Daten aus unterschiedlichen Quellen und Systemen, indem sie eine gemeinsame Sprache und Struktur für Daten bereitstellen.
  • Optimierung des Informationsflusses: Durch die Definition von Datenobjekten können Unternehmen den Informationsfluss durch ihre Prozesse und Systeme besser verstehen und optimieren.
  • Regelkonformität sicherstellen: Die klare Definition und Verwaltung von Daten hilft bei der Einhaltung von Datenschutz- und Datensicherheitsvorschriften.

Geschäftsobjekte

Ein Geschäftsobjekt umfasst wie ein Objekt aus der objektorientierten Programmierung sowohl Daten als auch Verhalten (Prozesse, Methoden). Im Gegensatz zu einem “normalen” Objekt, das beliebige Methoden enthalten kann, bildet das Geschäftsobjekt jedoch vor allem Geschäftsprozesse ab.

Es enthält Regeln und Logik, die definieren, wie die Daten des Objekts innerhalb der Geschäftsprozesse behandelt werden. Geschäftsobjekte haben ihren Platz in der abstrakteren Geschäftsprozessmodellierung.