Was sind IT-Daten?

"Computerdaten" sind ein Schlüsselbegriff bei Splunk, und dieser bezeichnet alle Daten, anhand derer IT-Mitarbeiter Ereignisse in den IT-Infrastrukturen interpretieren sowie ermitteln, wie die Systeme konfiguriert sind und welche Aktionen von Benutzern ausgeführt wurden. Dabei handelt es sich nicht nur um Logs. Computerdaten sind Konfigurationsdaten, Daten aus APIs und Meldungswarteschlangen, Änderungsereignisse, die Ausgabe von Diagnosebefehlen und weitere Daten. Diese Daten umfassen zudem eine weitaus größere Vielfalt an Log-Daten, als von Systemen für Netzwerksicherheit und auf Compliance ausgerichteten Log-Verwaltungssystemen sowie SIEM (Security Information and Event Management)-Systemen bewältigt werden können. Splunk-Benutzer wissen, dass es Tausende unterschiedlicher Log-Formate gibt, davon viele aus benutzerdefinierten Anwendungen, die für das Untersuchen von Betriebsproblemen, das Erkennen komplexer Sicherheitsrisiken und den Nachweis von Compliance von entscheidender Bedeutung sind. In den folgenden Abschnitten werden einige der wichtigsten Computerdatenquellen beschrieben, und es wird erläutert, welche Informationen über Ihre IT-Infrastruktur und das Verhalten der Benutzer und potenziellen Angreifer Sie aus ihnen ableiten können. Beachten Sie jedoch, dass diese Liste nur erste Anhaltspunkte liefert. Jede Umgebung verfügt über einen besonderen Satz von Computerdaten, und Computerdaten bestehen nicht nur aus Logs.

Anwendungslogs

Die meisten intern entwickelten und im Paket bereitgestellten Anwendungen schreiben Logfiles, häufig über in Middleware integrierte Protokollierungsdienste - J2EE-Anwendungsserver wie z. B. Weblogic, WebSphere und JBoss, .NET und PHP. Diese Dateien sind für das alltägliche Debuggen von Produktionsanwendungen durch Entwickler und den Anwendungssupport unverzichtbar. Sie stellen außerdem häufig die beste Methode dar, um Berichte zu Geschäfts- und Benutzeraktivitäten zu erstellen und Betrugsszenarien zu erkennen, da sie alle Details der Transaktionen enthalten. Wenn Entwickler Zeitinformationen in die Log-Ereignisse einschließen, können die Logfiles auch zum Überwachen der Anwendungsleistung und zum Generieren der entsprechenden Berichte verwendet werden.

Webzugriffslogs

In Webzugriffslogs wird jede von einem Webserver verarbeitete Anforderung protokolliert: die Client-IP-Adresse des Absenders, die angeforderte URL, die Quell-URL sowie Daten zum Erfolg oder Fehlschlagen der Anforderung. Mit diesen Logs werden im Allgemeinen Webanalyseberichte für Marketingzwecke erstellt: die tägliche Anzahl der Besucher, die am häufigsten angeforderten Seiten usw.

Sie sind außerdem als Ausgangspunkt zum Untersuchen von Problemen, die durch Benutzer gemeldet werden, von unschätzbarem Wert, da sich anhand des Logs einer fehlgeschlagenen Anforderung der genaue Zeitpunkt des Fehlers bestimmen lässt. Weblogs werden standardmäßig verwendet und sind übersichtlich strukturiert. Die einzige Herausforderung ist die große Menge bei stark ausgelasteten Websites, bei denen Milliarden von Zugriffen pro Tag die Norm ist.

Webproxylogs

Fast alle Unternehmen, Dienstanbieter, Einrichtungen und Behörden, die Mitarbeitern, Kunden oder Gästen Webzugriff bieten, steuern und überwachen diesen Zugriff mithilfe von Webproxys. Webproxys protokollieren jede Webanforderung, die Benutzer über den Proxy senden. Die Logs können firmeninterne Benutzernamen und aufgerufene URLs beinhalten. Sie sind unverzichtbar, um Verstöße gegen Nutzungsbestimmungen oder die Einhaltung der Unternehmensrichtlinien für die Webnutzung zu überwachen und zu untersuchen, und sie sind außerdem eine wichtige Komponente bei der Überwachung und Untersuchung von Datenlecks.

Call Detail Records

Call Detail Records (CDRs), Charging Data Records und Event Data Records sind einige der Bezeichnungen für Computerdaten, die von Telekommunikations-Switches protokollierte Ereignisse enthalten. CDRs enthalten nützliche Daten zu dem Anruf oder der Dienstleistung, die über den Switch geleitet wurde, z. B. die Nummer des Anrufers, die Nummer des Empfängers des Anrufs, die Zeit des Anrufs, die Dauer des Anrufs, der Typ des Anrufs usw. Wenn Kommunikationsdienste IP-basierte Dienste anbieten, werden diese Daten als IPDRs bezeichnet und enthalten z. B. die IP-Adresse, die Portnummer usw. Die Spezifikationen, Formate und Struktur dieser Dateien variieren beträchtlich, und es war bisher schwierig, alle diese Varianten zu berücksichtigen. Diese Daten sind jedoch für Abrechnung, Revenue Assurance, Customer Assurance, Partnerabrechnungen, Marketinginformationen und weitere Zwecke unverzichtbar. Splunk kann die Daten schnell indizieren und mit anderen Geschäftsdaten kombinieren, damit Benutzer aus diesen umfassenden Nutzungsinformationen neue Erkenntnisse gewinnen können.

ClickStream-Daten

ClickStream-Daten erfassen die Nutzung einzelner Website-Seiten. Dies liefert Informationen über die Aktionen eines Benutzers, die sich für die Analyse der Benutzerfreundlichkeit, für Marketing und allgemeine Studien nutzen lassen. Für diese Daten werden besondere Formate verwendet, und Aktionen können an vielen Stellen protokolliert werden, z. B. auf Webservern, Routern, Proxyservern, Adservern usw. Herkömmliche Überwachungstools überwachen eine bestimmte Sicht der Daten aus einer bestimmten Quelle. Herkömmliche Webanalyse- und Data Warehouse-Produkte erfassen häufig lediglich Stichproben der Daten und bieten weder eine komplette Sicht des Verhaltens noch eine Analyse in Echtzeit.

Meldungswarteschlangen

Meldungswarteschlangentechnologien wie TIBCO, JMS und AquaLogic dienen der Übertragung von Daten und Aufgaben zwischen Dienst- und Anwendungskomponenten mithilfe von Veröffentlichungen/Abonnements. Das Abonnieren der Warteschlangen ist eine gute Methode, um Probleme in komplexen Anwendungen zu lösen, denn Sie können genau erkennen, was die nächste Komponente in der Kette von der vorherigen Komponente empfangen hat. Außerdem werden Meldungswarteschlangen zunehmend als Fundament von Protokollierungsarchitekturen für Anwendungen verwendet.

Paketdaten

Von Netzwerken generierte Daten werden mit Tools wie tcpdump und tcpflow verarbeitet, die pcap-Daten und weitere nützliche Informationen auf Paketebene und Sitzungsebene generieren. Diese Informationen werden benötigt, um Leistungsabfall, Timeouts, Engpässe oder verdächtige Aktivitäten, die auf eine Gefährdung des Netzwerks oder einen Remote-Angriff hindeuten, zu behandeln.

Konfigurationsdateien

Bestehende aktive Systemkonfigurationen sind unverzichtbar, um zu erkennen, wie die Infrastruktur eingerichtet wurde. Beim Debuggen von Fehlern, die in der Vergangenheit aufgetreten sind und in der Zukunft erneut auftreten können, werden frühere Konfigurationen benötigt. Wenn sich Konfigurationen ändern, ist es wichtig zu wissen, was zu welchem Zeitpunkt geändert wurde, ob die Änderung autorisiert war und ob ein erfolgreicher Angreifer das System für Hintertüren, Zeitbomben oder andere latente Bedrohungen verwundbar gemacht hat.

Datenbank-Auditlogs und -tabellen

Datenbanken enthalten äußerst vertrauliche Firmendaten, z. B. Kundendatensätze, Finanzdaten, Patientendatensätze usw. Audit-Datensätze sämtlicher Datenbankabfragen müssen verfügbar sein, damit ersichtlich ist, von wem Daten zu welchem Zeitpunkt aufgerufen oder geändert wurden. Datenbank-Auditlogs helfen außerdem beim Optimieren von Abfragen, da sich anhand dieser Logs nachvollziehen lässt, wie Datenbanken von Anwendungen verwendet werden. Einige Datenbanken protokollieren Audit-Datensätze in Dateien, während andere Datenbanken Audit-Tabellen verwalten, auf die per SQL zugegriffen werden kann.

Dateisystem-Auditlogs

Vertrauliche Daten, die sich nicht in Datenbanken befinden, werden in Dateisystemen gespeichert, und diese sind häufig freigegeben. In einigen Branchen, z. B. der Gesundheitsbranche, stellen Kundendatensätze in freigegebenen Dateisystemen das größte Risiko von Datenlecks dar. Unterschiedliche Betriebssysteme, Drittanbietertools und Speichertechnologien bieten unterschiedliche Optionen, um den Lesezugriff auf vertrauliche Daten auf Dateisystemebene zu überwachen. Diese Auditdaten sind eine wichtige Datenquelle zum Überwachen und Untersuchen des Zugriffs auf vertrauliche Daten.

Verwaltungs- und Protokollierungs-APIs

Wichtige Verwaltungsdaten und Logereignisse werden von Anbietern zunehmend über Standard-APIs und proprietäre APIs verfügbar gemacht, statt sie in Dateien zu protokollieren. Bei Check Point-Firewalls erfolgt die Protokollierung über die OPSEC Log Export API (OPSEC LEA). Virtualisierungsanbieter, z. B. VMware und Citrix, machen Konfigurationen, Protokolle und Systemstatus über eigene APIs verfügbar.

Metriken, Status- und Diagnosebefehle des Betriebssystems

Betriebssysteme machen wichtige Metriken, z. B. Informationen zu CPU- und Arbeitsspeicherauslastung sowie Status, mit Befehlszeilendienstprogrammen wie ps und iostat unter UNIX und Linux und perfmon unter Windows verfügbar. Diese Daten werden i. d. R. von Serverüberwachungstools genutzt, jedoch selten beibehalten. Dennoch sind sie für die Fehlerbehandlung, zum Analysieren von Trends für die Erkennung latenter Probleme und zum Untersuchen sicherheitsrelevanter Vorfälle von unschätzbarem Wert.

Syslog, WMI und weitere Datenquellen

Es gibt unzählige andere nützliche und wichtige Computerdatenquellen, die nicht in dieser Liste aufgeführt sind - Quellcode-Repository-Logs, physische Sicherheitslogs usw. Sie brauchen weiterhin Ihre Firewall- und IDS-Logs, um Berichte zu Netzwerkverbindungen und -angriffen zu erstellen. Die Betriebssystemlogs wie das Syslog von UNIX und Linux und die Windows-Ereignisprotokolle zeichnen auf, wer bei den Servern angemeldet ist, welche administrativen Maßnahmen von diesen Personen ausgeführt wurden, wann Dienste gestartet und beendet werden und wann Kernel Panics auftreten. In Logs von DNS-, DHCP- und anderen Netzwerkdiensten werden die Zuweisung von IP-Adressen und die Auflösung von Domänen aufgezeichnet. Im Syslog der Router, Switches und Netzwerkgeräte werden der Status der Netzwerkverbindungen und Fehler in wichtigen Netzwerkkomponenten aufgezeichnet. Computerdaten bestehen nicht nur aus Logs, und es gibt außerdem weitaus mehr unterschiedliche Logs, als von herkömmlichen Log-Verwaltungslösungen unterstützt werden.