Dateisysteme der nächsten Generation: wonach werden sie suchen?

Die Vorstellung, dass Daten exponentiell wachsen, scheint unter IT-Experten eine allgemein akzeptierte Realität zu sein. Die überwiegende Mehrheit der Gespräche über das Datenwachstum scheint sich jedoch auf strukturierte Daten zu konzentrieren. Aber auch unstrukturierte Daten (Dateidaten) wachsen in einem noch nie dagewesenen Tempo. Daher werden Technologien, die seit langem zum Speichern und Organisieren unstrukturierter Daten verwendet werden, mit unzureichender Geschwindigkeit weit verbreitet.

Dateisysteme der nächsten Generation: Wonach werden sie suchen? -%Kategorien

Obwohl ich stark bezweifle, dass viele Leute die Vorstellung von der Zunahme unstrukturierter Daten leugnen werden, wird das Datenwachstum leicht unterschätzt. Aus Neugier habe ich mir den Inhalt meines Datei-Repositorys angeschaut und festgestellt, dass es ungefähr 360 Dateien enthält. Auch wenn dies keine große Zahl zu sein scheint, insbesondere nach Unternehmensstandards, bin ich nur eine Person. Darüber hinaus umfasst diese Zahl weder Betriebssystemdateien noch meine Datenarchive. Wenn ich 000 Dateien (meist bestehend aus Dokumenten, Screenshots und Videos) selbst erstellen könnte, stellen Sie sich vor, wie viele Dateien in einer großen Organisation erstellt werden könnten.

Dateisysteme der nächsten Generation: Wonach werden sie suchen? -%Kategorien

Kontrollmanagement

Es gibt natürlich eine Reihe von Maßnahmen, die Beamte ergriffen haben, um den Aktenrückstau zu kontrollieren. Der Ressourcen-Manager von Windows Server kann beispielsweise verwendet werden, um Dateien zu klassifizieren und zu verhindern, dass Benutzer verschiedene Dateitypen in einer Netzwerkdateifreigabe speichern. Ein Administrator kann beispielsweise Audio- oder Videodateien blockieren. In ähnlicher Weise nutzen viele Organisationen Mechanismen wie Benutzerkontingente oder Richtlinien zur Datenlebenszyklusverwaltung, um zu verhindern, dass sich eine große Anzahl von Dateien im Netzwerk ansammelt.

Einerseits verstehe ich vollkommen, warum diese und andere ähnliche Techniken verwendet werden. Die Speicherung von Daten ist mit direkten Kosten verbunden, und die Aufrechterhaltung des Datenwachstums hilft, die Kosten zu kontrollieren. Gleichzeitig entdecken Unternehmen jedoch zunehmend, dass ihre scheinbar banalen Daten einen verborgenen Geschäftswert enthalten, der darauf wartet, erschlossen zu werden. Wenn die Daten voraussichtlich von Wert für das Unternehmen sind, macht es keinen Sinn, den Benutzern beim Speichern von Dateien enge Grenzen zu setzen oder die Entfernung alter Daten zu erzwingen.

Lesen Sie auch:  So zeichnen Sie fehlende Straßen auf Google Maps

Natürlich wirft das uneingeschränkte Wachstum unstrukturierter Daten über die Speicherkosten hinaus weitere Probleme auf. Die größte Herausforderung kann darin bestehen, die Daten organisiert zu halten. Unternehmen sollten überlegen, wie sie Benutzern am besten helfen können, die benötigte Datei zu finden, wenn sie unter Millionen anderer Dateien im Dateisystem gespeichert ist.

Ordnerbasierte Klassifizierung als Dateisystemlösung?

Dateisysteme der nächsten Generation: Wonach werden sie suchen? -%Kategorien

Traditionell besteht der beste Weg, um Daten einigermaßen organisiert zu halten, darin, eine Klassifikation in die Verzeichnisstruktur einzubauen. In meiner eigenen Organisation verwende ich beispielsweise Ordnernamen der obersten Ebene, die den Inhalt des Ordners im Allgemeinen beschreiben. Diese Namen beinhalten Dinge wie Artikel oder Werke. Von dort aus erstelle ich eine Reihe von Unterordnern, die helfen, die Informationen besser zu organisieren. Ich habe zum Beispiel eine Büchermappe für Bücher, die ich geschrieben habe. Ich organisiere die Informationen im Ordner Bücher, indem ich Unterordner für den Verlag, das Jahr und den Titel des Buches erstelle.

Die ordnerbasierte Klassifizierung, die ich in meinen eigenen Organisationen erstelle, funktioniert (meistens), aber sie hat wahrscheinlich keine gute Größe. Wenn sich andere Benutzer in meinem Netzwerk befinden, gibt es keine Garantie dafür, dass diese Benutzer ihre Dateien basierend auf der erstellten Ordnerstruktur am richtigen Ort speichern.

Das größte Problem bei der Verwendung der ordnerabhängigen Klassifizierung besteht darin, dass es unabhängig von der Organisation der Ordnerstruktur schwierig sein wird, einige Dinge zu finden. Vor einigen Tagen musste ich zum Beispiel den Schaltplan einer Wärmebildkamera finden, die ich vor einigen Jahren gemacht habe. Ich hatte keinen Ordner auf oberster Ebene für das Gerät, und ich konnte mich nicht mehr genau erinnern, wann ich das Gerät erstellt habe. Am Ende habe ich auf die Windows-Suchoberfläche zurückgegriffen.

Lesen Sie auch:  So verwenden Sie Instagram QR Code, um Follower für Ihr Unternehmen zu gewinnen

Glücklicherweise ist der gesamte Inhalt des Dateiservers indiziert, aber es bleibt noch genügend Zeit, um die Suchergebnisse zu sichten. Wenn Sie das Wort „Kamera“ als Suchbegriff verwenden, erhalten Sie Ergebnisse aus Artikeln über Apps, die die Vorteile von Smartphone-Kameras nutzen, dem Beleg einer DSLR, die Sie vor einigen Jahren gekauft haben, und unzähligen anderen Dokumenten, die beiläufig das Wort Kamera enthalten.

Diese Art der Suche ist deshalb so problematisch, weil die Ergebnisse auf dem Dateinamen und/oder dem Inhalt der Datei (wie den Wörtern in der Dokumentdatei) basieren. Der Suchprozess wäre wahrscheinlich effektiver, wenn Sie stattdessen eine Keyword-Recherche durchführen könnten.

Wie wäre es, Dinge aufzubewahren?

Dateisysteme der nächsten Generation: Wonach werden sie suchen? -%Kategorien

Public-Cloud-Lösungen wie Amazon AWS und Microsoft Azure lösen dieses Problem, indem sie Objektspeicher statt Blockspeicher verwenden. Object Storage ist ein flaches (im Gegensatz zu einem hierarchischen) Dateispeichersystem, das auf massive Skalierbarkeit ausgelegt ist. Anstatt Dateien in Ordnern zu organisieren, können Dateien mit Metadaten versehen werden, sodass Dateien selbst beschrieben und leichter gefunden werden können.

Die Verwendung von Metadaten hat seine Vorteile, ist aber nicht ideal. SharePoint hat beispielsweise seit vielen Jahren die Möglichkeit, Metadaten-Tags auf Dokumente in einer Dokumentbibliothek anzuwenden. Es gibt mindestens zwei Probleme bei der Verwendung der Hervorhebung von Metadaten.

Erstens wird es unweigerlich einige Benutzer geben, die die Tags leer lassen. Während Sie Tagging anfordern können, gibt es möglicherweise Benutzer, die Müll in die Rohdatenfelder eingeben, um eine ihrer Meinung nach lästige oder völlig nutzlose Anforderung zu umgehen.

Lesen Sie auch:  So erhalten Sie Spiele und fügen sie zum Dolphin Emulator hinzu

Das größte Problem besteht darin, dass die Tagging-Struktur nicht für alle Dokumente geeignet ist. Betrachten Sie zum Beispiel die Artikel, die ich schreibe. Ich kann Tags wie Veröffentlichungsdatum, Herausgeber oder Thema verwenden. Wie bereits erwähnt, sind Artikel nicht die einzigen Datentypen in meinem Dateisystem. Stellen Sie sich vor, ich muss aus steuerlichen Gründen eine Kopie einer Quittung speichern. Das Anbringen des Einlieferungszeichens oder des Einlieferungszeichens auf den Beleg kann nicht sinnvoll sein.

Ich vermute, dass das Dateisystem in Zukunft eine Kombination aus Metadatenklassifizierung und -aggregation verwenden wird. Ähnliche Inhaltstypen können gruppiert werden, und dann kann auf jede Gruppe eine Tag-basierte Taxonomie angewendet werden, wobei Tags auf den Zweck der Gruppe zugeschnitten sind. Ich spreche nicht davon, für jeden Dateityp eine separate Gruppe zu erstellen oder SharePoint-Dateien in separaten Dokumentbibliotheken zu organisieren. Ich spreche von einem Bewertungssystem, das in das Dateisystem integriert ist und ähnlich einer Zugriffskontrollliste implementiert werden kann.

Dateisysteme der nächsten Generation: Archivierung und Zugriff

Obwohl das Konzept der Dateisysteme der nächsten Generation völlig theoretisch ist, adressiert es einige der größten Herausforderungen bei der Organisation von Daten. Ganz gleich, wie das endgültige Dateisystem morgen aussieht, es wird mit ziemlicher Sicherheit Techniken zur Datenreduzierung wie Deduplizierung (die bereits im NTFS-Dateisystem vorhanden ist) und eine transparente Archivierungsfunktion enthalten müssen. Mit dieser Funktion können abgerufene Altdaten transparent in ein Archivierungssystem überführt werden, während Benutzer im Bedarfsfall wie gewohnt auf die Daten zugreifen können. Auch hier gibt es heute Produkte, die dies können, aber ich spreche davon, diese Fähigkeiten in das Dateisystem aufzunehmen.

Sie können auch mögen