Bitte beantworten Sie die folgende Frage: Was haben Ordner voller Excel-Tabellen, E-Mails, Texten und PDF-Dokumenten gemeinsam?
- Sie haben nichts miteinander gemeinsam.
- Sie werden in keinem von ihnen jenen Wert wiederfinden, der Ihnen im Hinterkopf herumspukt.
- Es ist nicht mehr recht ersichtlich, nach welchen Kriterien das Dokument an der betreffenden Stelle abgelegt wurde.
- Es ist nicht bekannt, wie viele Kopien jedes Dokument besitzt.
- Alle Möglichkeiten sind richtig.
In einer Studie (hier der Link zu einer Pressemeldung dazu) wurden Führungskräfte gefragt, wie hoch sie den Anteil derartiger unstrukturierter Datensammlungen einschätzen. Deutsche Führungskräfte schätzten den Anteil unter 20%, während man in der Branche selbst von 70% ausgeht – nur die übrigen 30% seien Daten, die in verwertbar strukturierter Form in Datenbanken, etwa CRM-Systemen oder Warenlisten, eingetragen sind.
Ich nenne eine solche Kollektion einen Elefantenfriedhof. Wie leicht mehrere Kopien auch an sich unbearbeitbarer Dokumente wie PDF-Dateien zusammenkommen können, zeigt das folgende Beispiel:
Sie finden einen interessanten Aufsatz als PDF oder bestellen ihn bei einem Dokumentenlieferdienst. Ist er einmal auf Ihrem Rechner, speichern Sie ihn im Ordner „Fachartikel“ o. ä. Dann tragen Sie ihn in eine Literaturverwaltung, beispielsweise in EndNote, ein. EndNote kopiert sich die Datei in einen eigenen Ordner – was man hat, das hat man! Irgendwann machen Sie auch mal ein Backup, und presto! sind aus einer Datei schon vier geworden (oder auch sechs, wenn Ihr Mailprogramm Dateianlagen speichert). Furchterregend, aber wahr.
Was kann man mit einem viele zig oder hundert Gigabite schweren Haufen von Dateien anfangen? Normalerweise sind ganz verschiedene Formate wie E-Mails, Dokumente aus Textverarbeitung und Tabellenkalkulationen, Präsentationen und PDFs vorhanden, um nur die wichtigsten zu nennen.
- Auf unterstem Anspruchsniveau möchten Sie nur Dokumente im Volltext durchsuchen können, um bestimmte Dokumente wiederzufinden.
- Sind Sie eher der visionäre Typ, dann möchten Sie alle diese Informationsschätze zu einer höheren Wahrheit organisieren. Etwa, indem Sie den E-Mail-Verkehr Ihres Kundendienstes, eigene Fachartikel und die der Konkurrenz sowie die Inhalte von Twitter-Feeds auswerten, um den sagenhaften Ansatzpunkt zu finden, an dem Sie Ihr Produkt weit über das Konkurrenzniveau hinaushebeln können.
So etwas nennt sich Data Mining oder auch Text Mining. Wolfram Alpha (über das schon anderweitig geschrieben wurde) definiert Data Mining so: „Data processing using sophisticated data search capabilities and statistical algorithms to discover patterns and correlations in large preexisting databases; a way to discover new meaning in data.“
Dabei geht es darum, regelmäßig wiederkehrende Muster, Gruppen, Abhängigkeiten oder Häufigkeiten aufzufinden. In ähnlicher Form wird das beim Patent Mining ebenfalls durchgeführt, nur dass dort eine Anzahl bibliografischer Felder mit vordefinierter Bedeutung vorhanden ist. Das erleichtert die Sache gewaltig. Wenn als Land „Ungarn“ angegeben ist, braucht keine Software zu entscheiden, ob die Publikation aus Ungarn oder über Ungarn ist. Zudem ist ein Patent strukturell wie das andere aufgebaut.
Das kleine Beispiel zeigt schon, wie komplex die ganze Sache wirklich ist (Siehe z. B. „Unstructured Data: Reading Between the Lines„, „Data mining: Three steps to mining unstructured data“ und viele andere mehr; die meisten verständlichen Texte sind leider Werbetexte entsprechender Anbieter). Text Mining ist dagegen etwas, das das menschliche Gehirn recht gut beherrscht – wenn es denn dazu gebracht werden kann, sich mit Festplatten voller Daten zu befassen und dabei seine persönlichen Vorurteile und Interessen außen vor zu lassen.
Durchblick durch die eigene Sammlung
Selbst erstellte Dokumente lassen sich mit Metadaten wie Kommentaren, Schlagworten, Zeitstempeln etc. versehen, die das spätere Suchen erleichtern können. Bei PDFs geht das meistens nicht, zumindest nicht mit dem gewöhnlichen Reader. Da bleibt also nur die Volltextsuche. Über die Jahre habe ich drei verschiedene Programme getestet, die meine gesammelten Dokumentenhaufen indiziert und im Volltext durchsuchbar gemacht haben, nämlich:
Alle drei Programme erstellen eine Datenbank über die Inhalte der indizierten Dokumente, und zwar über den Volltext, wo möglich, bzw. (wie etwa bei MP3, Video- oder Bilddateien) über die Metadaten und Dateinamen. Sie müssen beständig im Hintergrund mitlaufen, um auf dem Laufenden zu bleiben, außer Xfriend: Das indiziert periodisch nach einem Zeitplan. Die erste Indizierung kann schon mal mehrere Stunden dauern.
Von diesen dreien fand ich persönlich Xfriend am besten, da die Qualität der Suchergebnisse, die große Vielfalt der Dateitypen und die freie Anpassbarkeit der Indizierungskriterien von den anderen beiden Programmen einfach nicht erreicht wird. Allerdings nervt es etwas, wenn man nicht vom Administratorenkonto aus arbeitet: Bei einem gewöhnlichen Benutzerkonto kann es nicht auf den benötigten Port zugreifen, da hilt dann nur, das Programm „als Administrator“ auszuführen (nach Rechtsklick).
Google Desktop ist kostenlos und sicherlich ziemlich schnell, aber dafür relativ eingeschränkt. Wechseldatenträger können nicht indiziert werden, und OpenOffice-Dateien zum Beispiel auch nicht. Verzeichnisse können nicht hinzugefügt oder ausgeschlossen werden.
Copernic Desktop Search indiziert eine große Vielfalt von Dateitypen und liefert gute Suchergebnisse, so dass ich mich nur schwer davon getrennt habe, aber dieses Programm bremste mir den Computer derartig aus, dass es störend wurde. Bei Xfriend merkt man auch während der Indizierung nicht viel Belastung am Rechner.
Das waren XP-Zeiten. Ich werde ergänzen, wie sich Xfriend unter Windows 7 schlägt.
[…] genau fünf Jahren, im Mai 2010, habe ich im Beitrag „Elefantenfriedhof“ drei Desktop-Suchmaschinen vorgestellt, die es möglich machen, Daten und Dateien auf dem […]