Elasticsearch: Ingest Attachment Plugin

Wie man Daten aus PPT-, XLS- und PDF-Dateien in Elasticsearch extrahiert

👋 Willkommen in der Stackhero-Dokumentation!

Stackhero bietet eine einsatzbereite Elasticsearch Cloud Lösung, die zahlreiche Vorteile bietet, darunter:

  • Optimale Performance und robuste Sicherheit durch eine private und dedizierte VM.
  • Anpassbarer Domainname gesichert mit HTTPS-Verschlüsselung.

Sparen Sie Zeit und vereinfachen Sie Ihr Leben: Es dauert nur 5 Minuten, um die Elasticsearch Cloud Hosting Lösung von Stackhero auszuprobieren!

Das Ingest Attachment Plugin analysiert und extrahiert Metadaten und Text aus verschiedenen Dateiformaten, einschließlich PowerPoint-Präsentationen, Excel-Dokumenten und PDFs. Es nutzt Apache Tika, eine leistungsstarke Text-Extraktionsbibliothek. Für eine vollständige Liste der unterstützten Formate besuchen Sie bitte Tikas Website.

Dieser Leitfaden hilft Ihnen beim Einstieg in das Plugin.

Aktivieren Sie zuerst das Plugin in Ihrer Stackhero Elasticsearch-Konfiguration:

  1. Gehen Sie zum Elasticsearch-Bereich in Ihrem Stackhero-Dashboard.
  2. Wählen Sie das Plugin ingest-attachment aus den verfügbaren Optionen aus.

Stackhero-DashboardStackhero-Dashboard

Deklarieren Sie als Nächstes die Anhangs-Pipeline in Elasticsearch. In diesem Beispiel wird der Inhalt, den Sie extrahieren möchten, im Feld data gespeichert:

PUT _ingest/pipeline/attachment
{
  "description": "Anhangsinformationen extrahieren",
  "processors": [
    {
      "attachment": {
        "field": "data"
      }
    }
  ]
}

Wir empfehlen die Verwendung der "Dev Tools" in Kibana für eine einfache Kopier-/Einführe-Ausführung dieses Befehls.

Dev Tools KibanaDev Tools Kibana

Jetzt können Sie ein Dokument indexieren, das einen Anhang enthält. Das Dokument sollte ein data-Feld enthalten, das den Dateiinhalte in Base64 kodiert hält. In diesem Beispiel ist das Dokument eine RTF-Datei mit dem Satz "This is the content of an RTF file":

PUT my_index/_doc/my_id?pipeline=attachment
{
  "data": "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ=="
}

Um das verarbeitete Dokument anzuzeigen, rufen Sie es mit seiner ID ab:

GET my_index/_doc/my_id

Die Antwort sollte folgendermaßen aussehen:

{
  "_index" : "my_index",
  "_type" : "_doc",
  "_id" : "my_id",
  "_version" : 1,
  "found" : true,
  "_source" : {
    "data" : "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ==",
    "attachment" : {
      "content_type" : "application/rtf",
      "language" : "en",
      "content" : "This is the content of a RTF file",
      "content_length" : 35
    }
  }
}

Beachten Sie, dass das _source-Feld jetzt sowohl die ursprünglichen Base64-Daten als auch die extrahierten Anhangsdetails wie Dateityp und Inhalt enthält.

Das Ingest Attachment Plugin ist ein leistungsstarkes und benutzerfreundliches Werkzeug zur Extraktion von Inhalten und Metadaten aus verschiedenen Dateiformaten. Es integriert sich direkt in Elasticsearch für eine nahtlose Datenaufnahme. Für weitere Informationen konsultieren Sie bitte die offizielle Dokumentation.