Elasticsearch: Ingest attachment plugin

Hoe gegevens uit PPT-, XLS- en PDF-bestanden naar Elasticsearch te extraheren

👋 Welkom bij de documentatie van Stackhero!

Stackhero biedt een kant-en-klare Elasticsearch cloud oplossing die tal van voordelen biedt, waaronder:

  • Optimale prestaties en robuuste beveiliging aangedreven door een privé en toegewijde VM.
  • Aanpasbare domeinnaam beveiligd met HTTPS encryptie ondersteuning.

Bespaar tijd en vereenvoudig uw leven: het kost slechts 5 minuten om de Elasticsearch cloud hosting oplossing van Stackhero te proberen!

De Ingest Attachment-plugin analyseert en extraheert metadata en tekst uit verschillende bestandsformaten, waaronder PowerPoint-presentaties, Excel-documenten en PDF's. Het maakt gebruik van Apache Tika, een krachtige tekstextractiebibliotheek. Voor een uitgebreide lijst van ondersteunde formaten, bezoek Tika's website.

Deze gids helpt u op weg met de plugin.

Activeer eerst de plugin in uw Stackhero Elasticsearch-configuratie:

  1. Ga naar het Elasticsearch-gedeelte in uw Stackhero-dashboard.
  2. Selecteer de plugin ingest-attachment uit de beschikbare opties.

Stackhero dashboardStackhero dashboard

Verklaar vervolgens de bijlagenpipeline in Elasticsearch. In dit voorbeeld wordt de inhoud die u wilt extraheren opgeslagen in het veld data:

PUT _ingest/pipeline/attachment
{
  "description": "Bijlage-informatie extraheren",
  "processors": [
    {
      "attachment": {
        "field": "data"
      }
    }
  ]
}

We raden aan om de "Dev Tools" in Kibana te gebruiken voor een eenvoudige kopieer/plak-uitvoering van deze opdracht.

Dev tools KibanaDev tools Kibana

Nu kunt u een document indexeren dat een bijlage bevat. Het document moet een data-veld bevatten dat de bestandinhoud in Base64 gecodeerd bevat. In dit voorbeeld is het document een RTF-bestand met de zin "This is the content of an RTF file":

PUT my_index/_doc/my_id?pipeline=attachment
{
  "data": "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ=="
}

Om het verwerkte document te bekijken, haalt u het op met behulp van zijn ID:

GET my_index/_doc/my_id

De reactie zou er als volgt uit moeten zien:

{
  "_index" : "my_index",
  "_type" : "_doc",
  "_id" : "my_id",
  "_version" : 1,
  "found" : true,
  "_source" : {
    "data" : "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ==",
    "attachment" : {
      "content_type" : "application/rtf",
      "language" : "en",
      "content" : "This is the content of a RTF file",
      "content_length" : 35
    }
  }
}

Merk op dat het _source-veld nu zowel de originele Base64-gegevens als de geëxtraheerde bijlagegegevens zoals bestandstype en inhoud bevat.

De Ingest Attachment-plugin is een krachtig en gebruiksvriendelijk hulpmiddel voor het extraheren van inhoud en metadata uit verschillende bestandsformaten. Het integreert direct met Elasticsearch voor naadloze gegevensinvoer. Voor meer informatie, raadpleeg de officiële documentatie.