Elasticsearch: Ingest attachment plugin
Hoe gegevens uit PPT-, XLS- en PDF-bestanden naar Elasticsearch te extraheren
👋 Welkom bij de documentatie van Stackhero!
Stackhero biedt een kant-en-klare Elasticsearch cloud oplossing die tal van voordelen biedt, waaronder:
- Optimale prestaties en robuuste beveiliging aangedreven door een privé en toegewijde VM.
- Aanpasbare domeinnaam beveiligd met HTTPS encryptie ondersteuning.
Bespaar tijd en vereenvoudig uw leven: het kost slechts 5 minuten om de Elasticsearch cloud hosting oplossing van Stackhero te proberen!
De Ingest Attachment-plugin analyseert en extraheert metadata en tekst uit verschillende bestandsformaten, waaronder PowerPoint-presentaties, Excel-documenten en PDF's. Het maakt gebruik van Apache Tika, een krachtige tekstextractiebibliotheek. Voor een uitgebreide lijst van ondersteunde formaten, bezoek Tika's website.
Deze gids helpt u op weg met de plugin.
Voeg de plugin toe aan Elasticsearch
Activeer eerst de plugin in uw Stackhero Elasticsearch-configuratie:
- Ga naar het Elasticsearch-gedeelte in uw Stackhero-dashboard.
- Selecteer de plugin
ingest-attachmentuit de beschikbare opties.
Stackhero dashboard
Verklaar de pipeline voor bijlagen
Verklaar vervolgens de bijlagenpipeline in Elasticsearch. In dit voorbeeld wordt de inhoud die u wilt extraheren opgeslagen in het veld data:
PUT _ingest/pipeline/attachment
{
"description": "Bijlage-informatie extraheren",
"processors": [
{
"attachment": {
"field": "data"
}
}
]
}
We raden aan om de "Dev Tools" in Kibana te gebruiken voor een eenvoudige kopieer/plak-uitvoering van deze opdracht.
Dev tools Kibana
Voeg een document met een bijlage toe
Nu kunt u een document indexeren dat een bijlage bevat. Het document moet een data-veld bevatten dat de bestandinhoud in Base64 gecodeerd bevat. In dit voorbeeld is het document een RTF-bestand met de zin "This is the content of an RTF file":
PUT my_index/_doc/my_id?pipeline=attachment
{
"data": "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ=="
}
Haal het document met de bijlage-inhoud op
Om het verwerkte document te bekijken, haalt u het op met behulp van zijn ID:
GET my_index/_doc/my_id
De reactie zou er als volgt uit moeten zien:
{
"_index" : "my_index",
"_type" : "_doc",
"_id" : "my_id",
"_version" : 1,
"found" : true,
"_source" : {
"data" : "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ==",
"attachment" : {
"content_type" : "application/rtf",
"language" : "en",
"content" : "This is the content of a RTF file",
"content_length" : 35
}
}
}
Merk op dat het _source-veld nu zowel de originele Base64-gegevens als de geëxtraheerde bijlagegegevens zoals bestandstype en inhoud bevat.
Conclusie
De Ingest Attachment-plugin is een krachtig en gebruiksvriendelijk hulpmiddel voor het extraheren van inhoud en metadata uit verschillende bestandsformaten. Het integreert direct met Elasticsearch voor naadloze gegevensinvoer. Voor meer informatie, raadpleeg de officiële documentatie.