Elasticsearch: Priedo įkėlimo įskiepis
Kaip išgauti duomenis iš PPT, XLS ir PDF failų į Elasticsearch
👋 Sveiki atvykę į Stackhero dokumentaciją!
Stackhero siūlo paruoštą naudoti Elasticsearch cloud sprendimą, kuris suteikia daugybę privalumų, įskaitant:
- Optimalų veikimą ir tvirtą saugumą, užtikrinamą privačios ir dedikuotos VM.
- Pritaikomas domeno vardas, apsaugotas HTTPS šifravimo palaikymu.
Taupykite laiką ir supaprastinkite savo gyvenimą: tereikia 5 minučių, kad išbandytumėte Stackhero Elasticsearch cloud hosting sprendimą!
Ingest Attachment įskiepis analizuoja ir išgauna metaduomenis bei tekstą iš įvairių failų formatų, įskaitant PowerPoint pristatymus, Excel dokumentus ir PDF. Jis naudoja Apache Tika, galingą teksto išgavimo biblioteką. Išsamų palaikomų formatų sąrašą rasite Tika svetainėje.
Šis vadovas padės jums pradėti naudotis įskiepiu.
Pridėti įskiepį prie Elasticsearch
Pirmiausia, įgalinkite įskiepį savo Stackhero Elasticsearch konfigūracijoje:
- Eikite į Elasticsearch skyrių savo Stackhero prietaisų skydelyje.
- Pasirinkite įskiepį
ingest-attachmentiš galimų parinkčių.
Stackhero prietaisų skydelis
Deklaruoti priedo vamzdyną
Toliau deklaruokite priedo vamzdyną Elasticsearch. Šiame pavyzdyje turinys, kurį norite išgauti, yra saugomas lauke data:
PUT _ingest/pipeline/attachment
{
"description": "Išgauti priedo informaciją",
"processors": [
{
"attachment": {
"field": "data"
}
}
]
}
Rekomenduojame naudoti "Dev Tools" Kibana, kad paprastai nukopijuotumėte ir įklijuotumėte šią komandą.
Kibana kūrimo įrankiai
Pridėti dokumentą su priedu
Dabar galite indeksuoti dokumentą, kuriame yra priedas. Dokumentas turi turėti data lauką, kuriame yra failo turinys, užkoduotas Base64. Šiame pavyzdyje dokumentas yra RTF failas, kuriame yra sakinys "This is the content of an RTF file":
PUT my_index/_doc/my_id?pipeline=attachment
{
"data": "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ=="
}
Gauti dokumentą su priedo turiniu
Norėdami peržiūrėti apdorotą dokumentą, gaukite jį naudodami jo ID:
GET my_index/_doc/my_id
Atsakymas turėtų atrodyti panašiai kaip šis:
{
"_index" : "my_index",
"_type" : "_doc",
"_id" : "my_id",
"_version" : 1,
"found" : true,
"_source" : {
"data" : "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ==",
"attachment" : {
"content_type" : "application/rtf",
"language" : "en",
"content" : "This is the content of a RTF file",
"content_length" : 35
}
}
}
Atkreipkite dėmesį, kad _source laukas dabar apima tiek originalius Base64 duomenis, tiek išgautus priedo duomenis, tokius kaip failo tipas ir turinys.
Išvada
Ingest Attachment įskiepis yra galingas ir patogus įrankis turiniui ir metaduomenims išgauti iš įvairių failų formatų. Jis tiesiogiai integruojasi su Elasticsearch, kad būtų užtikrintas sklandus duomenų įkėlimas. Daugiau informacijos rasite oficialioje dokumentacijoje.