Elasticsearch: Plugin de Ingest attachment

Cómo extraer datos de archivos PPT, XLS y PDF a Elasticsearch

👋 ¡Bienvenido a la documentación de Stackhero!

Stackhero ofrece una solución Elasticsearch cloud lista para usar que proporciona una serie de beneficios, incluyendo:

  • Rendimiento óptimo y seguridad robusta impulsados por una VM privada y dedicada.
  • Nombre de dominio personalizable asegurado con soporte de cifrado HTTPS.

Ahorre tiempo y simplifique su vida: ¡solo toma 5 minutos probar la solución de Elasticsearch cloud hosting de Stackhero!

El plugin Ingest Attachment analiza y extrae metadatos y texto de varios formatos de archivo, incluidos presentaciones de PowerPoint, documentos de Excel y PDFs. Utiliza Apache Tika, una potente biblioteca de extracción de texto. Para una lista completa de formatos compatibles, visite el sitio web de Tika.

Esta guía le ayudará a comenzar con el plugin.

Primero, active el plugin en su configuración de Stackhero Elasticsearch:

  1. Vaya a la sección de Elasticsearch en su panel de control de Stackhero.
  2. Seleccione el plugin ingest-attachment de las opciones disponibles.

Panel de control de StackheroPanel de control de Stackhero

A continuación, declare el pipeline de adjuntos en Elasticsearch. En este ejemplo, el contenido que desea extraer se almacena en el campo data:

PUT _ingest/pipeline/attachment
{
  "description": "Extraer información del adjunto",
  "processors": [
    {
      "attachment": {
        "field": "data"
      }
    }
  ]
}

Recomendamos usar las "Dev Tools" en Kibana para una ejecución sencilla de copiar/pegar de este comando.

Herramientas de desarrollo KibanaHerramientas de desarrollo Kibana

Ahora puede indexar un documento que contiene un adjunto. El documento debe incluir un campo data que contenga el contenido del archivo codificado en Base64. En este ejemplo, el documento es un archivo RTF que contiene la frase "This is the content of an RTF file":

PUT my_index/_doc/my_id?pipeline=attachment
{
  "data": "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ=="
}

Para ver el documento procesado, recupérelo usando su ID:

GET my_index/_doc/my_id

La respuesta debería ser similar a la siguiente:

{
  "_index" : "my_index",
  "_type" : "_doc",
  "_id" : "my_id",
  "_version" : 1,
  "found" : true,
  "_source" : {
    "data" : "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ==",
    "attachment" : {
      "content_type" : "application/rtf",
      "language" : "en",
      "content" : "This is the content of a RTF file",
      "content_length" : 35
    }
  }
}

Observe que el campo _source ahora incluye tanto los datos originales en Base64 como los detalles del adjunto extraído, como el tipo de archivo y el contenido.

El plugin Ingest Attachment es una herramienta potente y fácil de usar para extraer contenido y metadatos de varios formatos de archivo. Se integra directamente con Elasticsearch para una ingesta de datos fluida. Para obtener más información, consulte la documentación oficial.