Elasticsearch: Plugin de Ingest attachment

Cómo extraer datos de archivos PPT, XLS y PDF a Elasticsearch

👋 ¡Bienvenido a la documentación de Stackhero!

Stackhero ofrece una solución Elasticsearch cloud lista para usar que proporciona una serie de beneficios, incluyendo:

Rendimiento óptimo y seguridad robusta impulsados por una VM privada y dedicada.

Nombre de dominio personalizable asegurado con soporte de cifrado HTTPS.

Ahorre tiempo y simplifique su vida: ¡solo toma 5 minutos probar la solución de Elasticsearch cloud hosting de Stackhero!

El plugin Ingest Attachment analiza y extrae metadatos y texto de varios formatos de archivo, incluidos presentaciones de PowerPoint, documentos de Excel y PDFs. Utiliza Apache Tika, una potente biblioteca de extracción de texto. Para una lista completa de formatos compatibles, visite el sitio web de Tika.

Esta guía le ayudará a comenzar con el plugin.

Añadir el plugin a Elasticsearch

Primero, active el plugin en su configuración de Stackhero Elasticsearch:

Vaya a la sección de Elasticsearch en su panel de control de Stackhero.
Seleccione el plugin ingest-attachment de las opciones disponibles.

Panel de control de Stackhero

Declarar el pipeline de adjuntos

A continuación, declare el pipeline de adjuntos en Elasticsearch. En este ejemplo, el contenido que desea extraer se almacena en el campo data:

PUT _ingest/pipeline/attachment
{
  "description": "Extraer información del adjunto",
  "processors": [
    {
      "attachment": {
        "field": "data"
      }
    }
  ]
}

Recomendamos usar las "Dev Tools" en Kibana para una ejecución sencilla de copiar/pegar de este comando.

Herramientas de desarrollo Kibana

Añadir un documento con un adjunto

Ahora puede indexar un documento que contiene un adjunto. El documento debe incluir un campo data que contenga el contenido del archivo codificado en Base64. En este ejemplo, el documento es un archivo RTF que contiene la frase "This is the content of an RTF file":

PUT my_index/_doc/my_id?pipeline=attachment
{
  "data": "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ=="
}

Recuperar el documento con el contenido del adjunto

Para ver el documento procesado, recupérelo usando su ID:

GET my_index/_doc/my_id

La respuesta debería ser similar a la siguiente:

{
  "_index" : "my_index",
  "_type" : "_doc",
  "_id" : "my_id",
  "_version" : 1,
  "found" : true,
  "_source" : {
    "data" : "e1xydGYxXGFuc2kKVGhpcyBpcyB0aGUgY29udGVudCBvZiBhIFJURiBmaWxlClxwYXIgfQ==",
    "attachment" : {
      "content_type" : "application/rtf",
      "language" : "en",
      "content" : "This is the content of a RTF file",
      "content_length" : 35
    }
  }
}

Observe que el campo _source ahora incluye tanto los datos originales en Base64 como los detalles del adjunto extraído, como el tipo de archivo y el contenido.

Conclusión

El plugin Ingest Attachment es una herramienta potente y fácil de usar para extraer contenido y metadatos de varios formatos de archivo. Se integra directamente con Elasticsearch para una ingesta de datos fluida. Para obtener más información, consulte la documentación oficial.