Cargo actual:Index > Frente a Frente Comparativa de texto extracción Algoritmos

Frente a Frente Comparativa de texto extracción Algoritmos

Actualizado:10-19Fuente: consolidación de la red
Advertisement

Hace unos meses nos vinculamos a Tomaž Kova? i? 's visión de conjunto de algoritmos de extracción de texto . Ahora Kova? I? ha publicado una evaluación de varios algoritmos y servicios de extracción de texto , incluyendo Boilerpipe, nCleaner, el Python y versiones Node.js de legibilidad y la Extractiv API.

Frente a Frente Comparativa de texto extracción Algoritmos


Para llevar a cabo sus evaluaciones, Kova? I? utiliza el conjunto de datos cleaneval, que incluye 681 documentos, y un conjunto de datos de Google Noticias con 621 documentos recolectados por los autores de Boilerpipe.

Métricas para el conjunto de datos de Google Noticias

Frente a Frente Comparativa de texto extracción Algoritmos


Algunas notas:

NCleaner hizo mejor en su propio conjunto de datos Cleaneval de lo que hizo en el conjunto de datos de Google News, pero Boilerpipe hizo bien en ambos conjuntos.

Kova? I? ' fue sorprendido por los malos resultados de legibilidad, y toma nota de la discrepancia entre los dos puertos. Él piensa que la versión original JavaScript puede hacer mejor.

Las API comerciales tuvieron los resultados más consistentes.

Imagen de Andrew Mason