Hace unos meses nos vinculamos a Tomaž Kova? i? 's visión de conjunto de algoritmos de extracción de texto . Ahora Kova? I? ha publicado una evaluación de varios algoritmos y servicios de extracción de texto , incluyendo Boilerpipe, nCleaner, el Python y versiones Node.js de legibilidad y la Extractiv API.
Para llevar a cabo sus evaluaciones, Kova? I? utiliza el conjunto de datos cleaneval, que incluye 681 documentos, y un conjunto de datos de Google Noticias con 621 documentos recolectados por los autores de Boilerpipe.
Métricas para el conjunto de datos de Google Noticias
Algunas notas:
NCleaner hizo mejor en su propio conjunto de datos Cleaneval de lo que hizo en el conjunto de datos de Google News, pero Boilerpipe hizo bien en ambos conjuntos.
Kova? I? ' fue sorprendido por los malos resultados de legibilidad, y toma nota de la discrepancia entre los dos puertos. Él piensa que la versión original JavaScript puede hacer mejor.
Las API comerciales tuvieron los resultados más consistentes.