Last Updated:

Apache Tika 2.3 发布

银狐

Apache Tika项目的维护者是开源的、基于 Java 的内容检测和分析框架,最近宣布发布 Tika 2.3.0。

此版本附带了几个依赖项的安全升级,包括升级到 log4j2(版本 2.17.1)。它还包括对 Apache POI 5.2.0 (TIKA-3164) 的重要升级。“用户将观察到来自 POI 解析器的显着更多日志记录,”长期项目提交者 Tim Allison 在项目邮件列表页面上写道。Allison 补充说,发布内容已被推送到主要的 Apache 发布站点和 Maven Central 同步。

Apache Tika 工具包旨在从1,400多种不同的文件类型中检测和提取元数据和结构化文本内容。数据以数千种格式存储,从文本文档和 Excel 电子表格到 JPEG 图像和多媒体文件。因此,搜索引擎和内容管理系统需要额外的支持来从这些文档类型中有效地提取数据。Apache Tika 通过用于解析不同文件格式的通用 API 提供这种支持。它为每种文档类型使用现有的专用解析器库。

Tika 广泛用于搜索引擎、文档分析解决方案、数字资产管理工具和内容分析组件。尽管它是用 Java 编写的,但 Tika 被其他语言广泛使用。例如,Tika-Python 是 Python 绑定到 Apache TikaTM REST 服务,它允许在 Python 中本地调用 Tika。

这个 16 年多的项目由 Apache 软件基金会 (ASF) 管理。它以前是Apache Lucene的子项目,这是一个 Java 库,旨在提供索引和搜索功能,以及拼写检查、命中突出显示和高级分析/标记化功能。

Apache Tika 可在下载页面上找到。它也以二进制形式提供,或使用来自Central Repository的 Maven 2 使用。