- TIKA 教程
- TIKA - 首頁
- TIKA - 概覽
- TIKA - 架構
- TIKA - 環境
- TIKA - 參考 API
- TIKA - 檔案格式
- TIKA - 文件型別檢測
- TIKA - 內容提取
- TIKA - 元資料提取
- TIKA - 語言檢測
- TIKA - GUI
- TIKA 有用資源
- TIKA - 快速指南
- TIKA - 有用資源
- TIKA - 討論
TIKA - 概覽
什麼是 Apache Tika?
Apache Tika 是一個用於從各種檔案格式檢測文件型別和提取內容的庫。
在內部,Tika 使用現有的各種文件解析器和文件型別檢測技術來檢測和提取資料。
使用 Tika,可以開發一個通用的型別檢測器和內容提取器,從不同型別的文件(如電子表格、文字文件、影像、PDF 甚至多媒體輸入格式)中提取結構化文字和元資料。
Tika 為解析不同的檔案格式提供了一個單一的通用 API。它為每種文件型別使用現有的專用解析器庫。
所有這些解析器庫都封裝在一個名為 **Parser 介面** 的單一介面下。
為什麼選擇 Tika?
根據 filext.com 的資料,大約有 15k 到 51k 種內容型別,而且這個數字每天都在增長。資料以各種格式儲存,例如文字文件、Excel 電子表格、PDF、影像和多媒體檔案,僅舉幾例。因此,像搜尋引擎和內容管理系統這樣的應用程式需要額外的支援,以便輕鬆地從這些文件型別中提取資料。Apache Tika 透過提供一個通用 API 來定位和提取來自多種檔案格式的資料來實現此目的。
Apache Tika 應用
有各種應用程式使用 Apache Tika。在這裡,我們將討論一些嚴重依賴 Apache Tika 的突出應用程式。
搜尋引擎
在開發搜尋引擎以索引數字文件的文字內容時,廣泛使用 Tika。
搜尋引擎是資訊處理系統,旨在從 Web 中搜索資訊和索引文件。
爬蟲是搜尋引擎的一個重要組成部分,它爬行 Web 以獲取要使用某種索引技術進行索引的文件。此後,爬蟲將這些索引文件傳輸到提取元件。
提取元件的職責是從文件中提取文字和元資料。此類提取的內容和元資料對搜尋引擎非常有用。此提取元件包含 Tika。
然後將提取的內容傳遞給搜尋引擎的索引器,後者使用它來構建搜尋索引。除此之外,搜尋引擎還以多種其他方式使用提取的內容。
文件分析
在人工智慧領域,有一些工具可以自動在語義級別分析文件並從中提取各種資料。
在這些應用程式中,文件根據文件提取內容中的突出術語進行分類。
這些工具利用 Tika 進行內容提取來分析從純文字到數字文件的各種文件。
數字資產管理
一些組織使用稱為數字資產管理 (DAM) 的特殊應用程式來管理其數字資產,例如照片、電子書、圖紙、音樂和影片。
此類應用程式藉助文件型別檢測器和元資料提取器對各種文件進行分類。
內容分析
像亞馬遜這樣的網站會根據使用者的興趣向個人使用者推薦其網站上新發布的內容。為此,這些網站會遵循 **機器學習技術**,或藉助 Facebook 等社交媒體網站提取所需資訊,例如使用者的點贊和興趣。收集到的資訊將以 html 標籤或其他需要進一步內容型別檢測和提取的格式存在。
對於文件的內容分析,我們擁有實現機器學習技術的技術,例如 **UIMA** 和 **Mahout**。這些技術可用於對文件中的資料進行聚類和分析。
**Apache Mahout** 是一個框架,它在 Apache Hadoop(一個雲計算平臺)上提供 ML 演算法。Mahout 透過遵循某些聚類和過濾技術來提供架構。透過遵循此架構,程式設計師可以編寫自己的 ML 演算法,透過採用各種文字和元資料組合來生成推薦。為了向這些演算法提供輸入,Mahout 的最新版本使用 Tika 從二進位制內容中提取文字和元資料。
**Apache UIMA** 分析和處理各種程式語言並生成 UIMA 註釋。它在內部使用 Tika Annotator 來提取文件文字和元資料。
歷史
| 年份 | 開發 |
|---|---|
| 2006 | Tika 的想法在 Lucene 專案管理委員會之前就被提出了。 |
| 2006 | 討論了 Tika 的概念及其在 Jackrabbit 專案中的作用。 |
| 2007 | Tika 進入 Apache 孵化器。 |
| 2008 | 釋出了 0.1 版和 0.2 版,Tika 從孵化器畢業到 Lucene 子專案。 |
| 2009 | 釋出了 0.3 版、0.4 版和 0.5 版。 |
| 2010 | 釋出了 0.6 版和 0.7 版,Tika 畢業成為頂級 Apache 專案。 |
| 2011 | 釋出了 Tika 1.0 版,同年還發布了關於 Tika 的書籍“Tika in Action”。 |