- TIKA 教程
- TIKA - 首頁
- TIKA - 概述
- TIKA - 架構
- TIKA - 環境
- TIKA - 參考 API
- TIKA - 檔案格式
- TIKA - 文件型別檢測
- TIKA - 內容提取
- TIKA - 元資料提取
- TIKA - 語言檢測
- TIKA - GUI
- TIKA 有用資源
- TIKA - 快速指南
- TIKA - 有用資源
- TIKA - 討論
TIKA - 環境
本章將引導您完成在 Windows 和 Linux 上設定 Apache Tika 的過程。安裝 Apache Tika 時需要進行使用者管理。
系統要求
| JDK | Java SE 2 JDK 1.6 或更高版本 |
| 記憶體 | 1 GB RAM(推薦) |
| 磁碟空間 | 無最低要求 |
| 作業系統版本 | Windows XP 或更高版本,Linux |
步驟 1:驗證 Java 安裝
要驗證 Java 安裝,請開啟控制檯並執行以下java命令。
| 作業系統 | 任務 | 命令 |
|---|---|---|
| Windows | 開啟命令控制檯 | \>java –version |
| Linux | 開啟命令終端 | $java –version |
如果 Java 已在您的系統上正確安裝,則您應該獲得以下輸出之一,具體取決於您正在使用的平臺。
| 作業系統 | 輸出 |
|---|---|
| Windows | Java 版本 "1.7.0_60"
Java (TM) SE 執行時環境 (build 1.7.0_60-b19) Java Hotspot (TM) 64 位伺服器 VM (build 24.60-b09, mixed mode) |
| Linux | java 版本 "1.7.0_25" Open JDK 執行時環境 (rhel-2.3.10.4.el6_4-x86_64) Open JDK 64 位伺服器 VM (build 23.7-b01, mixed mode) |
我們假設本教程的讀者在繼續本教程之前已在其系統上安裝了 Java 1.7.0_60。
如果您沒有 Java SDK,請從https://www.oracle.com/technetwork/java/javase/downloads/index.html 下載並安裝其當前版本。
步驟 2:設定 Java 環境
將 JAVA_HOME 環境變數設定為指向 Java 在您的計算機上安裝的基本目錄位置。例如,
| 作業系統 | 輸出 |
|---|---|
| Windows | 將環境變數 JAVA_HOME 設定為 C:\ProgramFiles\java\jdk1.7.0_60 |
| Linux | export JAVA_HOME = /usr/local/java-current |
將 Java 編譯器位置的完整路徑附加到系統路徑。
| 作業系統 | 輸出 |
|---|---|
| Windows | 將字串;C:\Program Files\Java\jdk1.7.0_60\bin 附加到系統變數 PATH 的末尾。 |
| Linux | export PATH = $PATH:$JAVA_HOME/bin/ |
如上所述,從命令提示符驗證命令 java-version。
步驟 3:設定 Apache Tika 環境
程式設計師可以透過使用以下方法將其環境整合到 Apache Tika 中
- 命令列,
- Tika API,
- Tika 的命令列介面 (CLI),
- Tika 的圖形使用者介面 (GUI),或
- 原始碼。
對於任何這些方法,首先,您必須下載 Tika 的原始碼。
您將在https://Tika.apache.org/download.html找到 Tika 的原始碼,您將找到兩個連結 -
apache-tika-1.6-src.zip - 它包含 Tika 的原始碼,以及
Tika -app-1.6.jar - 它是一個包含 Tika 應用程式的 jar 檔案。
下載這兩個檔案。下面顯示了 Tika 官方網站的快照。
下載檔案後,為 jar 檔案tika-app-1.6.jar設定類路徑。新增 jar 檔案的完整路徑,如下表所示。
| 作業系統 | 輸出 |
|---|---|
| Windows | 將字串“C:\jars\Tika-app-1.6.jar”附加到使用者環境變數 CLASSPATH |
| Linux | Export CLASSPATH = $CLASSPATH − /usr/share/jars/Tika-app-1.6.tar − |
Apache 提供 Tika 應用程式,這是一個使用 Eclipse 的圖形使用者介面 (GUI) 應用程式。
使用 Eclipse 的 Tika-Maven 構建
開啟 Eclipse 並建立一個新專案。
如果您在 Eclipse 中沒有 Maven,請按照以下步驟進行設定。
開啟連結 https://wiki.eclipse.org/M2E_updatesite_and_gittags。您將在表格格式中找到 m2e 外掛版本
選擇最新版本並在 p2 url 列中儲存 url 的路徑。
現在重新訪問 Eclipse,在選單欄中,單擊幫助,然後從下拉選單中選擇安裝新軟體
單擊新增按鈕,鍵入任何所需的名稱,因為它是可選的。現在將儲存的 url 貼上到位置欄位中。
將新增一個新的外掛,其名稱是您在上一步中選擇的,選中其前面的複選框,然後單擊下一步。
繼續安裝。完成後,重新啟動 Eclipse。
現在右鍵單擊專案,然後在配置選項中,選擇轉換為 Maven 專案。
將出現一個用於建立新 pom 的新嚮導。輸入 Group Id 為 org.apache.tika,輸入 Tika 的最新版本,選擇打包為 jar,然後單擊完成。
Maven 專案已成功安裝,並且您的專案已轉換為 Maven。現在您必須配置 pom.xml 檔案。
配置 XML 檔案
從 https://mvnrepository.com/artifact/org.apache.tika獲取 Tika maven 依賴項
下面顯示了 Apache Tika 的完整 Maven 依賴項。
<dependency> <groupId>org.apache.Tika</groupId> <artifactId>Tika-core</artifactId> <version>1.6</version> <groupId>org.apache.Tika</groupId> <artifactId> Tika-parsers</artifactId> <version> 1.6</version> <groupId> org.apache.Tika</groupId> <artifactId>Tika</artifactId> <version>1.6</version> <groupId>org.apache.Tika</groupId> < artifactId>Tika-serialization</artifactId> < version>1.6< /version> < groupId>org.apache.Tika< /groupId> < artifactId>Tika-app< /artifactId> < version>1.6< /version> <groupId>org.apache.Tika</groupId> <artifactId>Tika-bundle</artifactId> <version>1.6</version> </dependency>