TIKA - 環境



本章將引導您完成在 Windows 和 Linux 上設定 Apache Tika 的過程。安裝 Apache Tika 時需要進行使用者管理。

系統要求

JDK Java SE 2 JDK 1.6 或更高版本
記憶體 1 GB RAM(推薦)
磁碟空間 無最低要求
作業系統版本 Windows XP 或更高版本,Linux

步驟 1:驗證 Java 安裝

要驗證 Java 安裝,請開啟控制檯並執行以下java命令。

作業系統 任務 命令
Windows 開啟命令控制檯 \>java –version
Linux 開啟命令終端 $java –version

如果 Java 已在您的系統上正確安裝,則您應該獲得以下輸出之一,具體取決於您正在使用的平臺。

作業系統 輸出
Windows

Java 版本 "1.7.0_60"

Java (TM) SE 執行時環境 (build 1.7.0_60-b19)

Java Hotspot (TM) 64 位伺服器 VM (build 24.60-b09, mixed mode)

Linux

java 版本 "1.7.0_25"

Open JDK 執行時環境 (rhel-2.3.10.4.el6_4-x86_64)

Open JDK 64 位伺服器 VM (build 23.7-b01, mixed mode)

步驟 2:設定 Java 環境

將 JAVA_HOME 環境變數設定為指向 Java 在您的計算機上安裝的基本目錄位置。例如,

作業系統 輸出
Windows 將環境變數 JAVA_HOME 設定為 C:\ProgramFiles\java\jdk1.7.0_60
Linux export JAVA_HOME = /usr/local/java-current

將 Java 編譯器位置的完整路徑附加到系統路徑。

作業系統 輸出
Windows 將字串;C:\Program Files\Java\jdk1.7.0_60\bin 附加到系統變數 PATH 的末尾。
Linux export PATH = $PATH:$JAVA_HOME/bin/

如上所述,從命令提示符驗證命令 java-version。

步驟 3:設定 Apache Tika 環境

程式設計師可以透過使用以下方法將其環境整合到 Apache Tika 中

  • 命令列,
  • Tika API,
  • Tika 的命令列介面 (CLI),
  • Tika 的圖形使用者介面 (GUI),或
  • 原始碼。

對於任何這些方法,首先,您必須下載 Tika 的原始碼。

您將在https://Tika.apache.org/download.html找到 Tika 的原始碼,您將找到兩個連結 -

  • apache-tika-1.6-src.zip - 它包含 Tika 的原始碼,以及

  • Tika -app-1.6.jar - 它是一個包含 Tika 應用程式的 jar 檔案。

下載這兩個檔案。下面顯示了 Tika 官方網站的快照。

Tika Environment

下載檔案後,為 jar 檔案tika-app-1.6.jar設定類路徑。新增 jar 檔案的完整路徑,如下表所示。

作業系統 輸出
Windows 將字串“C:\jars\Tika-app-1.6.jar”附加到使用者環境變數 CLASSPATH
Linux

Export CLASSPATH = $CLASSPATH −

/usr/share/jars/Tika-app-1.6.tar −

Apache 提供 Tika 應用程式,這是一個使用 Eclipse 的圖形使用者介面 (GUI) 應用程式。

使用 Eclipse 的 Tika-Maven 構建

m2e Release
  • 選擇最新版本並在 p2 url 列中儲存 url 的路徑。

  • 現在重新訪問 Eclipse,在選單欄中,單擊幫助,然後從下拉選單中選擇安裝新軟體

Eclipse
  • 單擊新增按鈕,鍵入任何所需的名稱,因為它是可選的。現在將儲存的 url 貼上到位置欄位中。

  • 將新增一個新的外掛,其名稱是您在上一步中選擇的,選中其前面的複選框,然後單擊下一步

Install
  • 繼續安裝。完成後,重新啟動 Eclipse。

  • 現在右鍵單擊專案,然後在配置選項中,選擇轉換為 Maven 專案

  • 將出現一個用於建立新 pom 的新嚮導。輸入 Group Id 為 org.apache.tika,輸入 Tika 的最新版本,選擇打包為 jar,然後單擊完成

Maven 專案已成功安裝,並且您的專案已轉換為 Maven。現在您必須配置 pom.xml 檔案。

配置 XML 檔案

https://mvnrepository.com/artifact/org.apache.tika獲取 Tika maven 依賴項

下面顯示了 Apache Tika 的完整 Maven 依賴項。

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>
廣告

© . All rights reserved.