- TIKA 教程
- TIKA - 首頁
- TIKA - 概述
- TIKA - 架構
- TIKA - 環境
- TIKA - 參考 API
- TIKA - 檔案格式
- TIKA - 文件型別檢測
- TIKA - 內容提取
- TIKA - 元資料提取
- TIKA - 語言檢測
- TIKA - 圖形使用者介面 (GUI)
- TIKA 有用資源
- TIKA - 快速指南
- TIKA - 有用資源
- TIKA - 討論
TIKA - 參考 API
使用者可以使用 Tika facade 類將 Tika 嵌入他們的應用程式中。它具有探索 Tika 所有功能的方法。因為它是一個 facade 類,所以 Tika 隱藏了其功能背後的複雜性。除此之外,使用者還可以將 Tika 的各種類用於他們的應用程式。
Tika 類 (facade)
這是 Tika 庫中最突出的類,遵循外觀設計模式。因此,它抽象了所有內部實現,並提供簡單的訪問 Tika 功能的方法。下表列出了此類的建構函式及其描述。
包 − org.apache.tika
類 − Tika
| 序號 | 建構函式和描述 |
|---|---|
| 1 |
Tika () 使用預設配置並構造 Tika 類。 |
| 2 |
Tika (Detector detector) 透過接受檢測器例項作為引數來建立 Tika facade。 |
| 3 |
Tika (Detector detector, Parser parser) 透過接受檢測器和解析器例項作為引數來建立 Tika facade。 |
| 4 |
Tika (Detector detector, Parser parser, Translator translator) 透過接受檢測器、解析器和翻譯器例項作為引數來建立 Tika facade。 |
| 5 |
Tika (TikaConfig config) 透過接受 TikaConfig 類的物件作為引數來建立 Tika facade。 |
方法和描述
以下是 Tika facade 類的重要方法:
| 序號 | 方法和描述 |
|---|---|
| 1 |
parseToString (File file) 此方法及其所有變體解析作為引數傳遞的檔案,並以 String 格式返回提取的文字內容。預設情況下,此字串引數的長度是有限制的。 |
| 2 |
int getMaxStringLength () 返回 parseToString 方法返回的字串的最大長度。 |
| 3 |
void setMaxStringLength (int maxStringLength) 設定 parseToString 方法返回的字串的最大長度。 |
| 4 |
Reader parse (File file) 此方法及其所有變體解析作為引數傳遞的檔案,並以 java.io.reader 物件的形式返回提取的文字內容。 |
| 5 |
String detect (InputStream stream, Metadata metadata) 此方法及其所有變體接受 InputStream 物件和 Metadata 物件作為引數,檢測給定文件的型別,並以 String 物件返回文件型別名稱。此方法抽象了 Tika 使用的檢測機制。 |
| 6 |
String translate (InputStream text, String targetLanguage) 此方法及其所有變體接受 InputStream 物件和一個表示我們想要將文字翻譯成的語言的字串,並將給定文字翻譯成所需的語言,嘗試自動檢測源語言。 |
Parser 介面
這是 Tika 包的所有解析器類實現的介面。
包 − org.apache.tika.parser
介面 − Parser
方法和描述
以下是 Tika Parser 介面的重要方法:
| 序號 | 方法和描述 |
|---|---|
| 1 |
parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) 此方法將給定文件解析成一系列 XHTML 和 SAX 事件。解析後,它將提取的文件內容放在 ContentHandler 類的物件中,並將元資料放在 Metadata 類的物件中。 |
Metadata 類
此類實現了各種介面,例如 CreativeCommons、Geographic、HttpHeaders、Message、MSOffice、ClimateForcast、TIFF、TikaMetadataKeys、TikaMimeKeys、Serializable,以支援各種資料模型。下表列出了此類的建構函式和方法及其描述。
包 − org.apache.tika.metadata
類 − Metadata
| 序號 | 建構函式和描述 |
|---|---|
| 1 |
Metadata() 構造一個新的空元資料。 |
| 序號 | 方法和描述 |
|---|---|
| 1 |
add (Property property, String value) 將元資料屬性/值對映新增到給定文件。使用此函式,我們可以將值設定為屬性。 |
| 2 |
add (String name, String value) 將元資料屬性/值對映新增到給定文件。使用此方法,我們可以為文件的現有元資料設定新的名稱值。 |
| 3 |
String get (Property property) 返回給定元資料屬性的值(如果有)。 |
| 4 |
String get (String name) 返回給定元資料名稱的值(如果有)。 |
| 5 |
Date getDate (Property property) 返回日期元資料屬性的值。 |
| 6 |
String[] getValues (Property property) 返回元資料屬性的所有值。 |
| 7 |
String[] getValues (String name) 返回給定元資料名稱的所有值。 |
| 8 |
String[] names() 返回元資料物件中所有元資料元素的名稱。 |
| 9 |
set (Property property, Date date) 設定給定元資料屬性的日期值。 |
| 10 |
set(Property property, String[] values) 將多個值設定為元資料屬性。 |
語言識別符號類
此類識別給定內容的語言。下表列出了此類的建構函式及其描述。
包 − org.apache.tika.language
類 − LanguageIdentifier
| 序號 | 建構函式和描述 |
|---|---|
| 1 |
LanguageIdentifier (LanguageProfile profile) 例項化語言識別符號。在這裡,您必須傳遞 LanguageProfile 物件作為引數。 |
| 2 |
LanguageIdentifier (String content) 此建構函式可以透過傳遞文字內容的字串來例項化語言識別符號。 |
| 序號 | 方法和描述 |
|---|---|
| 1 |
String getLanguage () 返回賦予當前 LanguageIdentifier 物件的語言。 |