TIKA - 參考 API



使用者可以使用 Tika facade 類將 Tika 嵌入他們的應用程式中。它具有探索 Tika 所有功能的方法。因為它是一個 facade 類,所以 Tika 隱藏了其功能背後的複雜性。除此之外,使用者還可以將 Tika 的各種類用於他們的應用程式。

User Application

Tika 類 (facade)

這是 Tika 庫中最突出的類,遵循外觀設計模式。因此,它抽象了所有內部實現,並提供簡單的訪問 Tika 功能的方法。下表列出了此類的建構函式及其描述。

− org.apache.tika

− Tika

序號 建構函式和描述
1

Tika ()

使用預設配置並構造 Tika 類。

2

Tika (Detector detector)

透過接受檢測器例項作為引數來建立 Tika facade。

3

Tika (Detector detector, Parser parser)

透過接受檢測器和解析器例項作為引數來建立 Tika facade。

4

Tika (Detector detector, Parser parser, Translator translator)

透過接受檢測器、解析器和翻譯器例項作為引數來建立 Tika facade。

5

Tika (TikaConfig config)

透過接受 TikaConfig 類的物件作為引數來建立 Tika facade。

方法和描述

以下是 Tika facade 類的重要方法:

序號 方法和描述
1

parseToString (File file)

此方法及其所有變體解析作為引數傳遞的檔案,並以 String 格式返回提取的文字內容。預設情況下,此字串引數的長度是有限制的。

2

int getMaxStringLength ()

返回 parseToString 方法返回的字串的最大長度。

3

void setMaxStringLength (int maxStringLength)

設定 parseToString 方法返回的字串的最大長度。

4

Reader parse (File file)

此方法及其所有變體解析作為引數傳遞的檔案,並以 java.io.reader 物件的形式返回提取的文字內容。

5

String detect (InputStream stream, Metadata metadata)

此方法及其所有變體接受 InputStream 物件和 Metadata 物件作為引數,檢測給定文件的型別,並以 String 物件返回文件型別名稱。此方法抽象了 Tika 使用的檢測機制。

6

String translate (InputStream text, String targetLanguage)

此方法及其所有變體接受 InputStream 物件和一個表示我們想要將文字翻譯成的語言的字串,並將給定文字翻譯成所需的語言,嘗試自動檢測源語言。

Parser 介面

這是 Tika 包的所有解析器類實現的介面。

− org.apache.tika.parser

介面 − Parser

方法和描述

以下是 Tika Parser 介面的重要方法:

序號 方法和描述
1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

此方法將給定文件解析成一系列 XHTML 和 SAX 事件。解析後,它將提取的文件內容放在 ContentHandler 類的物件中,並將元資料放在 Metadata 類的物件中。

Metadata 類

此類實現了各種介面,例如 CreativeCommons、Geographic、HttpHeaders、Message、MSOffice、ClimateForcast、TIFF、TikaMetadataKeys、TikaMimeKeys、Serializable,以支援各種資料模型。下表列出了此類的建構函式和方法及其描述。

− org.apache.tika.metadata

− Metadata

序號 建構函式和描述
1

Metadata()

構造一個新的空元資料。

序號 方法和描述
1

add (Property property, String value)

將元資料屬性/值對映新增到給定文件。使用此函式,我們可以將值設定為屬性。

2

add (String name, String value)

將元資料屬性/值對映新增到給定文件。使用此方法,我們可以為文件的現有元資料設定新的名稱值。

3

String get (Property property)

返回給定元資料屬性的值(如果有)。

4

String get (String name)

返回給定元資料名稱的值(如果有)。

5

Date getDate (Property property)

返回日期元資料屬性的值。

6

String[] getValues (Property property)

返回元資料屬性的所有值。

7

String[] getValues (String name)

返回給定元資料名稱的所有值。

8

String[] names()

返回元資料物件中所有元資料元素的名稱。

9

set (Property property, Date date)

設定給定元資料屬性的日期值。

10

set(Property property, String[] values)

將多個值設定為元資料屬性。

語言識別符號類

此類識別給定內容的語言。下表列出了此類的建構函式及其描述。

− org.apache.tika.language

− LanguageIdentifier

序號 建構函式和描述
1

LanguageIdentifier (LanguageProfile profile)

例項化語言識別符號。在這裡,您必須傳遞 LanguageProfile 物件作為引數。

2

LanguageIdentifier (String content)

此建構函式可以透過傳遞文字內容的字串來例項化語言識別符號。

序號 方法和描述
1

String getLanguage ()

返回賦予當前 LanguageIdentifier 物件的語言。

廣告
© . All rights reserved.