Sqoop 面試問題

尊敬的讀者們，這些 **Sqoop 面試問題** 是專門為了讓您熟悉在 Sqoop 相關面試中可能遇到的問題型別而設計的。根據我的經驗，優秀的 interviewers 很少會提前計劃好要問哪些具體問題，通常問題會從該主題的一些基本概念開始，然後根據後續討論和您的回答繼續深入。

JDBC 驅動程式在 Sqoop 設定中扮演什麼角色？

為了連線不同的關係型資料庫，Sqoop 需要一個聯結器。幾乎每個資料庫廠商都會提供一個特定於該資料庫的 JDBC 驅動程式作為聯結器。因此，Sqoop 需要與之互動的每個資料庫的 JDBC 驅動程式。

JDBC 驅動程式足以連線 Sqoop 到資料庫嗎？

不。Sqoop 需要 JDBC 驅動程式和聯結器才能連線到資料庫。

匯入資料時，何時使用 --target-dir，何時使用 --warehouse-dir？

要指定 HDFS 中的特定目錄，請使用 --target-dir；要指定所有 Sqoop 作業的父目錄，請使用 --warehouse-dir。在這種情況下，Sqoop 將在父目錄下建立一個與表同名的目錄。

如何僅匯入表中的一部分行？

透過在 sqoop import 語句中使用 WHERE 子句，我們可以只匯入一部分行。

如何在不使用 where 子句的情況下匯入表中的一部分行？

我們可以在資料庫上執行一個過濾查詢，並將結果儲存到資料庫中的臨時表中。

然後使用 sqoop import 命令，無需使用 --where 子句。

在防止 Sqoop import 語句中顯示密碼時，使用 --password-file 比 -P 選項有什麼優勢？

--password-file 選項可以在 Sqoop 指令碼中使用，而 -P 選項從標準輸入讀取，阻止自動化。

使用 --compress 引數透過 Sqoop import 生成的檔案的預設副檔名是什麼？

.gz

使用 --compress-codec 引數有什麼意義？

為了使 Sqoop import 的輸出檔案採用 .gz 之外的其他格式，例如 .bz2，我們使用 --compress-codec 引數。

使用 --direct 引數來加快 Sqoop 資料載入速度的缺點是什麼？

資料庫使用的支援更快載入的原生實用程式不適用於 SequenceFile 等二進位制資料格式。

如何控制 Sqoop 命令使用的 Mapper 數量？

引數 --num-mappers 用於控制 Sqoop 命令執行的 Mapper 數量。我們應該從選擇少量 Map 任務開始，然後逐步擴充套件，因為最初選擇大量 Mapper 可能會降低資料庫端的效能。

從資料庫匯入大量表時，如何避免逐個匯入表？

使用命令

sqoop import-all-tables

--connect

--username

--password

--exclude-tables table1,table2 ..

這將匯入除 --exclude-tables 子句中提到的表之外的所有表。

當源資料頻繁更新時，如何使其與 Sqoop 匯入到 HDFS 中的資料保持同步？

Sqoop 有兩種方法。

a - 使用 --incremental 引數和 append 選項，檢查某些列的值，只有在修改值的情況下，才將該行作為新行匯入。

b - 使用 --incremental 引數和 lastmodified 選項，檢查源中日期列中自上次匯入後已更新的記錄。

Sqoop 中選項檔案有什麼用？

Sqoop 中的選項檔案用於在一個檔案中指定命令列值，並在 Sqoop 命令中使用它。

例如，--connect 引數的值和 --username 值可以儲存在一個檔案中，並在不同的 Sqoop 命令中重複使用。

執行儲存的作業時是否可以新增引數？

是的，我們可以使用 --exec 選項在執行時向儲存的作業新增引數。

sqoop job --exec jobname -- --newparameter

如何獲取兩個表之間連線的結果資料？

透過使用 --query 引數代替 --table 引數，我們可以指定一個 SQL 查詢。查詢的結果將被匯入。

如何將要匯入的資料分割成多個並行任務？

使用 --split-by 引數，我們指定列名，Sqoop 將根據該列名將要匯入的資料分成多個塊，以並行執行。

提交自由格式查詢匯入時，如何為建立的 MapReduce 作業選擇名稱？

透過使用 --mapreduce-job-name 引數。以下是命令示例。

sqoop import \
--connect jdbc:mysql://mysql.example.com/sqoop \
--username sqoop \
--password sqoop \
--query 'SELECT normcities.id, \
countries.country, \
normcities.city \
FROM normcities \
JOIN countries USING(country_id) \
WHERE $CONDITIONS' \
--split-by id \
--target-dir cities \
--mapreduce-job-name normcities

在使用 MapReduce 作業開始資料傳輸之前，Sqoop 需要很長時間才能檢索 --split-by 引數中提到的列的最小值和最大值。我們如何提高效率？

我們可以使用 --boundary-query 引數，在其中指定列的最小值和最大值，根據該值可以將資料分成多個 MapReduce 任務。這使其速度更快，因為 --boundary-query 引數內的查詢會先執行，並且作業會在執行主查詢之前準備好有關要建立多少個 MapReduce 任務的資訊。

引數 sqoop.export.records.per.statement 和 sqoop.export.statements.per.transaction 之間的區別是什麼？

引數“sqoop.export.records.per.statement”指定每個 INSERT 語句中將使用的記錄數。

但是引數“sqoop.export.statements.per.transaction”指定在事務期間可以並行處理多少個 INSERT 語句。

如何使用 Sqoop 實現全有或全無載入？

使用 staging-table 選項，我們首先將資料載入到暫存表中，然後只有在暫存載入成功後才將其載入到最終目標表中。

如何在 Sqoop 載入之前清除暫存表中的資料？

透過指定 --clear-staging-table 選項，我們可以在載入之前清除暫存表。這可以重複進行，直到我們在暫存表中獲得正確的資料。

如何更新已匯出的行？

引數 --update-key 可用於更新現有行。其中，使用逗號分隔的列列表唯一標識一行。所有這些列都將用於生成的 UPDATE 查詢的 WHERE 子句中。所有其他表列都將用於查詢的 SET 部分中。

如何將已匯出表與 HDFS 資料同步，其中某些行已被刪除？

截斷目標表並重新載入。

如何使用 Sqoop 將子集列匯出到關係表？

透過使用 --columns 引數，我們可以在其中將所需的列名作為逗號分隔的值列表。

如何將資料載入到關係表中的非空列中，而來自 HDFS 的傳入值為空值？

透過使用 --input-null-string 引數，我們可以指定一個預設值，這將允許將行插入到目標表中。

如何使用 Oozie 排程 Sqoop 作業？

Oozie 在內建的 Sqoop 操作中，我們可以提及要執行的 Sqoop 命令。

Sqoop 成功將表匯入到 HBase，但發現行數少於預期。可能是什麼原因？

一些匯入的記錄在所有列中可能都具有空值。由於 HBase 不允許在一行中出現所有空值，因此這些行將被丟棄。

給出 Sqoop 命令以顯示 MySql 伺服器中的所有資料庫。

$ sqoop list-databases --connect jdbc:mysql://database.example.com/

Sqoop 中的自由格式匯入是什麼意思？

Sqoop 可以使用任何 SQL 查詢從關係資料庫匯入資料，而不僅僅是使用表和列名引數。

如何強制 Sqoop 只執行一次自由格式 SQL 查詢並順序匯入行？

透過在 import 命令中使用 --m 1 子句，Sqoop 只建立一個 MapReduce 任務，該任務將順序匯入行。

在 Sqoop import 命令中，您已提到要執行 8 個並行 MapReduce 任務，但 Sqoop 僅執行 4 個。可能是什麼原因？

MapReduce 叢集配置為執行 4 個並行任務。因此，Sqoop 命令必須具有小於或等於 MapReduce 叢集的並行任務數。

--split-by 子句在 Sqoop 中執行並行匯入任務的重要性是什麼？

--split-by 子句提到列名，根據該列名的值，資料將被分成多個記錄組。這些記錄組將由 MapReduce 任務並行讀取。

此 Sqoop 命令實現什麼功能？

$ sqoop import --connnect <connect-str> --table foo --target-dir /dest \

它將資料從資料庫匯入到位於 /dest 目錄中的名為 foo 的 HDFS 檔案中。

使用 --append 引數將表匯入到已存在的 HDFS 目錄中時會發生什麼情況？

使用 --append 引數，Sqoop 將資料匯入到臨時目錄，然後以不會與該目錄中現有檔名衝突的方式將檔案重新命名到普通目標目錄。

如何控制 SQL 資料型別和 Java 型別之間的對映？

透過使用 --map-column-java 屬性，我們可以配置之間的對映。

以下是一個示例

$ sqoop import ... --map-column-java id = String, value = Integer

假設源具有每行的最後更新時間戳詳細資訊，如何僅將更新的行從表匯入到 HDFS 中使用 Sqoop？

透過使用`lastmodified`模式。如果檢查列中包含的時間戳比使用`--last-value`指定的時間戳新，則匯入相應的行。

Sqoop支援哪些兩種匯入檔案格式？

分隔文字檔案和Sequence檔案。

編寫一條Sqoop命令，從MySQL表Employee中匯入employee_id、first_name、last_name列。

$ sqoop import --connect jdbc:mysql://host/dbname --table EMPLOYEES \
   --columns "employee_id,first_name,last_name"

編寫一條Sqoop命令，僅並行執行8個MapReduce任務。

$ sqoop import --connect jdbc:mysql://host/dbname --table table_name\
   -m 8

以下查詢的作用是什麼？

$ sqoop import --connect jdbc:mysql://host/dbname --table EMPLOYEES \
   --where "start_date > '2012-11-09'

它匯入2012年11月9日之後入職的員工。

編寫一條Sqoop命令，匯入employee表中的所有記錄，並根據department_id列的值將記錄分成組。

$ sqoop import --connect jdbc:mysql://db.foo.com/corp --table EMPLOYEES \
   --split-by dept_id

以下查詢的作用是什麼？

$ sqoop import --connect jdbc:mysql://db.foo.com/somedb --table sometable \
   --where "id > 1000" --target-dir /incremental_dataset --append

在已經匯入表的前100,000行之後，它執行增量匯入以匯入新資料。

編寫一條Sqoop命令，從MySQL資料庫DB1中的所有表匯入資料。

sqoop import-all-tables --connect jdbc:mysql://host/DB1

編寫一條命令，執行名為proc1的儲存過程，該過程將資料從名為DB1的MySQL資料庫匯出到名為Dir1的HDFS目錄。

$ sqoop export --connect jdbc:mysql://host/DB1 --call proc1 \
   --export-dir /Dir1

什麼是Sqoop元資料儲存庫？

它是一個工具，Sqoop使用它來託管共享的元資料儲存庫。多個使用者和/或遠端使用者可以定義和執行在此元資料儲存庫中定義的已儲存作業（使用`sqoop job`建立）。

客戶端必須配置為連線到`sqoop-site.xml`中的元資料儲存庫，或使用`--meta-connect`引數。

Sqoop-merge的目的是什麼？

合併工具組合兩個資料集，其中一個數據集中的條目應覆蓋舊資料集中的條目，僅保留兩個資料集之間記錄的最新版本。

如何檢視Sqoop元資料儲存庫中已儲存作業的列表？

`sqoop job --list`

編寫Sqoop命令以檢視名為myjob的作業的內容？

`sqoop job --show myjob`

Sqoop元資料儲存庫執行在哪個資料庫上？

執行`sqoop-metastore`會在當前機器上啟動一個共享的HSQLDB資料庫例項。

元資料儲存庫資料庫可以託管在哪裡？

元資料儲存庫資料庫可以託管在Hadoop叢集內或叢集外部的任何位置。

下一步是什麼？

接下來，您可以回顧一下您過去完成的作業，確保您能夠自信地談論它們。如果您是應屆畢業生，面試官不會期望您回答非常複雜的問題，而是要確保您的基本概念非常紮實。

其次，如果您無法回答一些問題，其實並不重要，重要的是您回答的任何問題都必須充滿自信。所以在面試中要自信。Tutorialspoint祝您面試順利，並祝您未來的事業一切順利！乾杯 :-)

sqoop_questions_answers.htm

列印頁面