HCatalog - 讀寫器

HCatalog 包含一個用於並行輸入和輸出的資料傳輸 API，無需使用 MapReduce。此 API 使用表和行的基本儲存抽象來讀取 Hadoop 叢集中的資料並將其寫入其中。

資料傳輸 API 主要包含三個類，它們是：

HCatReader - 從 Hadoop 叢集讀取資料。
HCatWriter - 將資料寫入 Hadoop 叢集。
DataTransferFactory - 生成讀取器和寫入器例項。

此 API 適用於主從節點設定。讓我們進一步討論 HCatReader 和 HCatWriter。

HCatReader

HCatReader 是 HCatalog 內部的一個抽象類，它隱藏了底層系統的複雜性，這些系統是從中檢索記錄的。

序號	方法名稱和描述
1	Public abstract ReaderContext prepareRead() throws HCatException 這應該在主節點上呼叫以獲取 ReaderContext，然後將其序列化併發送到從節點。
2	Public abstract Iterator <HCatRecorder> read() throws HCaException 這應該在從節點上呼叫以讀取 HCatRecords。
3	Public Configuration getConf() 它將返回配置類物件。

序號

方法名稱和描述

Public abstract ReaderContext prepareRead() throws HCatException

這應該在主節點上呼叫以獲取 ReaderContext，然後將其序列化併發送到從節點。

Public abstract Iterator <HCatRecorder> read() throws HCaException

這應該在從節點上呼叫以讀取 HCatRecords。

Public Configuration getConf()

它將返回配置類物件。

HCatReader 類用於從 HDFS 讀取資料。讀取是一個兩步過程，第一步發生在外部系統的 master 節點上。第二步在多個 slave 節點上並行執行。

讀取是在 ReadEntity 上完成的。在開始讀取之前，需要定義一個要從中讀取的 ReadEntity。這可以透過 ReadEntity.Builder 來完成。您可以指定資料庫名稱、表名稱、分割槽和過濾器字串。例如：

ReadEntity.Builder builder = new ReadEntity.Builder();
ReadEntity entity = builder.withDatabase("mydb").withTable("mytbl").build(); 10.

以上程式碼片段定義了一個 ReadEntity 物件（“entity”），包括名為 mytbl 的表和名為 mydb 的資料庫，可用於讀取該表的所有行。請注意，此表必須在開始此操作之前存在於 HCatalog 中。

定義 ReadEntity 後，使用 ReadEntity 和叢集配置獲取 HCatReader 的例項：

HCatReader reader = DataTransferFactory.getHCatReader(entity, config);

下一步是從讀取器中獲取 ReaderContext，如下所示：

ReaderContext cntxt = reader.prepareRead();

HCatWriter

此抽象在 HCatalog 內部。這是為了方便從外部系統寫入 HCatalog。不要嘗試直接例項化它。而是使用 DataTransferFactory。

序號	方法名稱和描述
1	Public abstract WriterContext prepareRead() throws HCatException 外部系統應該從主節點恰好呼叫一次此方法。它返回一個 WriterContext。這應該被序列化併發送到從節點以在那裡構造 HCatWriter。
2	Public abstract void write(Iterator<HCatRecord> recordItr) throws HCaException 此方法應在從節點上使用以執行寫入。recordItr 是一個迭代器物件，其中包含要寫入 HCatalog 的記錄集合。
3	Public abstract void abort(WriterContext cntxt) throws HCatException 此方法應在主節點上呼叫。此方法的主要目的是在發生故障時進行清理。
4	public abstract void commit(WriterContext cntxt) throws HCatException 此方法應在主節點上呼叫。此方法的目的是執行元資料提交。

與讀取類似，寫入也是一個兩步過程，第一步發生在主節點上。隨後，第二步在從節點上並行發生。

寫入是在 WriteEntity 上完成的，其構造方式類似於讀取：

WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withDatabase("mydb").withTable("mytbl").build();

以上程式碼建立了一個 WriteEntity 物件 entity，可用於寫入資料庫 mydb 中名為 mytbl 的表。

建立 WriteEntity 後，下一步是獲取 WriterContext：

HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
WriterContext info = writer.prepareWrite();

以上所有步驟都發生在主節點上。然後，主節點序列化 WriterContext 物件並使其可供所有從節點使用。

在從節點上，需要使用 WriterContext 獲取 HCatWriter，如下所示：

HCatWriter writer = DataTransferFactory.getHCatWriter(context);

然後，writer 以迭代器作為 write 方法的引數：

writer.write(hCatRecordItr);

然後，writer 在迴圈中對該迭代器呼叫 getNext() 並寫入附加到迭代器的所有記錄。

TestReaderWriter.java 檔案用於測試 HCatreader 和 HCatWriter 類。以下程式演示瞭如何使用 HCatReader 和 HCatWriter API 從原始檔讀取資料，然後將其寫入目標檔案。

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hive.metastore.api.MetaException;
import org.apache.hadoop.hive.ql.CommandNeedRetryException;
import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hive.HCatalog.common.HCatException;
import org.apache.hive.HCatalog.data.transfer.DataTransferFactory;
import org.apache.hive.HCatalog.data.transfer.HCatReader;
import org.apache.hive.HCatalog.data.transfer.HCatWriter;
import org.apache.hive.HCatalog.data.transfer.ReadEntity;
import org.apache.hive.HCatalog.data.transfer.ReaderContext;
import org.apache.hive.HCatalog.data.transfer.WriteEntity;
import org.apache.hive.HCatalog.data.transfer.WriterContext;
import org.apache.hive.HCatalog.mapreduce.HCatBaseTest;

import org.junit.Assert;
import org.junit.Test;

public class TestReaderWriter extends HCatBaseTest {
   @Test
   public void test() throws MetaException, CommandNeedRetryException,
      IOException, ClassNotFoundException {
		
      driver.run("drop table mytbl");
      driver.run("create table mytbl (a string, b int)");
		
      Iterator<Entry<String, String>> itr = hiveConf.iterator();
      Map<String, String> map = new HashMap<String, String>();
		
      while (itr.hasNext()) {
         Entry<String, String> kv = itr.next();
         map.put(kv.getKey(), kv.getValue());
      }
		
      WriterContext cntxt = runsInMaster(map);
      File writeCntxtFile = File.createTempFile("hcat-write", "temp");
      writeCntxtFile.deleteOnExit();
		
      // Serialize context.
      ObjectOutputStream oos = new ObjectOutputStream(new FileOutputStream(writeCntxtFile));
      oos.writeObject(cntxt);
      oos.flush();
      oos.close();
		
      // Now, deserialize it.
      ObjectInputStream ois = new ObjectInputStream(new FileInputStream(writeCntxtFile));
      cntxt = (WriterContext) ois.readObject();
      ois.close();
      runsInSlave(cntxt);
      commit(map, true, cntxt);
		
      ReaderContext readCntxt = runsInMaster(map, false);
      File readCntxtFile = File.createTempFile("hcat-read", "temp");
      readCntxtFile.deleteOnExit();
      oos = new ObjectOutputStream(new FileOutputStream(readCntxtFile));
      oos.writeObject(readCntxt);
      oos.flush();
      oos.close();
		
      ois = new ObjectInputStream(new FileInputStream(readCntxtFile));
      readCntxt = (ReaderContext) ois.readObject();
      ois.close();
		
      for (int i = 0; i < readCntxt.numSplits(); i++) {
         runsInSlave(readCntxt, i);
      }
   }
	
   private WriterContext runsInMaster(Map<String, String> config) throws HCatException {
      WriteEntity.Builder builder = new WriteEntity.Builder();
      WriteEntity entity = builder.withTable("mytbl").build();
		
      HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
      WriterContext info = writer.prepareWrite();
      return info;
   }
	
   private ReaderContext runsInMaster(Map<String, String> config, 
      boolean bogus) throws HCatException {
      ReadEntity entity = new ReadEntity.Builder().withTable("mytbl").build();
      HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
      ReaderContext cntxt = reader.prepareRead();
      return cntxt;
   }
	
   private void runsInSlave(ReaderContext cntxt, int slaveNum) throws HCatException {
      HCatReader reader = DataTransferFactory.getHCatReader(cntxt, slaveNum);
      Iterator<HCatRecord> itr = reader.read();
      int i = 1;
		
      while (itr.hasNext()) {
         HCatRecord read = itr.next();
         HCatRecord written = getRecord(i++);
			
         // Argh, HCatRecord doesnt implement equals()
         Assert.assertTrue("Read: " + read.get(0) + "Written: " + written.get(0),
         written.get(0).equals(read.get(0)));
			
         Assert.assertTrue("Read: " + read.get(1) + "Written: " + written.get(1),
         written.get(1).equals(read.get(1)));
			
         Assert.assertEquals(2, read.size());
      }
		
      //Assert.assertFalse(itr.hasNext());
   }
	
   private void runsInSlave(WriterContext context) throws HCatException {
      HCatWriter writer = DataTransferFactory.getHCatWriter(context);
      writer.write(new HCatRecordItr());
   }
	
   private void commit(Map<String, String> config, boolean status,
      WriterContext context) throws IOException {
      WriteEntity.Builder builder = new WriteEntity.Builder();
      WriteEntity entity = builder.withTable("mytbl").build();
      HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
		
      if (status) {
         writer.commit(context);
      } else {
         writer.abort(context);
      }
   }
	
   private static HCatRecord getRecord(int i) {
      List<Object> list = new ArrayList<Object>(2);
      list.add("Row #: " + i);
      list.add(i);
      return new DefaultHCatRecord(list);
   }
	
   private static class HCatRecordItr implements Iterator<HCatRecord> {
      int i = 0;
		
      @Override
      public boolean hasNext() {
         return i++ < 100 ? true : false;
      }
		
      @Override
      public HCatRecord next() {
         return getRecord(i);
      }
		
      @Override
      public void remove() {
         throw new RuntimeException();
      }
   }
}

以上程式以記錄形式從 HDFS 讀取資料，並將記錄資料寫入 mytable

列印頁面