HBase批量加載

2018-06-20 11:16 更新

HBase批量加載概述

HBase包含幾種將數(shù)據(jù)加載到表中的方法。最直接的方法是使用MapReduce作業(yè)中的TableOutputFormat類,或者使用普通的客戶端API;然而,這些并不總是最有效的方法。

批量加載功能使用MapReduce作業(yè)以HBase的內(nèi)部數(shù)據(jù)格式輸出表格數(shù)據(jù),然后直接將生成的StoreFiles加載到正在運行的群集中。使用批量加載將比使用HBase API使用更少的CPU和網(wǎng)絡(luò)資源。

HBase批量加載限制

當(dāng)批量加載繞過寫入路徑時,WAL不會被寫入作為過程的一部分。復(fù)制通過讀取WAL文件來工作,因此它不會看到批量加載的數(shù)據(jù) - 對于使用Put.setDurability(SKIP_WAL)的編輯也是如此。處理這種情況的一種方法是將原始文件或HFile發(fā)送到其他群集,并在那里進(jìn)行其他處理。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號