Quartz 4

❯

❯

N_HBase

Aug 24, 20234 min read

2022-06-11

HBase

官网官文 quickstart Reference Guide

HBase是一个分布式的, 面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase是依赖 Hadoop的。为什么HBase能存储海量的数据？因为HBase是在HDFS的基础之上构建的，HDFS是分布式文件系统。

一行数据由一个行键和一个或多个相关的列以及它的值所组成, 在HBase里边，先有列族，后有列。

大数据组件之HBase 开源项目austin 我终于看懂了HBase，太不容易了…-Java3y

RowKey 定义优化

‘给定split的RowKey组例如:aaaaa,bbbbb,ccccc;或给定例如:startKey=00000000,endKey=xxxxxxxx,regionsNum=x’

第一种方式: 是自己指定RowKey的分割点来划分region个数.比如有一组数据RowKey为[1,2,3,4,5,6,7],此时给定split RowKey是3,6,那么就会划分为[1,3),[3,6),[6,7)的三个初始region了.如果对于RowKey的组成及数据分布非常清楚的话,可以使用这种方式精确预分区.

第二种方式 : 如果只是知道RowKey的组成大致的范围,可以选用这种方式让集群来均衡预分区,设定始末的RowKey,以及根据数据量给定大致的region数,一般建议region数最多不要超过集群的rs节点数,过多region数不但不能增加表访问性能,反而会增加master节点压力.如果给定始末RowKey范围与实际偏差较大的话,还是比较容易产生数据热点问题.

最后:生成RowKey时,尽量进行加盐或者哈希的处理,这样很大程度上可以缓解数据热点问题.

Hbase 如何定位一个值?

HBase 本质上其实就是Key-Value的数据库 HBase 只有新增操作 (列式存储的问题)，通过操作类型和时间戳建立版本管理

Key由RowKey(行键)+ColumnFamily（列族）+Column Qualifier（列修饰符）+TimeStamp（时间戳—版本）+KeyType（类型）组成，而Value就是实际上的值。

Graph View

HBase
RowKey 定义优化
Hbase 如何定位一个值?

Backlinks

N_大数据解决方案

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community