从 HDFS 到 HBase 的 RPC 设计思路

两者虽然都依赖了 ProtoBuf，但都暗藏玄机。

总的来说，HDFS 的 RPC 分为两个大类：普通与流式 RPC，普通 RPC 全程传递的都是 ProtoBuf 编码对象，流式 RPC 则分为两段数据，一段 ProtoBuf 编码对象，一段一系列的 Packet 数据包。HBase 的 RPC 主要应用是批量传递 Cell[] 数据单元组，因此 HBase 使用未经 ProtoBuf 编码的 CellBlocks 作为 ProtoBuf 协议的头字段数据，把其他非 Cell[] 数据单元组的内容通过 ProtoBuf 协议的正文部分进行编码传递。

通常 ProtoBuf 都是配 gPRC 框架的，但是它们都是自己实现了一套通讯框架。

HDFS

以 HDFS 从客户端请求 NameNode 为例。

客户端采用 Java 动态代理

DFSClient 首先调用 ClientNamenodeProtocolTranslatorPB 翻译算子（算子不仅会在请求时把用户数据转换为 ProtoBuf 编码对象，还会在操作结束返回时再把编码对象转换成用户数据），然后交由实现 ClientNamenodeProtocolPB 接口的代理对象 rpcProxy（插播一则小知识：Java 的动态代理对象只能是接口），因此所有的调用信息都被 ProtobufRpcEngine$Invoker#invoke 动态代理所收集了，最终实现数据传输。

NameNode 端在则是启动时创建 Server 对象，Accept NIO 连接后，Server#processOneRpc 获取出 Call 对象，通过 Call 对象中的 ProtoBuf 协议的请求头获取方法名，调用 ClientNamenodeProtocolServerSideTranslatorPB 翻译算子，由翻译算子转换数据并分发处理任务。

可以看出 HDFS 基本上围绕两个翻译算子，一个代理接口实现的。（另外其实还有一个门面接口 ClientProtocol，客户端和服务器端均实现，便于用户关联查找代码实现）

HBase

而 HBase 类似，但它把 ProtoBuf 模式使用得更淋漓尽致。

客户端采用 Stub 接口

在 ProtoBuf 原本设计中，Service 接口与 Stub 接口分别代表服务层接口与客户端接口。如 HTable 对象就是使用 Stub 接口，在 AbstractRpcClient 对象中直接暴露传输过程。但 HDFS 客户端不使用此设计。

CellBlocks

首先是构造记录 Cell[] 数据单元组的 HBaseRpcControllerImpl，继承自 com.google.protobuf.RpcController，该对象涉及链路中的上下文，这使得本来只能传递 ProtoBuf 字段的数据调用，通过改写上下文对象，插入新的数据字段。比如：

  /**
   * A helper to replicate a list of WAL entries using admin protocol.
   * @param admin Admin service
   * @param entries Array of WAL entries to be replicated
   * @param replicationClusterId Id which will uniquely identify source cluster FS client
   *          configurations in the replication configuration directory
   * @param sourceBaseNamespaceDir Path to source cluster base namespace directory
   * @param sourceHFileArchiveDir Path to the source cluster hfile archive directory
   * @throws java.io.IOException
   */
  public static void replicateWALEntry(final AdminService.BlockingInterface admin,
      final Entry[] entries, String replicationClusterId, Path sourceBaseNamespaceDir,
      Path sourceHFileArchiveDir) throws IOException {
    Pair<AdminProtos.ReplicateWALEntryRequest, CellScanner> p =
        buildReplicateWALEntryRequest(entries, null, replicationClusterId, sourceBaseNamespaceDir,
          sourceHFileArchiveDir);
    HBaseRpcController controller = new HBaseRpcControllerImpl(p.getSecond());
    try {
      // controller 会作为上下文一直传递
      admin.replicateWALEntry(controller, p.getFirst());
    } catch (org.apache.hbase.thirdparty.com.google.protobuf.ServiceException e) {
      throw ProtobufUtil.getServiceException(e);
    }
  }

然后在 AbstractRpcClient#callMethod 中把请求封装成 Call 数据类型（同时取出 HBaseRpcControllerImpl 中的 Cell[]），放入发送队列里，另一线程消费，并通过 BlockingRpcConnection#writeRequest 写出数据。在这里，HBase 的 CellBlocks Trick 把戏就显现了：

  /**
   * Initiates a call by sending the parameter to the remote server. Note: this is not called from
   * the Connection thread, but by other threads.
   * @see #readResponse()
   */
  private void writeRequest(Call call) throws IOException {
    ByteBuffer cellBlock = this.rpcClient.cellBlockBuilder.buildCellBlock(this.codec,
      this.compressor, call.cells); // cells 就是通过上下文传递过来的
    CellBlockMeta cellBlockMeta;
    if (cellBlock != null) {
      cellBlockMeta = CellBlockMeta.newBuilder().setLength(cellBlock.limit()).build();
    } else {
      cellBlockMeta = null;
    }
    RequestHeader requestHeader = buildRequestHeader(call, cellBlockMeta);

    setupIOstreams();

    calls.put(call.id, call);
    try {
      call.callStats.setRequestSizeBytes(write(this.out, requestHeader, call.param, cellBlock));
    } catch (Throwable t) {
      if(LOG.isTraceEnabled()) {
        LOG.trace("Error while writing call, call_id:" + call.id, t);
      }
      IOException e = IPCUtil.toIOE(t);
      closeConn(e);
      return;
    }
    notifyAll();
  }

也就是在 ProtoBuf 头部写出 Cell[] 数据单元组，对于已编码的数据就可以避免重复编码。

客户端异步 RPC 设计

相比 HDFS 客户端的基于 BIO 的同步设计，HBase 2.x 实现客户端 Netty 非阻塞 IO 的设计。写出数据时候，用户线程在 NettyRpcConnection#sendRequest 后被暂停，交由 EventLoop 线程处理，并在 NettyRpcDuplexHandler 记录下 Call ID；当 EventLoop 线程接收到服务端返回结果后，通过响应的 Call ID 找到回调的 Future，填充 Future 的 Result 结果字段，唤醒用户线程进行用户处理。

从 HDFS 到 HBase 的 RPC 设计思路

HDFS

HBase

Published by KEVI_

发表回复取消回复

HDFS

HBase

Published by KEVI_

发表回复 取消回复

发表回复取消回复