Newsletter 2022-08|端到端压缩提升读写性能、HStream Cloud 即将上线

2022-9-1

继月初 HStreamDB 0.9 正式发布之后,HStreamDB 团队投入了新的 v0.10 的开发周期。本月主要新增了端到端压缩、CLI 支持 TLS 等功能,并修复了多项已知问题,同时新的 Haskell gRPC 框架以及云原生的全托管流数据库服务 HStream Cloud 也正在开发中。

支持端到端压缩

之前版本的 HStreamDB 支持 HServer 端的数据压缩,即数据在发送给 HStore 之前可以被 HServer 先进行压缩,但从 client 到 HServer 的路径上尚不支持压缩。

本月我们新引入了端到端的压缩功能,即数据在写入时会在 client 端以 batch 为单位进行压缩,且压缩后的数据会被 HStore 直接进行存储。另外 client 端在消费的时候能够自动进行数据的解压,整个过程对用户无感知。

在高吞吐的场景下,通过启用端到端数据压缩能够显著缓解网络带宽瓶颈,提升读写性能,在我们的 benchmark 中显示会有 4 倍以上的吞吐提升,当然代价是会增加 client 端的 CPU 消耗。

目前此项功能尚未正式发布,但大家可以通过 HStreamDB 的 latest 镜像 抢先体验。Java Client v0.10.0-SNAPSHOT 也已经包含了对端到端压缩的支持(目前仅支持 gzip 压缩),可通过如下代码使用:

BufferedProducer producer =
        client.newBufferedProducer()
            .stream(streamName)
            .compressionType(CompressionType.GZIP)
            .batchSetting(batchSetting)
            .flowControlSetting(flowControlSetting)
            .build();

新 Haskell gRPC 框架

HServer 使用 gRPC 和 client 进行通信,目前我们使用的 Haskell gRPC 框架是通过 Haskell 的 FFI (Foreign Function Interface) 绑定到 gRPC C core lib 的。为了增强性能与稳定性,我们正在尝试开发一套新的 Haskell gRPC server 框架进行替换。

新框架受 hsthrift 的启发,将基于 C++ gRPC server 来实现,并且基本不需要对目前的 Haskell 源代码进行改动。目前新框架还在开发和测试过程中,预计将在 v0.10 正式发布。

HStream CLI

本月 HStream CLI 也新增了对 TLS 的支持,可参考文档使用。

另外, CLI 还带来了以下新功能和改进:

  • 新增了多行的 SQL 语句输入的支持
  • 新增了 -e、--execute 选项用于非交互式地执行 SQL 语句
  • 新增了对输入命令的历史记录的持久化支持
  • 优化了执行 SQL 时的错误信息提示

其它问题修复和改进

  • 更新了 HStream Helm chart 对 v0.9 的部署支持
  • 修复了订阅可能会将分区分配给已经失效的 Consumer 的问题
  • 修复了 gossip 模块使用 withAsync 引起的内存泄漏问题
  • 修复了创建 view 时没有检查依赖的 stream 是否存在的问题
  • 修复了新节点加入集群时可能会失败的问题
  • 改进了 seed-nodes 重启的流程
  • 改进了集群启动时对 address 的处理
  • 优化了 gossip 模块的线程使用和调度

HStream Cloud 即将上线

我们正在开发 HStream Cloud —— 基于公有云平台的 Streaming-Database-as-a-Service 服务。Early Access 版本即将上线,用户将无需部署和运维,即可快速上手使用 HStreamDB。敬请期待。

推荐阅读

2022-11-1
HStreamDB v0.10 正式发布

十月底,我们正式发布了 HStreamDB 0.10 :完成了 HStore 对新 MetaStore 的支持,并带来了流引擎、多语言客户端以及 HStream IO 的多项更新。