2021

bigdatapulsar

2021-04-13

Pulsar 2.7：集群，认证、授权，函数计算，CDC

一些问题 Apache Pulsar 2.7.1 当 Functions Worker 独立运行时，客户端需要直接 Worker，现在的 Pulsar 还不能通过 broker 找到 Worker 地址。社区已有相应的 PR #6425 修复当配置了 Pulsar 集群配置了认证/授权，且 connector 使用进程模式运行时，现在 connector 未继承 Functions Worke

work

2021-04-08

使用 gRPC 设计 API 的优势

现阶段 API 设计的问题在开发过程中，有一些很困扰前、后端团队交互的问题：谁来设计 API？提供什么形式的 API？什么时候可以提供 API？对于第一个问题，通常情况下都是由后端人员来设计 API，这就造成前端人员会在开发初期的一段时间内没法作数据模型和服务端交互方面的工作。这时，一些独立的 API 管理工具就派上用场了，比如：类似 yapi 这样的 API 管理/Mock 工具。前

2020

bigdatagreenplum

2020-11-19

Greenplum 6.x 安装注意事项

/etc/sysctl.conf 设置注意12kernel.shmall=echo $(expr $(getconf _PHYS_PAGES) / 2)kernel.shmmax=echo $(expr $(getconf _PHYS_PAGES) / 2 \* $(getconf PAGESIZE))

work

2020-09-21

DolphinScheduler

系统配置操作系统环境 12345678910111213141516systemctl stop firewalldsystemctl disable firewalld# Install softwaresyum -y install epel-releaseyum -y install java-11-openjdk-devel tree htop vim sshpass wget curl#

work

2020-09-03

实时数据处理探索：接收、处理、访问

ETL（也包括ELT）是数据处理工作里必不可少的步骤，一直以来通常都是以天或小时为单位采用批处理来对大量的数据进行 ETL 操作。随着业务的增长及需求的变化，用户/客户希望能更快的看到各类数据操作的结果，这就催生了实时 ETL 的诉求。传统上，批量 ETL 会在数据仓库上进行。比如按天为单位从一个库同步原始数据到 ODS 层，再通过编写存储过程来对 ODS 层的数据进行加工后将明细数据存储到

essay

2020-09-03

ETL里的34个子系统

ETL里的38种子系统和ETL里的34种子系统Ralph Kimball和Joe Caserta于2004年编写的《The Data Warehouse ETL Toolkit》一书系统的阐述了ETL这一概念及建设ETL系统的要点，将ETL从BI的一部分抽离了出来。随后，这本书里的一些思想形成了一篇文章《ETL里的38个子系统》，系统总结了ETL项目要面临的不同任务。我们还可以在网上找到原始的这篇

java

2020-08-09

CRUDer 的自我修养：PostgreSQL、JDBC、MyBatis、R2DBC

这是一系列文章的目录，对于一个合格的 CRUD 程序猿/媛、码农、IT民工，更高效的进行 CRUD 是我们孜孜不倦的追求！本文是系列文章的序文，首先介绍各技术的亮点，再在之后的单独文章里详细介绍各技术的功能、优势、技巧等……通过对这 4 个主题的介绍，增进我们更好的进行 CRUD 开发。 PostgreSQL本系列文章以 PostgreSQL（以下简称：PG）为例讲解 SQL，对于 CRUDer

java

2020-08-08

Java 枚举：有效应用

Java 枚举本身的介绍本文就不多说，相关资料很多，本文将讲述些 Java 枚举使用的技巧和注意事项。枚举属性Java 枚举除了可以定义常量以外，还可以定义属性。比如很常见的一个星期枚举 123public enum WeekEnum { MONDAY, TUESDAY, WEDNESDAY, THURSDAY, FRIDAY, SATURDAY, SUNDAY;} 以

java

2020-07-04

JSON 之 Jackson

Jackson 是 Java 生态下的一款 JSON （返）序列化工具，具有高效、强大、安全（没有 Fastjson 那么多的安全漏洞）等特性。同时应用广泛，Spring Boot/Cloud、Akka、Spark 等众多框架都将其作为默认 JSON 处理工具。依赖要使用 Jackson，需要在项目中添加如下依赖（注：使用 Spring Boot 时不需要手动添加，Spring 框架已经默认包含

java

2020-06-27

JDBC 批量插入：MyBatis、PostgreSQL

当一次插入数据很多时，使用批量插入可以显著提升性能，在此以 PostgreSQL 为例介绍几种批量插入的方式。 JDBC batch execute使用 JDBC 时，可以使用 Statement#addBatch(String sql) 或 PreparedStatement#addBatch 方法来将SQL语句加入批量列表，然后再通过 executeBatch 方法来批量执行。 reWrite

主页