分类:bigdata

PostgreSQL高可用 - PG 11集群

《PostgreSQL从入门到不后悔》 《PostgreSQL高可用:逻辑复制》 《PostgreSQL高可用 - PG 11集群》 高可用性:数据库服务器可以一起工作, 这样如果主要的服务器失效则允许一个第二服务器快速接手它的任务 负载均衡: 允许多个计算机提供相同的数据 本文使用的主要技术有: CentOS 7 x86_64 PostgreSQL 11.4 系统安装、配置1234

PostgreSQL高可用:逻辑复制

《PostgreSQL从入门到不后悔》 《PostgreSQL高可用:逻辑复制》 《PostgreSQL高可用 - PG 11集群》 从PostgreSQL 10(以下简称PG)开始,PG支持逻辑复制能力,可实现仅复制部分表或PG服务器上的部分database。逻辑复制的一大优点是支持跨版本间复制,也不需要主从节点的操作系统和硬件架构相同。例如,我们可以实现一台Linux服务器上的PG 11和

Ambari2.6(HDP2.6.5)安装记要

本文介绍在 CentOS 7 环境下使用 Ambari2.5 (HDP2.6) 搭建大数据环境。 推荐使用如下脚本将 Ambari/HDP 相关软件包下到本地后配置 yum 源安装,在线安装速度太慢会经常遇到包找不到情况。 1234567891011nohup wget -c http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updat

PostgreSQL从入门到不后悔

《PostgreSQL从入门到不后悔》 《PostgreSQL高可用:逻辑复制》 《PostgreSQL高可用 - PG 11集群》 安装 PostgreSQL 10下载 PostgreSQL 10,postgresql-10.1-3-linux-x64-binaries.tar.gz。下载地址:https://get.enterprisedb.com/postgresql/postgresq

Elasticsearch备份、恢复

迁移注意事项 保证ES集群不再接受新的数据(如果是备份的话,这一点可以不考虑,但是做数据迁移的话,建议这样做)。同一个repository只应有一个集群可写,其它集群都应以readonly模式连接。 不建议直接在生产环境做这些操作,最好是先在本地搭建一个和生产环境一样的集群环境,创建一些测试数据,把整个过程先跑一遍,然后再到生产环境操作。 dn126 为要备份的源数据节点,而 localhost

PostgreSQL高可用-主/热备集群

高可用性:数据库服务器可以一起工作, 这样如果主要的服务器失效则允许一个第二服务器快速接手它的任务 负载均衡: 允许多个计算机提供相同的数据 本文使用的主要技术有: CentOS 7 x86_64 PostgreSQL 9.6.5 系统安装、配置CentOS 7 安装12[hldev@centos7-001 ~]$ sudo yum -y install https://download

Elasticsearch集群设置

Elasticsearch是一个优秀的全文检索和分析引擎,由Shay Banon发起的一个开源搜索服务器项目,2010年2月发布。具有分布式性质和实时功能。 本文基于5.x版本,需要使用 Java 8 update 20或更新版。 配置Elasticsearch使用很方便,默认开箱即用。不过做为一个集群,还是需要稍做一些配置。整个配置都位于 config 目录,可以看到两个文件:elasticse

使用HanLP增强Elasticsearch分词功能

hanlp-ext 插件源码地址:https://github.com/hualongdata/hanlp-ext Elasticsearch 默认对中文分词是按“字”进行分词的,这是肯定不能达到我们进行分词搜索的要求的。官方有一个 SmartCN 中文分词插件,另外还有一个 IK 分词插件使用也比较广。但这里,我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。 Elasticsear

使用Ambari2.5(HDP2.6)搭建大数据环境

本文介绍在 CentOS 7 环境下使用 Ambari2.5 (HDP2.6) 搭建大数据环境。 推荐使用如下脚本将 Ambari/HDP 相关软件包下到本地后配置 yum 源安装,在线安装速度太慢会经常遇到包找不到情况。 12345wget -c http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.5.1.0/amb

Cassandra设置

操作系统修改操作系统的TCP keepalive 1sudo /sbin/sysctl -w net.ipv4.tcp_keepalive_time=60 net.ipv4.tcp_keepalive_intvl=60 net.ipv4.tcp_keepalive_probes=5 集群机制一致性哈希 Gossip协议:用于在环内节点之间传播Cassandra状态信息 Snitch:支持多个数据

Hive与Spark

Spark与Hadoop安装见此:安装Spark1.5与Hadoop2.6 注意:Spark官方提供的二进制发行版是不支持hive的,需要自行编译。 安装hive12wget -c http://mirrors.aliyun.com/apache/hive/hive-1.1.1/apache-hive-1.1.1-bin.tar.gztar apache-hive-1.1.1-bin.tar.

Spark实战:工程实践

工欲善其事,必先利其器。 (本文是基于 sbt 来配置 Spark 开发的工程化,支持 Scala/Java 编程语言。Python 和 R 用户需要使用其它方式来实现工程化。) 今天谈谈Spark开发中的工程化问题。我们都知道Spark程序是在集群上跑的,需要把程序打包后使用 $SPARK_HOME/bin/spark-sumibt 到Spark集群上。 在开发、测试时,每次代码修改后都打包、提

Cassandra升级更新

今天需要把集群安装的 cassandra 2.2.4 升级到 cassandra 2.2.5 ,这里记录下升级步骤。 (升级脚本见:https://gist.github.com/yangbajing/12461fcab190689f2499) 升级的主意事项和限制条件需求条件 Cassandra 2.0.x and 2.1.x: 需要 JRE 7 或更高版本(推荐JDK) Cassandra

安装Spark1.5.2与Hadoop2.6.2

build spark 1.5.212./dev/change-scala-version.sh 2.11./make-distribution.sh --name hadoop2.6-scala2.11 --tgz -Phadoop-2.6 -Pyarn -Phive -Phive-thriftserver -Dscala-2.11 1.6+可以添加:-Psparkr以支持 Spark R。 创

Cassandra用户认证

Cassandra默认是不需要用户名和密码登录的,这样其实并不安全。 修改配置文件:conf/cassandra.yaml 启动用户名密码登录: 12authenticator: PasswordAuthenticatorauthorizer: CassandraAuthorizer 重新启动Cassandra,再次使用 bin/cqlsh 登录会提示 AuthenticationFailed(‘

Mongodb 3.x 用户认证

Mongodb 3.x 的用户认证和 2.x 方式不一样,创建用户的语法已由 addUser 成成 createUser 了。 创建账号首先不使用 --auth 参数启动Mongodb, 1/opt/local/mongodb/mongodb-3.0/bin/mongod -f /opt/local/mongodb/etc/mongod.conf 此时登陆Mongodb并执行 show dbs 命