分类:bigdata

Ambari2.6(HDP2.6.5)安装记要

本文介绍在 CentOS 7 环境下使用 Ambari2.5 (HDP2.6) 搭建大数据环境。 推荐使用如下脚本将 Ambari/HDP 相关软件包下到本地后配置 yum 源安装,在线安装速度太慢会经常遇到包找不到情况。 1234567891011nohup wget -c http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updat

PostgreSQL从入门到不后悔

安装 PostgreSQL 10下载 PostgreSQL 10,postgresql-10.1-3-linux-x64-binaries.tar.gz。下载地址:https://get.enterprisedb.com/postgresql/postgresql-10.1-3-linux-x64-binaries.tar.gz。 (注:安装脚本如下(需要有 /opt/local 写权限),可使用

PostgreSQL高可用-主/热备集群

高可用性:数据库服务器可以一起工作, 这样如果主要的服务器失效则允许一个第二服务器快速接手它的任务 负载均衡: 允许多个计算机提供相同的数据 本文使用的主要技术有: CentOS 7 x86_64 PostgreSQL 9.6.5 系统安装、配置CentOS 7 安装12[hldev@centos7-001 ~]$ sudo yum -y install https://download

Elasticsearch集群设置

Elasticsearch是一个优秀的全文检索和分析引擎,由Shay Banon发起的一个开源搜索服务器项目,2010年2月发布。具有分布式性质和实时功能。 本文基于5.x版本,需要使用 Java 8 update 20或更新版。 配置Elasticsearch使用很方便,默认开箱即用。不过做为一个集群,还是需要稍做一些配置。整个配置都位于 config 目录,可以看到两个文件:elasticse

使用HanLP增强Elasticsearch分词功能

hanlp-ext 插件源码地址:https://github.com/hualongdata/hanlp-ext Elasticsearch 默认对中文分词是按“字”进行分词的,这是肯定不能达到我们进行分词搜索的要求的。官方有一个 SmartCN 中文分词插件,另外还有一个 IK 分词插件使用也比较广。但这里,我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。 Elasticsear

使用Ambari2.5(HDP2.6)搭建大数据环境

本文介绍在 CentOS 7 环境下使用 Ambari2.5 (HDP2.6) 搭建大数据环境。 推荐使用如下脚本将 Ambari/HDP 相关软件包下到本地后配置 yum 源安装,在线安装速度太慢会经常遇到包找不到情况。 12345wget -c http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.5.1.0/amb

Cassandra设置

操作系统修改操作系统的TCP keepalive 1sudo /sbin/sysctl -w net.ipv4.tcp_keepalive_time=60 net.ipv4.tcp_keepalive_intvl=60 net.ipv4.tcp_keepalive_probes=5 集群机制一致性哈希 Gossip协议:用于在环内节点之间传播Cassandra状态信息 Snitch:支持多个数据

Hive与Spark

Spark与Hadoop安装见此:安装Spark1.5与Hadoop2.6 注意:Spark官方提供的二进制发行版是不支持hive的,需要自行编译。 安装hive12wget -c http://mirrors.aliyun.com/apache/hive/hive-1.1.1/apache-hive-1.1.1-bin.tar.gztar apache-hive-1.1.1-bin.tar.

Spark实战:工程实践

工欲善其事,必先利其器。 (本文是基于 sbt 来配置 Spark 开发的工程化,支持 Scala/Java 编程语言。Python 和 R 用户需要使用其它方式来实现工程化。) 今天谈谈Spark开发中的工程化问题。我们都知道Spark程序是在集群上跑的,需要把程序打包后使用 $SPARK_HOME/bin/spark-sumibt 到Spark集群上。 在开发、测试时,每次代码修改后都打包、提

Cassandra升级更新

今天需要把集群安装的 cassandra 2.2.4 升级到 cassandra 2.2.5 ,这里记录下升级步骤。 (升级脚本见:https://gist.github.com/yangbajing/12461fcab190689f2499) 升级的主意事项和限制条件需求条件 Cassandra 2.0.x and 2.1.x: 需要 JRE 7 或更高版本(推荐JDK) Cassandra

安装Spark1.5.2与Hadoop2.6.2

build spark 1.5.212./dev/change-scala-version.sh 2.11./make-distribution.sh --name hadoop2.6-scala2.11 --tgz -Phadoop-2.6 -Pyarn -Phive -Phive-thriftserver -Dscala-2.11 1.6+可以添加:-Psparkr以支持 Spark R。 创

Cassandra用户认证

Cassandra默认是不需要用户名和密码登录的,这样其实并不安全。 修改配置文件:conf/cassandra.yaml 启动用户名密码登录: 12authenticator: PasswordAuthenticatorauthorizer: CassandraAuthorizer 重新启动Cassandra,再次使用 bin/cqlsh 登录会提示 AuthenticationFailed(‘

Mongodb 3.x 用户认证

Mongodb 3.x 的用户认证和 2.x 方式不一样,创建用户的语法已由 addUser 成成 createUser 了。 创建账号首先不使用 --auth 参数启动Mongodb, 1/opt/local/mongodb/mongodb-3.0/bin/mongod -f /opt/local/mongodb/etc/mongod.conf 此时登陆Mongodb并执行 show dbs 命

Elasticsearch初步使用

集群安装安装一个两个结节的简单集群,其中一个Master,一个Slave。两台机器的网络分别是: 12192.168.31.101 sc-007192.168.31.48 scdev-001 Master配置 123456789cluster: name: sc0node: name: sc-007 master: truenetwork: host: 192.168.31.101d

Canssandra开始

Install Cassandra1234567sudo mkdir -p /usr/app/cassandrasudo chown -R $(whoami) /usr/appcd /usr/app/cassandrawget http://apache.fayea.com/cassandra/2.1.11/apache-cassandra-2.1.11-bin.tar.gztar zxf apa

Spark小试牛刀

随着项目的运营,收集了很多的用户数据。最近业务上想做些社交图谱相关的产品,但因为数据很多、很杂,传统的数据库查询已经满足不了业务的需求。试着用Spark来做,权当练练手了。 安装Spark因为有Scala的开发经验,所以就不用官方提供的二进制包了,自编译scala 2.11版本。 下载Spark:http://ftp.cuhk.edu.hk/pub/packages/apache.org/spar