beh-manager4.1beh.pezy.cn/download/document/beh-manager4.1.2bu.pdf ·...

东方国信企业版大数据平台

普泽数据 1

BEH TM

Beh-Manager4.1.2部署手册

普泽创智

2017/3/31


普泽数据 2

公司简介

北京普泽数据技术有限公司（简称“普泽数据”）总部设在北京。其技术团队是中国

最早向 Hadoop 开源社区贡献开源代码的团队，创建并发展壮大 Hadoop 开源社区

（hadooper.cn）和一年一度 Hadoop in China 技术大会。

普泽数据专注于基于 Hadoop 技术的 Big Data 存储与实时分析领域，助力客户管理

和实时分析庞大的数据资产，发现蕴藏的商业价值，广泛惠泽当今数据为王的社会。

公司产品已在国内顶尖互联网公司和国家部委有非常成功的应用，主要客户包括淘宝、

支付宝、搜狐、、腾讯、中国移动、中国联通、中国电信、各大商业银行和公安部等。

普泽数据的宗旨是真诚合作共同发展。在日益竞争激烈的市场环境下，公司希望通过

提供技术领先的产品和优质高效的服务，与合作伙伴一起为客户打造大数据实时分析服务，

挖掘客户数据的价值，以此提高公司核心竞争力，实现与合作伙伴及客户的共同成长。

联系方式

QQ 群：156037371

邮箱：[email protected]

[email protected]

[email protected]

[email protected]

北京东方国信科技股份有限公司

北京普泽创智数据技术有限公司

mailto:[email protected]




普泽数据 3

第一章产品概述 ............................................................................................................................51.1产品背景 ...........................................................................................................................51.2 产品目的 ............................................................................................................................51.3 产品声明 ..........................................................................................................................5

第二章、基础环境安装部署...........................................................................................................62.1 运行环境 ..........................................................................................................................6

2.1.1 硬件运行环境.......................................................................................................62.1.2 软件环境...............................................................................................................62.1.3 网络环境...............................................................................................................62.1.4 浏览器要求...........................................................................................................6

2.2 安装包下载.......................................................................................................................62.3 安装准备 ..........................................................................................................................7

2.3.1准备服务器............................................................................................................72.3.2创建安装/启动用户..............................................................................................72.3.3 修改主机名...........................................................................................................82.3.4 修改主机名列表...................................................................................................82.3.5 配置时间同步.......................................................................................................82.3.6 配置免秘钥登录.................................................................................................102.3.7 服务器优化.........................................................................................................122.3.8 硬盘挂载.............................................................................................................12

2.4 建议安装目录结构.........................................................................................................142.5 安装 jdk .........................................................................................................................142.6 手动安装其他组件.........................................................................................................15

2.6.1 安装 zookeeper..................................................................................................152.6.2 安装 hadoop........................................................................................................17

2.6.2.1 hdfs.........................................................................................................172.6.2.2 YARN.........................................................................................................24

2.6.3 安装 HBASE..........................................................................................................322.6.4 安装 HIVE............................................................................................................342.6.5 安装 spark..........................................................................................................392.6.6 安装 flume..........................................................................................................402.6.7 安装 kafka..........................................................................................................412.6.8 安装 mahout........................................................................................................412.6.9 安装 pig..............................................................................................................422.6.10 安装 sqoop........................................................................................................422.6.11 安装 oozie........................................................................................................42

第三章、安装 beh-manager4.0....................................................................................................443.1、配置 mysql数据库.......................................................................................................45

3.1.1导入数据库..........................................................................................................453.1.2修改数据库..........................................................................................................45

3.2、修改配置文件...............................................................................................................473.2.1 修改 agent相关配置文件 .................................................................................47

3.2.1.1 修改 agent-conf.properties ............................................................473.2.1.2 修改 agent-core.properties ..............................................................48


普泽数据 4

3.2.1.3 修改 agent-rule.properties ..............................................................483.2.2 修改 rest相关配置文件 ...................................................................................49

3.2.2.1数据库连接配置 ......................................................................................493.2.2.2hiveServer2相关 ....................................................................................493.2.2.3 安装位置设置.........................................................................................493.2.2.4服务管理相关设置 ..................................................................................49

3.2.3 修改 web相关配置文件 .....................................................................................503.2.4 修改端口号.........................................................................................................51

3.3、添加执行权限...............................................................................................................513.4、分发 ..............................................................................................................................51

第四章、其他相关配置.................................................................................................................524.1、获取 acl权限...............................................................................................................52

4.1.1 hdfs开启 acl权限............................................................................................524.1.2 hive开启 acl权限............................................................................................534.1.3 hbase开启 acl权限..........................................................................................54

4.2、solr安装 .....................................................................................................................544.2.1 solr-cloud安装................................................................................................544.2.2向 zookeeper上传配置文件 ..............................................................................55

4.3、yarn 配置文件修改.....................................................................................................57五、启动 beh-manager进程.........................................................................................................58

5.1、启动进程 ......................................................................................................................585.1.1 启动 agent..........................................................................................................585.1.2 启动 rest............................................................................................................585.1.3 启动 web..............................................................................................................59

5.2、检查进程启动是否成功...............................................................................................595.2.1 确认 agent进程.................................................................................................595.2.2 确认 rest............................................................................................................605.2.3 确认 web进程.....................................................................................................60

5.3 登录 ................................................................................................................................60六、附件 ........................................................................................................................................61


普泽数据 5

第一章产品概述

1.1产品背景

我们正处在一个数据爆发增长的时代。移动互联网、移动终端和数据感应器的出现，

使数据以超出人们想象的速度在快速增长。据国际数据资讯公司(Global Pulse)估测，数据

数量一直在快速增加，这个速度不仅是指数据流的增长，而且还包括全新的数据种类的增

多。目前数据容量增长的速度，已经大大超过了硬件技术的发展速度，并正在引发数据存

储和处理的危机。据统计，2013 年全球产生的数据达到 3.5ZB，到 2020 年产生的数量将增

至 44ZB，超出存储空间 6ZB(1ZB 相当于 343.6 亿部 32GB 智能手机的存储容量)。“大数据”一词来自于未来学家托夫勒于 1980 年所著的《第三次浪潮》。最早开始对大

数据进行应用探索的是 2005 年雅虎公司的 Hadoop 项目。Hadoop 其最初只是用来解决网

页搜索问题的一个项目，后被 Apache Software Foundation 公司引入并成为开源应用。

Hadoop 是由多个软件产品组成的一个生态系统，这些软件产品共同实现全面功能和灵活的

大数据分析。

在未来一段时间内，大数据将成为企业、社会和国家层面重要的战略资源。大数据将

不断成为各类机构，尤其是企业的重要资产，成为提升机构和公司竞争力的有力武器。企

业将更加钟情于用户数据，充分利用客户与其在线产品或服务交互产生的数据，并从中获

取价值。此外，在市场影响方面，大数据也将扮演重要角色——影响着广告、产品推销和

消费者行为。

大数据分析将出现一系列重大变革。就像计算机和互联网一样，大数据可能是新一波

的技术革命。基于大数据的数据挖掘、机器学习和人工智能可能会改变小数据里的很多算

法和基础理论，这方面很可能会产生理论级别的突破。

世界已经不再将应用作为独有的优势，相反，数据则能够带来在 B2B 和 B2C 领域内确

立独特优势的关键点。在数据管理中，以数据为中心的模式将会取代传统以应用为中心的

模式。

1.2产品目的

BEH 的宗旨是帮助客户处理大数据问题，让拥护大量用户数据但却没有能力或者没有

技术的客户能够享受用户数据带来的价值，BEH 也可以帮助拥有大量数据但是却不知道怎

么挖掘其中价值的客户找到挖掘数据价值的方向和方法。

BEH 大数据平台内部不仅包含了现阶段成熟的大数据处理技术组件，还有北京东方国信科

技股份有限公司（以下简称东方国信）自己开发的相关应用和组件，能为客户提供包含数

据存储、资源调度、ETL 作业引擎、Hadoop 作业调度、开放作业管理、元数据管理和

NoSQL 数据储存及查询等相关技术和实现。

1.3 产品声明

beh-manager4.1.2开发基于 cdh5.7.0，beh7.0。其他版本兼容性尚未测试。


普泽数据 6

第二章、基础环境安装部署

2.1 运行环境

2.1.1 硬件运行环境

环境节点数：最少 1 台，推荐 4 台；

CPU：Intel 或 AMD 4 核及以上主流型号；

内存：单台机器的内存至少 8GB ECC RAM，推荐 32GB 及以上 ECC RAM；

存储：只需使用本地硬盘，推荐单台机器 6 个硬盘盘位；硬盘型号不做特别要求，为

降低系统构建成本，可以采用 SATA 中端普通服务器硬盘；硬盘空间大小随应用的数

据规模而定；

网卡：千兆或者万兆网卡，为了达到最佳性能推荐使用多网卡并在交换机上进行链路

聚合。

2.1.2 软件环境

OS：64 位 RHEL5 及以上或者 64 位 CentOS7.0 及以上

JVM：预装 64 位 JDK 1.8 及以上版本

其他库：

Bash

2.1.3 网络环境

网络：各机器之间默认开放

50060、50070、50075、50030、23188、23125、23141、23140、23130、23189、23344、23999、60030、60000、60020、60010、10000、8086、2181、8080、9000、9001、3306、9290、10090 端口。其他对外开放的端口随应用需求而定。

2.1.4 浏览器要求

Firefox 39.0.0 版本及以上或者 Google Chrome 54.0.2840.8 版本及以上。

2.2 安装包下载


普泽数据 7

组件链接及密码

BEH-7.0 链接：http://pan.baidu.com/s/1gffrrDx 密

码：6b6jBEH-Manager-4.1.2 安装包于官方网站下载：http://beh.pezy.cn/

2.3 安装准备

2.3.1准备服务器

每个 BEH 组件部署实例一般需要多台（推荐四台或者四台以上）硬件、网络、操作系

统和用户同构的局域网内部机器。

2.3.2创建安装/启动用户

注：为保证系统安全性，强烈不推荐采用系统 root用户进行安装运行，故创建用户

hadoop或者其它。本文以 hadoop用户为示例。

所有节点分别操作，以 root用户身份登陆服务器，创建大数据平台安装和使用用户

hadoop：

创建用户组 hadoop：

groupadd hadoop

创建用户 hadoop 并分配至 hadoop 用户组：

useradd –g hadoop hadoop

注：第一个 hadoop是用户组名，第二个 hadoop是用户名。

设置 hadoop 用户密码：

passwd hadoop

******

su - hadoop 切换到 hadoop 用户

一次性拷贝执行：

groupadd hadoop

useradd -g hadoop hadoop

passwd hadoop


普泽数据 8

2.3.3 修改主机名

注：主机名如果在服务器装系统时已经指定则不用修改，此步骤跳过。

所有节点分别操作，在各个节点执行以下操作来修改主机名，使集群下的主机有格式

一个统一的主机名，以便后续的操作和维护。

使用 root 用户修改主机名

vim /etc/hostname

文件内容修改为：

hadoop001 （hadoop001为想改的主机名,分别修改自己的）

在对应主机上执行以下命令，使主机名生效：

hostname hadoop***

注：主机名（hadoop0**）与主机相对应。

2.3.4 修改主机名列表

使用 root 用户修改/etc/hosts （所有节点都操作，且内容相同）

vim /etc/hosts

添加以下内容：

192.168.9.10 hadoop001

192.168.9.11 hadoop002

192.168.9.12 hadoop003

192.168.9.13 hadoop004

……

2.3.5 配置时间同步

root 用户下,所有节点分别操作：su - root使用 rpm -qa ntp 可以查看是否已安装 ntp 服务，如果已安装则直接跳过此步骤，如果

没有参考如下：

yum 安装

#yum -y install ntp

此种安装方式需要连接到互联网。或 rpm 安装，源码安装。请自行百度

设置 hadoop001 时间：例如

将时间修改成：19:39:00


普泽数据 9

[root@hadooo010 ~]# date -s 19:39:00

2016 年 03 月 31 日星期四 19:39:00 CST修改 hadoop001 下的文件/etc/ntp.conf

vim /etc/ntp.conf

修改为（这里只有有效的配置，#号注释的没有记录）：黄色为新加

driftfile /var/lib/ntp/drift

restrict default nomodify notrap

restrict 127.0.0.1

restrict ::1

server s2c.time.edu.cn

fudge 127.127.1.0 stratum 10

includefile /etc/ntp/crypto/pw

keys /etc/ntp/keys

分别在其他节点修改文件/etc/ntp.conf

vim /etc/ntp.conf

修改为（这里只有有效的配置，#号注释的没有记录）：

driftfile /var/lib/ntp/drift

restrict default kod nomodify notrap nopeer noquery

restrict -6 default kod nomodify notrap nopeer noquery

restrict 127.0.0.1

restrict ::1

server hadoop001（这里都写一台要同步的那个主机名 hadoop001）

includefile /etc/ntp/crypto/pw

keys /etc/ntp/keys

scp 到其他节点

scp -r /etc/ntp.conf root@hadoop***:/etc/ntp.conf

在所有节点上做如下设置（首先在 hadoop001 上设置）：

设置 ntpd 服务开机启动：

systemctl enable ntpd.service

查看设置是否成功：

systemctl status ntpd.service

启动 ntpd 服务：

mailto:root@hadoop***:/etc/ntp.conf


普泽数据 10

systemctl start ntpd.service

查看时间同步状态：

ntpstat

显示如下信息，表示时间服务正在重启，则需等待 5-10 分钟：

unsynchronised

time server re-starting

polling server every 64 s

10 分钟后查看同步状态：

ntpstat

显示如下信息，则表示时间同步成功：

synchronised to NTP server (192.168.1.101) at stratum 10

time correct to within 26 ms

polling server every 64 s

一次性拷贝执行：

systemctl enable ntpd.service

systemctl status ntpd.service

systemctl start ntpd.service

ntpstat

plus：要是不同步的话可以先关掉，然后再开启看看是否成功

2.3.6 配置免秘钥登录

默认 BEH 的安装用户为 hadoop，下面详细介绍配置各节点的 hadoop 用户之间无密码

登录到本节点和其他节点的过程。

hadoop 用户登录 hadoop001 节点，执行以下指令生成一对密钥(hadoop 用户下)

ssh-keygen –t rsa

回车——回车——回车

登录 hadoop002 节点生成密钥，并传给 hadoop001

ssh-keygen –t rsa

scp /home/hadoop/.ssh/id_rsa.pub hadoop@hadoop001:/home/hadoop/.ssh/id_rsa.pub002


ssh-keygen –t rsa


普泽数据 11



ssh-keygen –t rsa



ssh-keygen –t rsa



ssh-keygen –t rsa


登录 hadoop001 节点，组合所有公钥

cd ~/.ssh

cat id_rsa.pub >> authorized_keys

cat id_rsa.pub002 >> authorized_keys





chmod 600 authorized_keys

注：一定要修改文件权限，否则无法实现免密登录。

分发密钥文件：在 hadoop001 上操作

scp /home/hadoop/.ssh/authorized_keys hadoop@hadoop002:~/.ssh/





注：以上所有登陆节点、传输文件过程都需要输入对应节点 hadoop用户的登录密钥。

到此，免密成功，所有节点可以相互之间免密登录。


普泽数据 12

测试 ssh hadoop002

2.3.7 服务器优化

Linux 版本 CentOS 7.0由于系统默认单个进程打开的句柄数过低，所以首先要修改一下参数：

root 用户分别修改

由于系统默认单个进程打开的句柄数过低，所以首先要修改一下参数：

vim /etc/security/limits.conf

修改或添加以下内容

* soft nofile 131072

* hard nofile 131072

hadoop soft nofile 131072

hadoop hard nofile 131072

vim /etc/security/limits.d/90-nproc.conf

修改或添加以下内容

* soft nproc 1024

root soft nproc unlimited

hadoop soft nproc unlimited

hadoop hard nproc unlimited

注：修改以上两个配置文件务必小心，一旦写错可能引起用户无法登陆或系统启动失

败。

2.3.8 硬盘挂载

注：若硬盘已经挂载并设置开机自动挂载则不用执行此项；红色字体需要在执行时根

据实际系统替换成相应的参数。

1、以 root 身份执行以下命令：

su – root

2、查看服务器上所有的硬盘：

fdisk –l

3、重新在硬盘上创建分区信息：

fdisk /dev/sd***


普泽数据 13

n

p

1

(回车)

(回车)

w

4、格式化硬盘为 ext3 文件系统格式：

mkfs.ext3 /dev/sd***1

5、挂载硬盘至/data/data**目录：

mount /dev/sd***1 /data/data**

6、设置硬盘开机启动自动挂载：

vim /etc/fstab

在文件末尾添加

/dev/sd***1 /data/data** ext3 defaults 0 0

7、设置 data 目录权限：

chown –R hadoop:hadoop /data/*


普泽数据 14

2.4 建议安装目录结构

2.5 安装 jdk

注：因为大数据所有组件都是在 JVM环境中运行，所以在安装其他组件之前必须安装

首先 JDK。

jdk 版本推荐安装 1.8下载地址 http://pan.baidu.com/s/1c3kcWm 密码：alcj 或者官网自行下载

上传至服务器 hadoop 用户下：/home/hadoop解压

tar -zxvf jdk-8u101-linux-x64.gz

改名

mv jdk1.8.0_101 jdk

http://pan.baidu.com/s/1c3kcWm


普泽数据 15

修改环境变量

vim beh_env

添加以下内容

export BEH_HOME=/opt/beh

export JAVA_HOME=/home/hadoop/jdk

export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$SQOOP_HOME/lib:$SPARK_HOME/lib:$CLASSPATH

export PATH=$FLUME_HOME/bin:$KAFKA_HOME/bin:$ZOOKEEPER_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HBASE_HOME/bin:$HIVE_HOME/bin:$SQOOP_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$SCALA_HOME/bin:$WXS_HOME:$PATH

在家目录下/home/hadoop 执行以下命令

vim .bashrc

添加以下内容

source /home/hadoop/beh_env

source ~/.bashrc

其他节点同上

2.6 手动安装其他组件

2.6.1 安装 zookeeper

注：以下所有安装默认是在 hadoop001上执行！

1. 解压并移动软件包（在所有节点执行）

将 zookeeper-3.4.5-cdh5.7.0.tar.gz 解压缩到/opt/beh/core 下，并重命名为 Zookeeper。

tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz

mv zookeeper-3.4.5-cdh5.7.0 /opt/beh/core/zookeeper

2. 修改配置文件（在 hadoop001 执行）

修改 Zookeeper 配置文件/opt/beh/core/zookeeper/conf/zoo_sample.cfg 重名为 zoo.cfg。进入到 conf 目录下，执行：

mv zoo_sample.cfg zoo.cfg


普泽数据 16

修改 zoo.cfg

tickTime=2000

initLimit=10

syncLimit=5

dataDir=/opt/beh/core/zookeeper/dataDir

clientPort=2181

maxClientCnxns=5000

minSessionTimeout=1000

maxSessionTimeout=60000

server.1=hadoop001:2888:3888



修改 log4j.properties 文件

vim log4j.properties

修改以下参数：

zookeeper.log.dir=$BEH_HOME/logs/zookeeper

zookeeper.tracelog.dir=$BEH_HOME/logs/zookeeper

3. 创建相关目录

创建/opt/beh/core/zookeeper/dataDir 目录，并在此目录下创建 myid 文件。

mkdir /opt/beh/core/zookeeper/dataDir

cd /opt/beh/core/zookeeper/dataDir

vim myid

在文件中写入数字

1

4. 分发 zookeeper 软件包

scp -r /opt/beh/core/zookeeper hadoop@hadoop002:/opt/beh/core/

scp -r /opt/beh/core/zookeeper hadoop@hadoop004:/opt/beh/core/

5. 修改 myid 文件

ssh hadoop@hadoop002

vim /opt/beh/core/zookeeper/dataDir/myid

修改文件中数字为 2

mailto:hadoop@hadoop002/opt/beh-6.5/core/

mailto:hadoop@hadoop004/opt/beh-6.5/core/


普泽数据 17

2


vim /opt/beh/core/zookeeper/dataDir/myid

修改文件中数字为 3

3

6. 修改环境变量

vim /opt/beh/conf/beh_env

添加

export ZOOKEEPER_HOME=$BEH_HOME/core/zookeeper

export ZOO_LOG_DIR=$BEH_HOME/logs/zookeeper

export PATH=$ZOOKEEPER_HOME/bin:$PATH

注：重新登录终端环境变量生效。

7. 启动 Zookeeper在 hadoop001，hadoop002，hadoop004 上执行

zkServer.sh Start

查看进程 QuorumPeerMain 是否启动

jps

查看 zookeeper 状态

zkServer.sh status

2.6.2 安装 hadoop

hadoop 部分的配置分为两部分 hdfs 和 yarn。

2.6.2.1 HDFS

1. 解压并移动软件包（在所有节点执行）

将 hadoop-2.6.0-cdh5.7.0.tar.gz 解压到/opt/beh/下，并重命名为 hadoop，示例如下：

$ cd /opt/beh/cores

$ tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz

2. 修改配置文件

修改 core-site.xml（如果文件不存在，但是 core-site.xml.template 文件存在，则先修改

文件名，执行 mv core-site.xml.template core-site.xml）


普泽数据 18

vim /opt/beh/core/hadoop/etc/hadoop/core-site.xml

修改为以下内容：

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://beh</value>

<final>false</final>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/beh/tmp/hadoop</value>


<description/>

</property>

<property>

<name>ha.zookeeper.quorum</name>

<value>hadoop001:2181,hadoop002:2181,hadoop004:2181</value>


<description/>

</property>

<property>

<name>fs.trash.interval</name>

<value>5</value>

<description>Number of minutes between trash checkpoints.

if zero, the trash feature is disabled.</description>

</proerty>

</configuration>

修改 hdfs-site.xml

vim /opt/beh/core/hadoop/etc/hadoop/hdfs-site.xml


<configuration>

<property>


普泽数据 19

<name>dfs.nameservices</name>

<value>beh</value>


<description/>

</property>

<property>

<name>dfs.ha.namenodes.beh</name>

<value>nn1,nn2</value>


<description/>

</property>

<property>

<name>dfs.namenode.rpc-address.beh.nn1</name>

<value>hadoop001:9000</value>


<description/>

</property>

<property>

<name>dfs.namenode.http-address.beh.nn1</name>

<value>10.160.3.147:50070</value>


<description/>

</property>

<property>

<name>dfs.namenode.rpc-address.beh.nn2</name>



<description/>

</property>

<property>

<name>dfs.namenode.http-address.beh.nn2</name>



普泽数据 20


<description/>

</property>

<property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://hadoop001:8485;hadoop002:8485;hadoop004:8485/beh</value>


<description/>

</property>

<property>

<name>dfs.ha.automatic-failover.enabled.beh</name>

<value>true</value>


<description/>

</property>

<property>

<name>dfs.client.failover.proxy.provider.beh</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>


<description/>

</property>

<property>

<name>dfs.journalnode.edits.dir</name>

<value>/opt/beh/metadata/journal</value>


<description/>

</property>

<property>

<name>dfs.ha.fencing.methods</name>


普泽数据 21

<value>sshfence</value>


<description/>

</property>

<property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

<value>/home/hadoop/.ssh/id_rsa</value>

<final>true</final>

<description/>

</property>

<property>

<name>dfs.data.dir</name>

<value>/data/data01,/data/data02,/data/data03,/data/data04,/data/data05,/data/data06,/data/data07,/data/data08,/data/data09,/data/data10,/data/data11,/data/data12,/data/data13,/data/data14</value>


<description/>

</property>

<property>

<name>dfs.block.size</name>

<value>134217728</value>


<description/>

</property>

<property>

<name>dfs.datanode.handler.count</name>

<value>20</value>


<description>default value is 10.</description>

</property>

<property>

<name>dfs.namenode.handler.count</name>


普泽数据 22

<value>20</value>


<description>default value is 10.</description>

<description/>

</property>

<property>

<name>dfs.datanode.max.xcievers</name>



<description/>

</property>

<property>

<name>dfs.datanode.socket.write.timeout</name>



<description/>

</property>

<property>

<name>dfs.socket.timeout</name>



<description/>

</property>

<property>

<name>dfs.datanode.failed.volumes.tolerated</name>

<value>6</value>


<description/>

</property>

<property>

<name>dfs.replication</name>

<value>3</value>


普泽数据 23


<description/>

</property>

<configuration>

修改 slaves

vim $BEH_HOME/core/hadoop/etc/hadoop/slaves


hadoop003

hadoop004

hadoop005

hadoop006

3. 创建 HDFS 数据路径

在数据节点执行以下命令创建 HDFS 文件存储路径（根据服务器的实际硬盘数创建相

应个/data/data**目录）：

su – root

mkdir –p /data/{data01,data02,data03,data04,data05,data06,data07,data08,data09,data10,data11,data12,data13,data14}

chown –R hadoop:hadoop /data

4. 分发配置文件

scp /opt/beh/core/hadoop/etc/hadoop/* hadoop@hadoop002:/opt/beh/core/hadoop/etc/hadoop/





注：将以上配置复制到所有节点


在所有节点上修改 beh_env

vim $BEH_HOME/conf/beh_env


普泽数据 24


export HADOOP_HOME=$BEH_HOME/core/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH


6. 启动 HDFS启动 journalnode（进程名：JournalNode）：

$HADOOP_HOME/sbin/hadoop-daemon.sh start journalnode

启动 namenode（进程名：NameNode）：

$HADOOP_HOME/sbin/hadoop-daemon.sh start namenode

启动（zkfc 服务进程名：DFSZKFailoverController）：

$HADOOP_HOME/sbin/hadoop-daemon.sh start zkfc

启动 datanode（进程名：DataNode）：

$HADOOP_HOME/sbin/hadoop-daemon.sh start datanode

2.6.2.2 YARN


（1）修改 mapred-site.xml

vim $HADOOP_HOME/etc/hadoop/mapred-site.xml


<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<property>

<description>Classpath for typical applications.</description>

<name>yarn.application.classpath</name>

<value>$HADOOP_COMMON_HOME/share/hadoop/common/*,$HADOOP_COMMON_HOME/share/hadoop/common/lib/*,$HADOOP_HDFS_HOME/share/hadoop/hdfs/*,$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*,$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*,$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*,$HADOOP_YAR

普泽数据 25

N_HOME/share/hadoop/yarn/*,$HADOOP_YARN_HOME/share/hadoop/yarn/lib/*</value>

</property>



<property>

<name>mapreduce.jobhistory.address</name>


</property>

<property>

<name>mapreduce.jobhistory.webapp.address</name>


</property>



<property>

<name>yarn.app.mapreduce.am.staging-dir</name>

<value>/opt/beh/metadata/hadoop-yarn/staging</value>

</property>



<property>

<name>mapred.child.java.opts</name>

<value>-Xmx2g</value>

</property>

<name>io.sort.mb</name>

<value>512</value>

</property>

<property>

<name>io.sort.factor</name>

<value>20</value>

</property>

<property>

<name>mapred.job.reuse.jvm.num.tasks</name>

<value>10</value>


普泽数据 26

</property>

【jvm重用次数待调整，暂定为 10】

<property>

<name>mapreduce.reduce.shuffle.parallelcopies</name>

<value>20</value>

</property>

</configuration>

（2）修改 yarn-site.xml

vim $HADOOP_HOME/etc/hadoop/yarn-site.xml


<?xml version=”1.0” encoding=”UTF-8”?>

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.nodemanager.local-dirs</name>

<value>/opt/beh/metadata/yarn</value>

</property>

<property>

<name>yarn.nodemanager.log-dirs</name>

<value>/opt/beh/logs/yarn/userlogs</value>

</property>

<property>

<name>yarn.log-aggregation-enable</name>

<value>true</value>

</property>

普泽数据 27

<property>

<description>Where to aggregate logs</description>

<name>yarn.nodemanager.remote-app-log-dir</name>

<value>hdfs://beh/var/log/hadoop-yarn/apps</value>

</property>



<property>

<name>yarn.resourcemanager.connect.retry-interval.ms</name>

<value>2000</value>

</property>

<property>

<name>yarn.resourcemanager.ha.enabled</name>

<value>true</value>

</property>

<property>

<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>

<value>true</value>

</property>

<property>

<name>yarn.resourcemanager.ha.automatic-failover.embedded</name>

<value>true</value>

</property>

<property>

<name>yarn.resourcemanager.cluster-id</name>

<value>beh</value>

</property>

<property>

<name>yarn.resourcemanager.ha.rm-ids</name>

<value>rm1,rm2</value>

</property>

普泽数据 28

<property>

<name>yarn.resourcemanager.ha.id</name>

<value>rm1</value>

</property>

<property>

<name>yarn.resourcemanager.scheduler.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>

</property>

<property>

<name>yarn.resourcemanager.recovery.enabled</name>

<value>true</value>

</property>

<property>

<name>yarn.resourcemanager.store.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>

</property>

<property>

<name>yarn.resourcemanager.zk.state-store.address</name>


</property>

<property>

<name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name>

<value>5000</value>

</property>



<property>

<name>yarn.resourcemanager.address.rm1</name>


</property>

<property>

普泽数据 29

<name>yarn.resourcemanager.scheduler.address.rm1</name>


</property>

<property>

<name>yarn.resourcemanager.webapp.https.address.rm1</name>


</property>

<property>

<name>yarn.resourcemanager.webapp.address.rm1</name>


</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address.rm1</name>


</property>

<property>

<name>yarn.resourcemanager.admin.address.rm1</name>


</property>



<property>

<name>yarn.resourcemanager.address.rm2</name>


</property>

<property>

<name>yarn.resourcemanager.scheduler.address.rm2</name>


</property>

<property>

<name>yarn.resourcemanager.webapp.https.address.rm2</name>


</property>

普泽数据 30

<property>

<name>yarn.resourcemanager.webapp.address.rm2</name>


</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address.rm2</name>


</property>

<property>

<name>yarn.resourcemanager.admin.address.rm2</name>


</property>



<property>

<description>Address where the localizer IPC is.</description>

<name>yarn.nodemanager.localizer.address</name>

<value>0.0.0.0:23344</value>

</property>

<property>

<description>NM Webapp address.</description>

<name>yarn.nodemanager.webapp.address</name>

<value>0.0.0.0:23999</value>

</property>

<property>

<name>yarn.nodemanager.local-dirs</name>

<value>/opt/beh/hadoop/nodemanager/yarn/local</value>

</property>

<property>

<name>yarn.nodemanager.log-dirs</name>

<value>/opt/beh/hadoop/nodemanager/yarn/log</value>

</property>

<property>


普泽数据 31

<name>mapreduce.shuffle.port</name>


</property>

<property>

<name>yarn.resourcemanager.zk-address</name>


</property>

</configuration>

2. 分发配置文件

将配置文件分发至所有节点：

scp mapred-site.xml hadoop@hadoop002:$HADOOP_HOME/etc/hadoop/





scp yarn-site.xml hadoop@hadoop002:$HADOOP_HOME/etc/hadoop/





3. 修改 hadoop2 上的 yarn-site.xml


vim $HADOOP_HOME/etc/hadoop/yarn-site.xml

修改为下面的值：

<property>

<name>yarn.resourcemanager.ha.id</name>

<value>rm2</value>

</property>

4. 启动 Yarn主节点启动 yarn（启动本机上的 resourcemanager 进程和所有的 nodemanager 进程）：

$HADOOP_HOME/sbin/start-yarn.sh


普泽数据 32

备节点启动 ResourceManager（启动备节点的 resourcemanager 进程）：

$HADOOP_HOME/sbin/yarn-daemon.sh start resourcemanager

启动 history（进程名：historyserver）：

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

2.6.3 安装 HBASE

1. 解压软件包

将 HBase-1.2.0-cdh5.7.0.tar.gz 解压缩，移动到/opt/beh/core 下，并重命名为 hbase。

tar -zxvf HBase-1.2.0-cdh5.7.0.tar.gz

mv HBase-1.2.0-cdh5.7.0 /opt/beh/core/hbase


（1）打开 hbase/conf/hbase-env.sh 加入如下内容

export JAVA_HOME=/opt/beh/core/jdk

export HBASE_MANAGES_ZK=false

export HBASE_HOME=/opt/beh/core/hbase

export HADOOP_INSTALL=/opt/beh/core/hadoop

（2）修改 hbase-env.sh 中部分参数为：

export HBASE_OPTS="$HBASE_OPTS"

export HBASE_LOG_DIR=${BEH_HOME}/logs/hbase

export HBASE_PID_DIR=$BEH_HOME/tmp/pids

（3）修改 hbase/conf/hbase-site.xml 为：

<?xml version=”1.0”?>

<?xml-stylesheet type=”text/xsl” href=”configuration.xsl”?>

<configuration>

<property>

<name>hbase.rootdir</name>

<value>hdfs://hadoo001:9000/beh/hbase</value>

</property>

<property>

<name>hbase.cluster.distributed</name>

<value>true</value>


普泽数据 33

</property>

<property>

<name>hbase.zookeeper.quorum</name>

<value>hadoop001,hadoop002,hadoop004</value>

</property>

<property>

<name>hbase.master</name>


</property>

<property>

<name>hbase.tmp.dir</name>

<value>/opt/beh/metadata/hbase</value>

</property>

</configuration>

注：因为集群配置了 HBase的 HA，所以参数 hbase.master的值只写端口号 60000，不

写主机名。

3. 编辑 regionservers

cd /opt/beh/core/hbase/conf

vim regionservers

将所有的 slavenode 添加到这个文件中

hadoop003

hadoop004

hadoop005

hadoop006

4. 拷贝 Hadoop 的配置文件

cp ${HADOOP_HOME}/etc/hadoop/core-site.xml ${HBASE_HOME}5. 分发 hbase 软件包

scp -r /opt/beh/core/hbase hadoop@hadoop004:/opt/beh/core/




在所有节点修改 beh_env


普泽数据 34


打开后加入

export HBASE_HOME=$BEH_HOME/core/hbase

export PATH=$HBASE_HOME/bin:$PATH


7. 启动 hbase

cd /opt/beh/core/hbase/bin

./start-hbase.sh

单步启动 HBase 相关进程

hbase-daemon.sh start/stop/restart master/regionserver

8. 验证 HBase在 hadoop001 运行 jps 查看 HMaster 进程是否启动

在 hadoop004、hadoop005、hadoop006 运行 jps 查看 HRegionServer 进程是否启动。

9. 测试

hbase shell

create 'test',{NAME => 'cf', VERSIONS => 3}

put 'test','rowkey001','cf:col','value001'

get 'test','rowkey001', 'cf:col'

disable 'test'

drop 'test'

2.6.4 安装 HIVE

1. 解压软件包

将 hive-1.1.0-cdh5.7.0.tar.gz 解压缩，移动到/opt/beh/core 下，并重命名为 hbase。

tar –zxvf hive-1.1.0-cdh5.7.0.tar.gz

mv hive-1.1.0-cdh5.7.0 /opt/beh/core/hive

注：目录结尾不要加/

2. 修改配置文件：

（1）修改 hive-site.xml

vim /opt/beh/core/hive/conf/hive-site.xml

配置参数修改如下：

<?xml version="1.0" encoding="UTF-8"?>


普泽数据 35

<configuration>

<property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://hadoop001:3306/hive?createDatabaseIfNotExist=true</value>

</property>

<property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<property>

<name>javax.jdo.option.ConnectionUserName</name>

<value>root</value>

</property>

<property>

<name>javax.jdo.option.ConnectionPassword</name>


</property>

<property>

<name>hive.exec.scratchdir</name>

<value>/opt/beh/metadate/hive/hivescratchdir/hive-${user.name}</value>

</property>

<property>

<name>hive.exec.parallel</name>

<value>true</value>

</property>

<property>

<name>hive.exec.parallel.thread.number</name>

<value>16</value>

</property>

<property>

<name>hive.cli.print.row.to.vertical</name>


普泽数据 36

<value>true</value>

</property>

<property>

<name>hive.cli.print.current.db</name>

<value>true</value>

</property>

<property>

<name>hive.auto.convert.join</name>

<value>true</value>

<description>automatically enable mapside join</description>

</property>

<property>

<name>hive.mapjoin.smalltable.filesize</name>


<description>small table size (bytes)</description>

</property>

<property>

<name>hive.exec.dynamic.partition</name>

<value>true</value>

<description>enable dynamic partition</description>

</property>

<property>

<name>hive.exec.dynamic.partition.mode</name>

<value>strict</value>

<description>whether or not allow all the partitions are dynamic</description>

</property>

<property>

<name>hive.exec.max.dynamic.partitions.pernode</name>

<value>1000</value>

<description>number of partitions that one dynamic clause can create</description>

</property>

普泽数据 37

<property>

<name>hive.mapred.mode</name>

<value>strict</value>

</property>

<property>

<name>hive.server2.thrift.port</name>


</property>

<property>

<name>hive.server2.thrift.bind.host</name>

<value>192.168.1.100</value> 

</property>

<property>

<name>hive.exec.compress.output</name>

<value>true</value>

</property>

<property>

<name>hive.files.umask.value</name>

<value>0002</value>

</property>

<property>

<name>hive.metastore.authorization.storage.checks</name>

<value>true</value>

</property>

<property>

<name>hive.metastore.execute.setugi</name>

<value>true</value>

</property>

</configuration>

（2）生成 hive-log4j.properties 文件：

mv hive-log4j.properties.template hive-log4j.properties


普泽数据 38

修改 hive-log4j.properties:

hive.log.dir=$BEH_HOME/logs/hive/${user.name}

（3）生成 hive-exec-log4j.properties 文件：

mv hive-exec-log4j.properties.template hive-exec-log4j.properties

修改 hive-exec-log4j.properties:

hive.log.dir=$BEH_HOME/logs/hive/${user.name}

3. 导入驱动包

将 MySQL 的驱动包复制到 Hive 的 lib 目录下：

cp /home/Hadoop/software/mysql-connector-java-5.1.30.jar /opt/beh/core/hive/lib

4. 创建相关目录

创建 Hive 日志文件目录：

mkdir –p /opt/beh/logs/hive

创建 Hive 临时文件目录：

mkdir –p /opt/beh/tmp/hive

5. 增加或者修改环境变量：


在文件中增加或修改 Hive 的环境变量为：

export HIVE_HOME=/opt/beh/core/hive

export PATN=$PATH: $HIVE_HOME/bin

6. 授予 Hive 登录 MySQL 用户的相关权限

登录 MySQL 创建 Hive 数据库

mysql –uroot –p

create database hive;

grant all on hive.* to ‘hive’@'%' identified by 'hive';

grant all on hive.* to ‘hive’@’localhost’ identified by 'hive';

ALTER DATABASE hive CHARACTER SET latin1;


普泽数据 39

2.6.5 安装 SPARK

1. Spark 部署方法

（1）解压缩 spark 文件到目标文件夹下。

mv spark-1.3.1.tar.gz /opt/beh/core/

tar –zxvf spark-1.3.1.tar.gz

mv spark-1.3.1 spark

（2）拷贝 hdfs-site.xml 和 yarn-site.xml 到 spark/conf 目录下。

cp /opt/beh/core/hadoop/etc/hadoop/hdfs-site.xml . /opt/beh/core/spark/conf/

cp /opt/beh/core/hadoop/etc/hadoop/yarn-site.xml . /opt/beh/core/spark/conf/

（3）根据集群情况，配置 spark/conf 下 spark-env 和 spark-default 文件。

mv spark-env.sh.template spark-env.sh

（4）修改配置文件

vim spark-env.sh

添加或修改如下内容：

SPARK_LOG_DIR=$BEH_HOME/logs/spark

SPARK_PID_DIR=$BEH_HOME/tmp/spark

（5）分发 spark 软件包

cd /opt/beh/core/

scp –r spark hadoop002@hadoop:/opt/beh/core/




（6）修改环境变量


添加以下内容：

export SPARK_HOME=$BEH_HOME/core/spark

export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

2. Standalone 部署方式

（1）解压缩 spark 文件到集群所有目标文件夹下：


普泽数据 40

mv spark-1.3.1.tar.gz /opt/beh/core/

tar –zxvf spark-1.3.1.tar.gz

mv spark-1.3.1 spark

（2）拷贝 hdfs-site.xml 到 spark/conf 目录下：

cp /opt/beh/core/hadoop/etc/hadoop/hdfs-site.xml . /opt/beh/core/spark/conf/

cp /opt/beh/core/hadoop/etc/hadoop/yarn-site.xml . /opt/beh/core/spark/conf/

（3）修改配置文件

根据集群情况，配置 spark/conf 下 slaves，spark-env.sh 和 spark-default.conf 文件：

mv spark-env.sh.template spark-env.sh

mv spark-default.conf.template spark-default.conf

（4）启动 Spark在 spark/sbin 目录下执行 start-all.sh 启动 spark 集群，执行 stop-all.sh 停止 spark 集群。

2.6.6 安装 FLUME

1. 解压文件至集群所有目标文件夹下：

mv flume-ng-1.6.0-cdh5.7.0.tar.gz /opt/beh/core/

tar –zxvf flume-ng-1.6.0-cdh5.7.0.tar.gz

mv apache-flume-1.5.0-cdh5.3.5-bin flume

2. 分发 flume 软件包

cd /opt/beh/core/

scp –r flume hadoop002@hadoop:/opt/beh/core/




3. 分别在各个节点上修改环境变量


export FLUME_HOME=$BEH_HOME/core/flume

export PATH=$FLUME_HOME/bin:$PATH


普泽数据 41

2.6.7 安装 KAFKA


mv kafka_2.10-0.8.2.1.tgz /opt/beh/core/

tar –zxvf kafka_2.10-0.8.2.1.tgz

mv kafka_2.10-0.8.2.1 kafka

2. 分发 kafka 软件包

cd /opt/beh/core/

scp –r kafka hadoop002@hadoop:/opt/beh/core/






export KAFKA_HOME=$BEH_HOME/core/kafka

export PATH=$KAFKA_HOME/bin:$PATH

2.6.8 安装 MAHOUT


mv mahout-0.9-cdh5.7.0.tgz /opt/beh/core/

tar –zxvf kafka_2.10-0.8.2.1.tgz

mv mahout-0.9-cdh5.7.0 mahout

2. 分发 mahout 软件包

cd /opt/beh/core/

scp –r mahout hadoop002@hadoop:/opt/beh/core/






export MAHOUT_HOME=$BEH_HOME/core/mahout


普泽数据 42

export PATH=$MAHOUT_HOME/bin:$PATH

2.6.10 安装 SQOOP


mv sqoop2-1.99.4-cdh5.3.5.tar.gz /opt/beh/core/

tar –zxvf sqoop2-1.99.4-cdh5.3.5.tar.gz

mv sqoop2-1.99.4-cdh5.3.5 sqoop2

2. 分发 sqoop 软件包

cd /opt/beh/core/

scp –r sqoop2 hadoop002@hadoop:/opt/beh/core/






export SQOOP_HOME=$BEH_HOME/core/sqoop2

export PATH=$SQOOP_HOME/bin:$PATH


普泽数据 43

第三章、安装 beh-manager4.1.2

解压 BEH-Manager-4.1.2-release.tar.gz 压缩包到安装目录/opt/beh/core/下（安装目录可

任意指定）。

tar -xzvf BEH-Manager-4.1.2-release.tar.gz -C /opt/beh/core/

安装包目录结构

beh-manager #manager 主目录

--bin #启动命令目录

-- start-agent.sh 启动 agent 脚本

-- start-rest.sh 启动 rest 脚本

-- start-web.sh 启动 web 脚本

--share #各个组件的目录

-agen #agent 包目录

-- BEH-Manager-Agent.jar Agent 的.jar 包-- lib

--rest #rest 包目录

-- BEH-Manager-Rest.jar Rest 的.jar 包-- lib

--web Web 的.jar 包-- BEH-Manager-Web.jar-- lib

--logs #日志目录

-- conf #配置文件目录

agent-conf.propertiesagent-core.propertiesagent-rule.properties

agent-log4j.properties application.properties

application-default.properties #rest 配置文件

web-conf.yml

3.1、配置 mysql数据库

注：beh_manager_init.sql 文件已随附件上传，（请在官网附件下载链接中下载

http://beh.pezy.cn/download-six.html）。


普泽数据 44

3.1.1导入数据库（或使用 SQLyog工具导入）

1、将 beh_manager_init.sql 文件上传到集群/home/hadoop/下，登录 mysqlmysql -u root -p

2、创建数据库 beh_manager,并选择 beh_manager 数据库

mysql> create database beh_manager;mysql>use beh_manager;

3、导入 beh_manager_initt.sql 文件

mysql> source beh_manager_init.sql

4、检查是否导入成功

show tables;

3.1.2修改数据库

借助 mysql 工具（SqlYog）修改数据库 beh_manger 内相关数据表。

1、依照逻辑关系，首先修改主机列表 t_host。

name 字段填写集群主机名，ip 字段填写 IP 地址，其余采用默认，不用修改。

id 字段自由指定。

注意：updated_date 和 created_date 字段要为 Null

2、修改组件列表 t_component组件列表只需修改 instal_path 字段。该字段填写各个组件相对路径名称。

举个例子，zookeeper 的安装路径为/opt/beh/core/zookeeper。instal_path 字段只填写

zookeeper，而/opt/beh/core/则在 rest 的配置文件 application-default.properties 中配置，这


普泽数据 45

个在 3.2.2.3 中会有说明。

id 字段可任意指定。

3、修改主机——组件关系表 t_host_componenthost_id 字段填写 t_host 表中的 id，component_id 字段填写 t_component 表中 id。

注：每个组件对应的每个主机都要填写。

举例：hadoop001，hadoop002,hadoop003 的 host_id 分别为 1、2、3。三个节点上分别部署了 zookeeper。zookeeper 的 component_id 为 1。则数据库应填为

id host_id component_id 11 1 112 2 113 3 1 此处 id 字段为随意指定。


普泽数据 46

4、修改主机——进程对应表 t_host_role

host_id字段填写 t_host表中的 id，

role_id字段填写则要填写 t_function_role表中 id。

此实例为主机 hadoop014上安装 zookeeper下边的字段则依次类推。

在 role_id中 1代表 zookeeper。根据表体现的就是


普泽数据 47

这个表格和 t_host_component填写要求一致，每个进程对应的主机都要一一

填写。

注意：

（1）、表中要为 NULL。不能为0。


普泽数据 48

（2）、中

要为 NULL。不能为 0。

（3）、中要为 NULL。不能为

0。

3.2、修改配置文件

3.2.1 修改 agent相关配置文件

3.2.1.1 修改 agent-conf.properties

vim /opt/beh/core/beh-manager/conf/agent-conf.properties

依照自己集群的实际情况修改

#本机用户名

ssh.auth.userName=hadoop#本机密码

ssh.auth.passwd=hadoop#设置本地 ip，或主机名

ssh.auth.localhost=localhost#设置采集最小间隔时间默认最小 10 秒单位 mscollect.min.interval=10000#hbase 数据入库地址

collect.store.connection.id=m00#hadoop 配置路径

hadoop.home=/opt/beh/core/hadoop#hbase 监控目标配置文件位置,配置监控那个 hbaes 数据库

hbase.home=/opt/beh/core/hbasehive.home=/opt/beh/core/hivezookeeper.home=/opt/beh/core/zookeeper#solr 链接 zk 地址

zkHost=172.16.31.130:2181,172.16.31.131:2181,172.16.31.132:2181


普泽数据 49

3.2.1.2 修改 agent-core.properties

vim /opt/beh/core/beh-manager/conf/agent-core.properties填写部署 beh-manger 的节点

monitor.software1.scope=hadoop001



3.2.1.3 修改 agent-rule.properties

注：此文件前半部分为设定告警功能的阈值。修改文件后半部分两个 zookeeper 相关配置。

connection.m00.type=hbase_monitorconnection.m00.zookeeper=hadoop001,hadoop002,hadoop003和

connection.m10.type=hbaseconnection.m10.zookeeper=hadoop001,hadoop002,hadoop003

3.2.2 修改 rest相关配置文件

修改 application-default.properties

vim /opt/beh/core/beh-manager/conf/application-default.properties

3.2.2.1数据库连接配置

确认集群之间开启 ssh服务。

修改 application-default.properties #!!!数据库配置

spring.datasource.url=jdbc:mysql://hadoop003:3306/beh_manager?useUnicode=true&characterEncoding=UTF-8（数据库主机名及数据库）

spring.datasource.username=rootspring.datasource.password=123456spring.datasource.jpa.show-sql=true


普泽数据 50

#集群主机认证方式配置，目前采用用户名密码形式

hadoop.name =hadoophadoop.passwd =hadoop（ssh 免密钥密码。本示例密码为 hadoop。根据实际修改）

3.2.2.2hiveServer2相关

hive.hiveServer2Ip=172.16.31.130(此处填写 hive 所在集群 ip)hive.hiveHDFSDir =/user/hive/warehousehive.hiveServer2Url =jdbc:hive2://172.16.31.130:10000(此处填写 hive 所在集群 ip)hive.userName=hadoophive.passWord=hadoop

3.2.2.3 安装位置设置

dir.base=/opt/beh这个就是 3.1.2 中提到的安装位置设置。

3.2.2.4服务管理相关设置

注：如果无需使用添加服务功能，可跳过此段设置。添加服务目前只支持

hadoop、zookeeper、hive、hbase。其他组件暂不支持。

1）在 beh-manager 服务管理中，添加服务需要拷贝组件包和组件模板配置；所以需要配置

安装服务器及安装目录，对应配置如下，修改 rest 配置文件 application-default.properties。

#安装服务器地址

install.host=172.16.31.116#压缩包路径，manager 所在主机

install.dir=/opt2/install

install.dir 的路径可以自己任意指定，这里只做参考。

2）拷贝

将 hadoop、zookeeper、hive、hbase 的安装包和配置文件模板拷贝至 install.dir 目录下。

我们用/opt2/install 来举例，其目录结构应该如下图所示。


普泽数据 51

其中 zookeeper、hdfs、yarn、hbase、均为配置文件目录。在配置时将附件中的配置文

件模板组件解压，依照实际需要修改后，拷贝至集群上对应的目录中。

3.2.2.5资源管理相关设置

1）在 beh-manager 多租户管理中，hdfs 多租户管理中超级管理员具有最高权限，此配置是

设定超级管理员控制最高目录。如/use，则超级管理员对 hdfs 上/use 下目录具有最高权限，

其余目录无法操作。

#hdfs 租户的根目录

hdfs.root_path=/use#hdfs 目录创建后默认权限

hdfs.default_acl=rwx-----x

3.2.3 修改 web相关配置文件

修改 web-conf.yml（默认端口不用修改，如需修改请根据实际情况修改）

填写 rest 进程启动节点的 ip 和端口号.(注意，如果 rest 和 web 进程都在同一个节点上，填

写 localhost)auth: name: test


普泽数据 52

password: test(这里不动)rest: url: http://localhost:8080/api/v4.0（如果 rest 和 web 分离部署，写 rest 的 ip）logging: level: org.springfromwork: INFO com.bonc: DEBUG config: classpath:logback-spring.xml path: ../../logs/server: port: 8090 tomcat: access_log_enabled: true basedir: target/tomcatspring: mvc: view: prefix: /view/ suffix: .jsplicense: path: ./license

3.2.4 修改端口号

rest 和 web 部分的端口号默认是 8080 和 8090。如果这个两个端口号和环境上的其他

进程有所冲突可自行根据实际情况进行修改。（或者保存使用默认端口号）

rest 部分，在 application-default.properties 文件中添加

server.port=端口号

web 部分，在 web-conf.properties 文件中修改

server: port: 端口号

3.3、添加执行权限

进入 beh-manager/bin 目录下，执行命令，为每个脚本添加执行权限。

chmod +x * 执行完之后 bin/目录下的脚本应如下图所示，具有执行权限。

http://localhost:8080/api/v4.0


普泽数据 53

3.4、分发

修改完 conf 中所有的配置文件后，将 beh-manager 整个目录分发到其他节点上。

for i in 1 2 3 4 5 doscp -r beh-manager hadoop00$i:/opt/beh/core/done


普泽数据 54

第四章、其他相关配置

除了上述配置，部署 beh-manager 的集群还需开启和部署的有：

组件名称要求

hdfs 开启 acl 权限

hbase 开启 acl 权限

hive 开启 acl 权限

开启 hiveServer2yarn 在 capacity-scheduler.xml 中

添加 unsigned_root 队列信息。

solr（版本 5）部署 cloud 版，并上传所需

schemal。

4.1、获取 acl权限

4.1.1 HDFS开启 acl权限(acl从版本 hadoop2.4.0以后开始有

此功能。2.4.0以下版本不支持此功能)

在 hdfs-site.xml 中添加

<property><name>dfs.permissions.enabled</name><value>true</value></property><property><name>dfs.permissions. supergroup </name><value>hadoop</value></property><property><name>dfs.namenode.acls.enabled</name><value>true</value></property>

注意：当进行资源限制操作的时候，例如，如果用户加到了 hadoop 组了，在 Linux 用

户创建的时候，只要默认加进去了，就默认生效。提示：创建用户的时候慎用添加到

hadoop 组中。

在 core-site.xml 中添加

<property>


普泽数据 55

<name>fs.permissions.umask-mode</name><value>002</value></property>

修改完之后，分发配置文件，重启 hdfs。重启 hdfs

stop-dfs.shstart-dfs.sh

4.1.2 YARN开启 acl权限

注意：因为 manager 的独特机制，所以，在部署集群初始化 capacity 调度的配置文件

的时候，也有一点需要注意：在 root 队列下需要自动的创建 unsigned_root 队列（未分配

资源队列），所以要用特殊的初始化 capacity-scheduler.xml 文件。

在下载路径下使用默认 capacity-scheduler.xml 配置文件。

修改完之后，分发配置文件，重启 yarn。

修改 yarn 配置文件 yarn-site.xml，使用容量调度器是在其中添加

<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value> <description></description> <final>false</final> </property>

4.1.3 HIVE开启 acl权限

修改 hive 配置文件 hive-site.xml，在其中添加

<property> <name>hive.files.umask.value</name> <value>0002</value></property><property> <name>hive.metastore.authorization.storage.checks</name> <value>true</value></property> <property> <name>hive.metastore.execute.setugi</name> <value>true</value></property>


普泽数据 56

<property> <name>hive.security.authorization.enabled</name> <value>true</value> <description>enable or disable the hive client authorization</description> </property> <property> <name>hive.security.authorization.createtable.owner.grants</name> <value>ALL</value> </property><property> <name>hive.security.authorization.task.factory</name> <value>org.apache.hadoop.hive.ql.parse.authorization.HiveAuthorizationTaskFactoryImpl</value></property><property> <name>hive.semantic.analyzer.hook</name> <value>cn.com.bonc.hive.security.AuthHook</value> </property> <property> <name>hive.semantic.analyzer.hook.admin</name> <value>hadoop</value> ##管理员用户

</property>

将 hive-security.jar 添加到$HIVE_HOME/lib 下。

注：hive-security.jar 已随附件上传，附件位置在第六章。

4.1.4 HBASE开启 acl权限

修改 hbase 配置文件 hbase-site.xml，在其中添加

<property> <name>hbase.superuser</name> <value>hbase</value></property><property> <name>hbase.coprocessor.region.classes</name> <value>org.apache.hadoop.hbase.security.access.AccessController</value> </property> <property> <name>hbase.coprocessor.master.classes</name> <value>org.apache.hadoop.hbase.security.access.AccessController</value> </property>


普泽数据 57

<property> <name>hbase.rpc.engine</name> <value>org.apache.hadoop.hbase.ipc.SecureRpcEngine</value> </property><property> <name>hbase.security.authorization</name> <value>true</value> </property>

重启 hbasestop-hbase.shstart-hbase.sh

4.2、solr安装

4.2.1 solr-cloud安装

solr-cloud 为 solr 的 cloud 版，安装节点至少为 3 个。

1、将 solr.tar.gz 和 tomcat.tar.gz 上传到组件目录/opt/beh/core/下。

注：请根据实际集群部署情况选择安装位置，这里只是以/opt/beh/core/举例。

2、解压 solr 压缩包和 tomcat 压缩包。

tar -xzvf solr.tar.gztar -xzvf tomcat.tar.gz

3、进入 tomcat 目录修改/opt/beh/core/tomcat/webapps/solr/WEB-INF/下的 web.xml 文件。

<env-entry> <env-entry-name>solr/home</env-entry-name> <env-entry-value>/opt/beh/core/solr/server/solr</env-entry-value> <env-entry-type>java.lang.String</env-entry-type>

</env-entry>注：根据 solr 实际安装位置填写。这里以 solr 安装位置/opt/beh/core/solr 为例。

4、进入 tomcat 命令目录

cd /opt/beh/core/tomcat/bin修改 catalina.shvim catalina.sh修改第 235 行

将 zookeeper 改为实际位置

JAVA_OPTS=“-DzkHost=hadoop010:2181,hadoop011:2181,hadoop012:2181”


普泽数据 58

5、将 tomcat 和 solr 分发到其他安装节点（如 hadoop001 到 hadoop005）for i in 1 2 3 4 5doscp -r /opt/beh/core/tomcat hadoop011:/opt/beh/core/donefor i in 1 2 3 4 5doscp -r /opt/beh/core/solr hadoop00$i:/opt/beh/core/done6、在每台节点上启动 tomcat，在每台节点上执行

for i in 1 2 3 4 5…dossh hadoop00$i sh /opt/beh/core/tomcat/bin/startup.shdone

7、该安装包将 tomcat 的启动端口默认设置为 8086打开浏览器输入：安装节点 ip:8086/solr，例如：http://172.16.31.203:8086/solr进入登录页面，如下图所示。

注：左边导航栏一定要能看到 cloud 字样。表示现在是 cloud 模式。

4.2.2向 zookeeper上传配置文件

java -classpath .:/opt/beh/core/tomcat/webapps/solr/WEB-INF/lib/* org.apache.solr.cloud.ZkCLI -cmd upconfig -zkhost hadoop010:2181,hadoop011:2181,hadoop012:2181 –confdir/opt/beh/core/solr/server/solr/configsets/basic_configs/conf/ -confname solrconfig 注：（只在一个节点上）上面是一条命令，要一起执行。zookeeper 节点请按实际位置填写。

执行结果实例：


普泽数据 59

4、创建 collection_comp，在 solr 任意安装节点，任意位置执行 1 次

curl 'http://172.16.31.130:8086/solr/admin/collections?action=CREATE&name=collection_comp&numShards=4&replicationFactor=2&maxShardsPerNode=4&property.schema=schema_component.xml'注：此为一条执行语句，curl 后有空格。ip 地址需改为 solr 安装节点 ip。执行结果实例：

5、创建 collection_audit，在 solr 任意安装节点，任意位置执行 1 次

curl 'http://172.16.31.130:8086/solr/admin/collections?action=CREATE&name=collection_audit&numShards=4&replicationFactor=2&maxShardsPerNode=4&property.schema=schema_audit.xml'注：此为一条执行语句，curl 后有空格。ip 地址需改为 solr 安装节点 ip。执行结果实例：

6、最后查看


普泽数据 60

重启 agent 然后到 solr 里边看看有没有入库

4.3、yarn 配置文件修改

1、修改 capacity-scheduler.xml 配置文件在其中添加

cd /opt/beh/core/hadoop/etc/hadoop<property><name>yarn.scheduler.capacity.root.unsigned_root.capacity</name><value>${ yarn.scheduler.capacity.root.unsigned_root.capacity }</value><final>false</final></property>

unsigned_root 为 beh-manager 在对 yarn 资源进行资源化配时，获取队列资源的位置。

beh-manager 能够分配的资源都从这个队列里面取。如果没有进行该项 manager 无法进行

yarn 资源管理。

由于 capacity-scheduler.xml 内，所有一级队列资源值的和必须为 100，因此该值的计

算方式为

${ yarn.scheduler.capacity.root.unsigned_root.capacity } = 100 - ${yarn.scheduler.capacity.root.default.capacity}

其中${yarn.scheduler.capacity.root.default.capacity}为 capacity-scheduler.xml 默认队列。

2、之后还需在 capacity-scheduler.xml 中添加

<property> <name>yarn.scheduler.capacity.root.unsigned_root.user-limit-factor</name> <value>0.0</value> <final>false</final> </property>


普泽数据 61

<property> <name>yarn.scheduler.capacity.root.unsigned_root.maximum-capacity</name> <value>100</value> <final>false</final> </property> <property> <name>yarn.scheduler.capacity.root.unsigned_root.state</name> <value>RUNNING</value> <final>false</final> </property> <property> <name>yarn.scheduler.capacity.root.unsigned_root.acl_submit_applications</name> <value>admin,hadoop</value> <final>false</final> </property> <property> <name>yarn.scheduler.capacity.root.unsigned_root.acl_administer_queue</name> <value>admin,hadoop</value> <final>false</final> </property>

3、在 capacity-scheduler.xml 中第一级队列里指定 unsigned_root 队里

<property> <name>yarn.scheduler.capacity.root.queues</name> <value>default,unsigned_root</value> <final>false</final> </property>


普泽数据 62

五、启动 beh-manager进程

beh-manager 启动示意图如下图所示。

beh-manager 共有三种进程，分别是:agent,rest,web。其中 agent 负责数据采集，rest负责逻辑处理，web 负责展现。因此，agent 需要在所有被监控的节点启动，而 rest 和web 只要在一个节点上启动。建议 rest 和 web 进程在同一节点启动。

mananger 启动脚本结构：

5.1、启动进程

5.1.1 启动 agent

进入 beh-manager/bin 执行命令

./start-agent.sh 启动后使用 ps -ef|grep Agent 命令，查看 agent 进程是否存在，agent 进程入下图所示。

注；该脚本只是启动本台节点的 agent，如果要所启动所有 agent 进程，要分别到每个节点

分别启动。


普泽数据 63

5.1.2 启动 rest


./start-rest.sh启动后使用 ps -ef|grep Rest 命令，查看 rest 进程是否存在，rest 进程入下图所示。

注：该脚本只需在一台节点上启动即可。

5.1.3 启动 web


./start-web.sh启动后使用 ps-ef|grep Web 命令，查看 web 进程是否存在，web 进程入下图所示。

5.2、检查进程启动是否成功

启动之后应确认各个进程启动是否有问题。各个进程确认方式如下。

5.2.1 确认 agent进程

agent的作用是在各个监控节点采集所需的数据，统一入到 hbase的表中，方便 rest

进程进行逻辑处理。因此 agent一旦启动成功 hbase库中立刻会有采集到的数据。

进入 hbase shell

hbase shell

list 所有表

hbase>list

会看到两张表：“beh:monitor”和“beh:warn”。

扫描 beh:monitor 表hbase>scan ‘beh:monitor’

如果 agent 正常，应该会有各个节点的采集数据，如下图所示


普泽数据 64

如果没有出现如上图所示的数据，则说明 agent 启动有问题。应立刻去 beh-manager/logs 目录下查看 agent.log 查看报告。

5.2.2 确认 rest

查看 logs目录下的 rest-all.log

tail -f /opt/beh/core/beh-manager/logs/rest-all.log

启动后会打印很多 rest信息，如果打印出启动端口号 8080，如下图所示，说明 rest启动

成功。

5.2.3 确认 web进程

查看 logs目录下的 web-all.log

tail -f /opt/beh/core/beh-manager/logs/web-all.log

启动后会打印很多 web信息，如果打印出启动端口号 8090，如下图所示，说明 web启动成

功。

5.3 登录

比如你搭建 beh-manager节点的 ip为 192.168.30.9，如果你在浏览器输入：

http://192.168.10.5:8090/linkLogin 能够出现登录页面，并且输入初始用户名 admin，密码

beh-2017。(admin为超级管理员账号，相应修改请在数据库里设置)

可以进入 beh-manager管理界面那么你的 rest和 web便启动成了。由于 BEH-

Manager4.1.2版本新增权限。请使用时先联系 BEH-Manager开发商，获取认证许可，认证

后方可使用。BEH-Manager开发商邮箱：[email protected] [email protected]

[email protected] QQ:790953008

http://192.168.10.5:8090/linkLogin


普泽数据 65

六、附件

1、beh_beh_manager_init.sql 数据库文件

2、配置文件模板

配置文件模板.zip

3、hive-security.jar

hive-security.jar

beh-manager4.1beh.pezy.cn/download/document/beh-manager4.1.2bu.pdf ·...

Documents