Strategy ONE
开始于 MicroStrategy 2021 更新 4, Hadoop Gateway 不再受支持。
环境注意事项
数据访问安全(身份验证)
访问您的集群服务可能由兼容的 Kerberos 实现(Kerberos MIT、Active Directory)控制。在 Kerberos 环境中, MicroStrategy Hadoop Gateway 可以将自己标识为 Kerberos 主体并有权访问所需的服务:HDFS、Spark 管理器。
Hadoop 作为集群的边缘或代理模式
我们建议 MicroStrategy Hadoop Gateway 主机成为 Hadoop 集群的一部分,以实现安全性、管理和性能优势。边缘节点或代理节点在物理或逻辑上位于集群内,并且包含同一组库。
从管理角度来看,集群上的任何升级 library 版本将包括边缘或代理节点。这有利于性能,因为数据传输速度应该更高。它提高了安全性,因为节点可以被限制于相同的规则和身份验证。
HDFS 和 YARN 集群服务中的高可用性模式
按照最佳实践,集群可能已经在服务上实现了高可用性(HA)模式。可以将一个服务器节点设置为活动节点并启用,同时可以将另一个节点设置为待机节点以随时替换活动节点。HA 环境在引用这些服务时将使用一组不同的属性。检查您的环境并确保它在 HA 模式下运行。
系统要求和支持的配置
系统要求 MicroStrategy Hadoop Gateway 与 Spark 集群相同。支持的Spark版本是1.6.x。支持的发行版本 MicroStrategy Hadoop Gateway 是Cloudera Data Hub 5.10或以上,以及Hortonworks 2.4或以上。
对于具有标准身份验证机制的集群环境, MicroStrategy Hadoop Gateway 可以在Local、YARN客户端和Spark Standalone模式下运行。对于启用了 Kerberos 身份验证的环境, MicroStrategy Hadoop Gateway 只能在YARN客户端模式下操作。
Hadoop 集群上需要以下内容:
-
您应该在 Unix/Linux 服务器上安装 Hadoop 环境。
Hadoop集群至少必须安装HDFS服务。可以安装的其他服务包括 Hive、Hue、Oozie 和 ZooKeeper。
- MicroStrategy Hadoop Gateway 支持NameNode和YARN Resource Manager的高可用模式。
要启用 NameNode 高可用性,请参阅 如何浏览 Hadoop 分布式文件系统并预览文件。YARN 资源管理器高可用性不需要额外配置。它是自动处理的。
- 如果您使用 MicroStrategy Hadoop Gateway 在 YARN 客户端模式下,Hadoop 集群应该安装 YARN 和 Spark 服务。
- 如果你正在使用 MicroStrategy Hadoop Gateway 在 Spark 独立模式下,Hadoop 集群应该安装 Spark(独立)服务。
- 与 Spark 主服务器的连接参数(例如 spark://SparkMasterNode:7077)
- 如果集群启用了 Kerberos,Cloudera Manager 不允许安装此服务。
- 为了排除故障:
- 访问 Spark Standalone 网站 http://Spark主节点:18080
- 访问 Spark History Server 网站 http://SparkHistory服务器节点:18088
- 访问 YARN 资源监视器网站 http://YARNResourceManagerNode:8088
-
确保 Spark 服务已正确安装和配置。 MicroStrategy Hadoop Gateway 10.11 及更高版本将采用 spark-submit 方法,以避免集群环境合规性和兼容性问题。
使用的端口 MicroStrategy Hadoop Gateway
|
起始日期 |
到: 服务默认端口 |
说明 |
|---|---|---|
|
Intelligence Server |
MicroStrategy Hadoop Gateway 主机端口 30004 |
从 Intelligence Server 发送命令到 MicroStrategy Hadoop Gateway 获取数据。端口号可在 MicroStrategy Hadoop Gateway 配置文件:/conf/hgos-spark.properties。 |
|
Intelligence Server |
MicroStrategy Hadoop Gateway 主机端口 4020 |
Intelligence Server 使用的端口通过以下方式浏览 HDFS MicroStrategy Hadoop Gateway RESTful 服务。 端口号可在 MicroStrategy Hadoop Gateway 配置文件:/conf/hgos-spark.properties。 |
|
MicroStrategy Hadoop Gateway |
HDFS NameNode 端口 8020 |
默认端口号为:8020。请联系您的集群管理员获取具体端口号。 |
|
HDFS(集群 Hadoop 的所有节点) |
情报服务器端口 30241 |
用于发送查询结果集 MicroStrategy Hadoop Gateway Spark 应用程序工作节点到 Intelligence Server。端口号可以在安装 Intelligence Server 的操作系统注册表中配置。 注册表项:HKEY_LOCAL_MACHINE/SOFTWARE/Wow6432Node/MicroStrategy/DSS 服务器/Castor/DSPort Linux中的注册表文件:MSIReg.reg |
|
MicroStrategy Hadoop Gateway |
YARN 资源管理器端口 8032 |
YARN 连接 |
|
MicroStrategy Hadoop Gateway |
Spark 端口 4040 |
Spark 连接 |
|
MicroStrategy Hadoop Gateway |
Kerberos KDC 端口 88 |
验证 MicroStrategy Hadoop Gateway 访问其他服务(例如 HDFS)。 |
如果已启用 Kerberos 身份验证
要了解有关 Kerberos 安装的信息,请参阅:如何安装 Kerberos Authentication Service。
请参阅以下链接了解如何启用 Kerberos 身份验证 Cloudera CDH 和 Hortonworks HDP 簇。
您需要一个 Kerberos 主体(或 Active Directory 中的 SPN)来验证您的 MicroStrategy Hadoop Gateway 过程。
Kerberos 身份验证至少发生在两种事件中:
- 浏览 HDFS 文件目录以选择要导入的文件。 MicroStrategy Hadoop Gateway 直接连接NameNode。
- 开始 MicroStrategy Hadoop Gateway 在 YARN 客户端模式下: MicroStrategy Hadoop Gateway 将在 YARN 上部署 Spark 应用程序,并且需要 Kerberos 票证。
MicroStrategy Hadoop Gateway 应该使用链接到 Kerberos 主体的有效 Linux 用户帐户来执行。它可以有任何名称,但为了方便起见,我们将其称为 韓國/<HadoopGatewayHostFQDN>@领域名称。与任何其他集群帐户一样,该帐户应该能够登录集群的所有机器。
应允许此帐户以其主目录中的写权限登录 HDFS(例如 hdfs://NameNode:8020/用户/hgos)。
集群节点应该具有作为 Kerberos 客户端工作所需的库(这些可能是软件包 krb5-工作站, openldap 客户端)。
如果已启用高可用性模式
识别 HDFS 服务的名称服务。
需要以下内容 MicroStrategy Hadoop Gateway 驅動機:
- 主机操作系统:Linux(推荐:CentOS-7)。
- 作为代理节点或工作节点加入 CDH 集群的主机。
- 安装了 Java 运行时环境 1.7 或 1.8 版本(最新可用的 subversion)。
- Linux 帐户必须对安装文件夹具有写入和执行权限。
- 操作系统帐户应在 HDFS 中拥有指定的用户文件夹以及读/写权限(例如 hdfs://<HDFSNameNode:8020> /用户/<Principal name>/)(临时目录 .sparkStaging 将被创建)。
- 从 Intelligence Server 连接的连接参数、IP 地址和端口。
- 如需详细日志,请替换 log4j.属性 该文件具有故障排除部分中提供的更丰富的版本。
如果已启用 Kerberos 身份验证
- 主机应该已经安装了 Kerberos 客户端库(例如 krb5-工作站)并允许 Kerberos 命令,例如 基尼特 或者 清单。
- Java 运行时环境应该具有 Java 加密扩展库来支持 aes-256 加密。图书馆位于 Oracle 网站。Java JCE 包包含两个 JAR 库。使用这些并在目录中替换它们 <JRE_HOME>/lib/安全 (如果安装的是 JDK 而不是 JRE,则应该 <JDK_Home>/jre/lib/安全。保留原始库的备份)。
对于 Intelligence Server 主机,更新防火墙和网络规则以允许从群集工作节点连接到端口 30241。
相关主题
简介 MicroStrategy Hadoop Gateway
如何部署 MicroStrategy Hadoop Gateway
如何开始 MicroStrategy Hadoop Gateway
