Strategy ONE

开始于 MicroStrategy 2021 更新 4, Hadoop Gateway 不再受支持。

环境注意事项

数据访问安全(身份验证)

访问您的集群服务可能由兼容的 Kerberos 实现(Kerberos MIT、Active Directory)控制。在 Kerberos 环境中, MicroStrategy Hadoop Gateway 可以将自己标识为 Kerberos 主体并有权访问所需的服务:HDFS、Spark 管理器。

Hadoop 作为集群的边缘或代理模式

我们建议 MicroStrategy Hadoop Gateway 主机成为 Hadoop 集群的一部分,以实现安全性、管理和性能优势。边缘节点或代理节点在物理或逻辑上位于集群内,并且包含同一组库。

从管理角度来看,集群上的任何升级 library 版本将包括边缘或代理节点。这有利于性能,因为数据传输速度应该更高。它提高了安全性,因为节点可以被限制于相同的规则和身份验证。

HDFS 和 YARN 集群服务中的高可用性模式

按照最佳实践,集群可能已经在服务上实现了高可用性(HA)模式。可以将一个服务器节点设置为活动节点并启用,同时可以将另一个节点设置为待机节点以随时替换活动节点。HA 环境在引用这些服务时将使用一组不同的属性。检查您的环境并确保它在 HA 模式下运行。

系统要求和支持的配置

系统要求 MicroStrategy Hadoop Gateway 与 Spark 集群相同。支持的Spark版本是1.6.x。支持的发行版本 MicroStrategy Hadoop Gateway 是Cloudera Data Hub 5.10或以上,以及Hortonworks 2.4或以上。

对于具有标准身份验证机制的集群环境, MicroStrategy Hadoop Gateway 可以在Local、YARN客户端和Spark Standalone模式下运行。对于启用了 Kerberos 身份验证的环境, MicroStrategy Hadoop Gateway 只能在YARN客户端模式下操作。

Hadoop 集群上需要以下内容:

  • 您应该在 Unix/Linux 服务器上安装 Hadoop 环境。

    Hadoop集群至少必须安装HDFS服务。可以安装的其他服务包括 Hive、Hue、Oozie 和 ZooKeeper。

  • MicroStrategy Hadoop Gateway 支持NameNode和YARN Resource Manager的高可用模式。

    要启用 NameNode 高可用性,请参阅 如何浏览 Hadoop 分布式文件系统并预览文件。YARN 资源管理器高可用性不需要额外配置。它是自动处理的。

  • 如果您使用 MicroStrategy Hadoop Gateway 在 YARN 客户端模式下,Hadoop 集群应该安装 YARN 和 Spark 服务。
  • 如果你正在使用 MicroStrategy Hadoop Gateway 在 Spark 独立模式下,Hadoop 集群应该安装 Spark(独立)服务。
    • 与 Spark 主服务器的连接参数(例如 spark://SparkMasterNode:7077
    • 如果集群启用了 Kerberos,Cloudera Manager 不允许安装此服务。
  • 为了排除故障:
    • 访问 Spark Standalone 网站 http://Spark主节点:18080
    • 访问 Spark History Server 网站 http://SparkHistory服务器节点:18088
    • 访问 YARN 资源监视器网站 http://YARNResourceManagerNode:8088
  • 确保 Spark 服务已正确安装和配置。 MicroStrategy Hadoop Gateway 10.11 及更高版本将采用 spark-submit 方法,以避免集群环境合规性和兼容性问题。

使用的端口 MicroStrategy Hadoop Gateway

起始日期

到: 服务默认端口

说明

Intelligence Server

MicroStrategy Hadoop Gateway 主机端口 30004

从 Intelligence Server 发送命令到 MicroStrategy Hadoop Gateway 获取数据。端口号可在 MicroStrategy Hadoop Gateway 配置文件:/conf/hgos-spark.properties

Intelligence Server

MicroStrategy Hadoop Gateway 主机端口 4020

Intelligence Server 使用的端口通过以下方式浏览 HDFS MicroStrategy Hadoop Gateway RESTful 服务。

端口号可在 MicroStrategy Hadoop Gateway 配置文件:/conf/hgos-spark.properties

MicroStrategy Hadoop Gateway

HDFS NameNode 端口 8020

默认端口号为:8020。请联系您的集群管理员获取具体端口号。

HDFS(集群 Hadoop 的所有节点)

情报服务器端口 30241

用于发送查询结果集 MicroStrategy Hadoop Gateway Spark 应用程序工作节点到 Intelligence Server。端口号可以在安装 Intelligence Server 的操作系统注册表中配置。

注册表项:HKEY_LOCAL_MACHINE/SOFTWARE/Wow6432Node/MicroStrategy/DSS 服务器/Castor/DSPort

Linux中的注册表文件:MSIReg.reg

MicroStrategy Hadoop Gateway

YARN 资源管理器端口 8032

YARN 连接

MicroStrategy Hadoop Gateway

Spark 端口 4040

Spark 连接

MicroStrategy Hadoop Gateway

Kerberos KDC 端口 88

验证 MicroStrategy Hadoop Gateway 访问其他服务(例如 HDFS)。

如果已启用 Kerberos 身份验证

要了解有关 Kerberos 安装的信息,请参阅:如何安装 Kerberos Authentication Service

请参阅以下链接了解如何启用 Kerberos 身份验证 Cloudera CDHHortonworks HDP 簇。

您需要一个 Kerberos 主体(或 Active Directory 中的 SPN)来验证您的 MicroStrategy Hadoop Gateway 过程。

Kerberos 身份验证至少发生在两种事件中:

  • 浏览 HDFS 文件目录以选择要导入的文件。 MicroStrategy Hadoop Gateway 直接连接NameNode。
  • 开始 MicroStrategy Hadoop Gateway 在 YARN 客户端模式下: MicroStrategy Hadoop Gateway 将在 YARN 上部署 Spark 应用程序,并且需要 Kerberos 票证。

MicroStrategy Hadoop Gateway 应该使用链接到 Kerberos 主体的有效 Linux 用户帐户来执行。它可以有任何名称,但为了方便起见,我们将其称为 韓國/<HadoopGatewayHostFQDN>@领域名称。与任何其他集群帐户一样,该帐户应该能够登录集群的所有机器。

应允许此帐户以其主目录中的写权限登录 HDFS(例如 hdfs://NameNode:8020/用户/hgos)。

集群节点应该具有作为 Kerberos 客户端工作所需的库(这些可能是软件包 krb5-工作站openldap 客户端)。

如果已启用高可用性模式

识别 HDFS 服务的名称服务。

需要以下内容 MicroStrategy Hadoop Gateway 驅動機:

  • 主机操作系统:Linux(推荐:CentOS-7)。
  • 作为代理节点或工作节点加入 CDH 集群的主机。
  • 安装了 Java 运行时环境 1.7 或 1.8 版本(最新可用的 subversion)。
  • Linux 帐户必须对安装文件夹具有写入和执行权限。
  • 操作系统帐户应在 HDFS 中拥有指定的用户文件夹以及读/写权限(例如 hdfs://<HDFSNameNode:8020> /用户/<Principal name>/)(临时目录 .sparkStaging 将被创建)。
  • 从 Intelligence Server 连接的连接参数、IP 地址和端口。
  • 如需详细日志,请替换 log4j.属性 该文件具有故障排除部分中提供的更丰富的版本。

如果已启用 Kerberos 身份验证

  • 主机应该已经安装了 Kerberos 客户端库(例如 krb5-工作站)并允许 Kerberos 命令,例如 基尼特 或者 清单
  • Java 运行时环境应该具有 Java 加密扩展库来支持 aes-256 加密。图书馆位于 Oracle 网站。Java JCE 包包含两个 JAR 库。使用这些并在目录中替换它们 <JRE_HOME>/lib/安全 (如果安装的是 JDK 而不是 JRE,则应该 <JDK_Home>/jre/lib/安全。保留原始库的备份)。

对于 Intelligence Server 主机,更新防火墙和网络规则以允许从群集工作节点连接到端口 30241。

相关主题

简介 MicroStrategy Hadoop Gateway

如何部署 MicroStrategy Hadoop Gateway

如何开始 MicroStrategy Hadoop Gateway

如何注册 MicroStrategy Hadoop Gateway

疑难解答

已知问题

常见问题解答