MicroStrategy ONE
将聚合和过滤应用于 Hadoop 数据导入
在从 Hadoop Distributed File System (HDFS) 导入数据时,可在导入期间向数据应用不同的聚合函数以及筛选器。这可让您自定义正在引入内存的数据量。
聚合
这聚合选项在数据预览对话框中可用。
将聚合函数应用至您的数据:
- 单击聚合以打开“聚合”对话框。
- 在字段上右键单击并从菜单选择所需的函数。
-
单击执行 SQL 来通过应用的聚合预览数据。
默认设置下聚合/函数对整个数据集的前 100,000 行执行。因此,Sum、Max、Min、Average 和 Count 函数的精度在预览期间会受到影响(其他函数不受影响)。在发布立方体时,将对整个数据集重新计算聚合结果。选择
hgos.aggregation.preview.rows财产价值/conf/hgos-spark.properties可以调整为特定的行数,或者设置为 -1 以获得无限的行数。 -
在应用聚合/函数之后,单击确定来保存新的方案定义。
如果您尝试在应用聚合或函数之后整理数据,系统会废弃您的更改。
筛选
Hadoop Gateway 还支持筛选数据导入。筛选可让您导入受限的数据,这些数据匹配特定条件,而不是导入整个数据集。
在上下文菜单中以及“聚合”对话框的顶部,有筛选器选项可用。
支持的函数
| 类别 | 函数 | 备注 |
|---|---|---|
| 基本 | 如果值超出了数字类型的最小值或最大值范围,结果可能不正确。例如,整数值范围为-2147483647到2147483647,如果超出此限制,可能出现意外结果。 | |
| Sum | ||
| 平均值 | ||
| Minimum | ||
| Maximum | ||
| Count | ||
| 最大 | ||
| 最小 | ||
| 日期时间 | 如果在日期时间值上应用函数,时间部分将被截断。例如在2017/5/12 18:23:12上应用 AddDays,值将会截断为2017/5/12 00:00:00 | |
| AddDays | ||
| CurrentDate | ||
| CurrentDateTime | ||
| CurrentTime | ||
| 日期 | ||
| DayOfMonth | ||
| DayOfWeek | ||
| DayOfYear | ||
| DaysBetween | ||
| 小时 | ||
| MilliSecond | ||
| 分钟 | ||
| 个月 | ||
| MonthEndDate | ||
| MonthBetween | ||
| MonthStartDate | ||
| 季度 | ||
| 秒 | ||
| 周 | ||
| 年 | ||
| YearEndDate | ||
| YearStartDate | ||
| 数学 | ||
| Abs | ||
| Acos | 当输入值为无穷大时,返回值将为 "-1.#IND" 以指示无效值,因为 acos 是不收敛的。 | |
| Asin | 当输入值为无穷大时,返回值将为 "-1.#IND" 以指示无效值,因为 asin 是不收敛的。 | |
| Asinh | ||
| 反义词2 | ||
| Atanh | ||
| Ceiling | ||
| Combine | ||
| Cos | 当输入值为无穷大时,返回值将为 "-1.#IND" 以指示无效值,因为 cos 是不收敛的。 | |
| Cosh | ||
| Degrees | ||
| Exp | ||
| Factorial | 如果 #0 > 20,则会返回空值。如果 #0 <= 20,将会返回相应的整数值。 | |
| Floor | ||
| Int | ||
| Ln | ||
| 日志 | ||
| 日志10 | ||
| Mod | ||
| Multiply | ||
| Power | ||
| Quotient | ||
| Radians | ||
| Randbetween | ||
| Round | ||
| 第2轮 | ||
| Sin | 当输入值为无穷大时,返回值将为 "-1.#IND" 以指示无效值,因为 sin 是不收敛的。 | |
| Sinh | ||
| Tan | 当输入值为无穷大时,返回值将为 "-1.#IND" 以指示无效值,因为 tan 是不收敛的。 | |
| Tanh | ||
| Trunc | ||
| 空值/零值 | ||
| NullTo/Zero | ||
| ZeroToNull | ||
| 字符串 | ||
| Concat | ||
| ConcatBank | ||
| InitCap | ||
| LeftStr | ||
| 长度 | ||
| Lower | ||
| LTrim | ||
| Position | ||
| RightStr | ||
| RTrim | ||
| SubStr | ||
| Trim | ||
| Upper |
支持的筛选器
| 类别 | 筛选 |
|---|---|
| 基本 | 列表中 |
| 不在列表中 | |
| 等于 | |
| 不完全相同 | |
| 比较 | 大于 |
| 小于 | |
| 大于或等于 | |
| 小于或等于 | |
| 介于 | |
| 不介于 | |
| 图案 | 类似于 |
| 不类似于 | |
| 包含 | |
| 不包含 | |
| 开始于 | |
| 不开始于 | |
| 结束于 | |
| 结尾不等于 |
