MicroStrategy ONE

将聚合和过滤应用于 Hadoop 数据导入

在从 Hadoop Distributed File System (HDFS) 导入数据时,可在导入期间向数据应用不同的聚合函数以及筛选器。这可让您自定义正在引入内存的数据量。

聚合

聚合选项在数据预览对话框中可用。

将聚合函数应用至您的数据:

  1. 单击聚合以打开“聚合”对话框。
  2. 在字段上右键单击并从菜单选择所需的函数。
  3. 单击执行 SQL 来通过应用的聚合预览数据。

    默认设置下聚合/函数对整个数据集的前 100,000 行执行。因此,Sum、Max、Min、Average 和 Count 函数的精度在预览期间会受到影响(其他函数不受影响)。在发布立方体时,将对整个数据集重新计算聚合结果。选择 hgos.aggregation.preview.rows 财产价值 /conf/hgos-spark.properties 可以调整为特定的行数,或者设置为 -1 以获得无限的行数。

  4. 在应用聚合/函数之后,单击确定来保存新的方案定义。

    如果您尝试在应用聚合或函数之后整理数据,系统会废弃您的更改。

筛选

Hadoop Gateway 还支持筛选数据导入。筛选可让您导入受限的数据,这些数据匹配特定条件,而不是导入整个数据集。

在上下文菜单中以及“聚合”对话框的顶部,有筛选器选项可用。

支持的函数

类别 函数 备注
基本   如果值超出了数字类型的最小值或最大值范围,结果可能不正确。例如,整数值范围为-2147483647到2147483647,如果超出此限制,可能出现意外结果。
Sum  
平均值  
Minimum  
Maximum  
Count  
最大  
最小  
日期时间   如果在日期时间值上应用函数,时间部分将被截断。例如在2017/5/12 18:23:12上应用 AddDays,值将会截断为2017/5/12 00:00:00
AddDays  
CurrentDate  
CurrentDateTime  
CurrentTime  
日期  
DayOfMonth  
DayOfWeek  
DayOfYear  
DaysBetween  
小时  
MilliSecond  
分钟  
个月  
MonthEndDate  
MonthBetween  
MonthStartDate  
季度  
 
 
 
YearEndDate  
YearStartDate  
数学    
Abs  
Acos 当输入值为无穷大时,返回值将为 "-1.#IND" 以指示无效值,因为 acos 是不收敛的。
Asin 当输入值为无穷大时,返回值将为 "-1.#IND" 以指示无效值,因为 asin 是不收敛的。
Asinh  
反义词2  
Atanh  
Ceiling  
Combine  
Cos 当输入值为无穷大时,返回值将为 "-1.#IND" 以指示无效值,因为 cos 是不收敛的。
Cosh  
Degrees  
Exp  
Factorial 如果 #0 > 20,则会返回空值。如果 #0 <= 20,将会返回相应的整数值。
Floor  
Int  
Ln  
日志  
日志10  
Mod  
Multiply  
Power  
Quotient  
Radians  
Randbetween  
Round  
第2轮  
Sin 当输入值为无穷大时,返回值将为 "-1.#IND" 以指示无效值,因为 sin 是不收敛的。
Sinh  
Tan 当输入值为无穷大时,返回值将为 "-1.#IND" 以指示无效值,因为 tan 是不收敛的。
Tanh  
Trunc  
空值/零值    
NullTo/Zero  
ZeroToNull  
字符串    
Concat  
ConcatBank  
InitCap  
LeftStr  
长度  
Lower  
LTrim  
Position  
RightStr  
RTrim  
SubStr  
Trim  
Upper  

支持的筛选器

类别 筛选
基本 列表中
不在列表中
等于
不完全相同
比较 大于
小于
大于或等于
小于或等于
介于
不介于
图案 类似于
不类似于
包含
不包含
开始于
不开始于
结束于
结尾不等于