Version 2021

通过构建 SQL 查询从数据库、Hadoop 或 Google BigQuery 导入数据

如果您是从Workstation到达的,请参阅 Workstation Document Authoring Help

您可通过构建自己的 SQL 查询或脚本从数据库、Hadoop 或 Google BigQuery 导入数据,以从源检索数据。由于具备直观的可视化界面,您可以通过拖动数据表、选择数据列、定义联接以及指定筛选条件,以轻松构建用于导入数据的 SQL 查询。

从数据库导入数据需要连接数据源。您可在开始导入之前或者在导入过程中创建连接

如果您从 Google BigQuery 导入数据:

  • 您必须激活项目的 Google 帐户上的 Google BigQuery API,并启用项目的记帐功能。有关更多信息,请参阅 Google BigQuery 文档。
  • 如果将 MicroStrategy Web 配置为远程访问应用程序,您必须具有 Google BiqQuery 提供的客户端 ID 和客户端密文。
  • Google BigQuery 限制了一次可导入的数据量。如果项目包含大量数据,请考虑将筛选器添加到查询中,仅检索所需的数据。有关最新的数据限制,请参阅 Google BigQuery Quota Policy

您还可使用以下步骤来访问 Windows 计算机上的 Salesforce 数据库。要访问 Mac 上的 Salesforce,请参阅从 Salesforce 报表导入数据

通过构建 SQL 查询从数据库导入数据

从 MicroStrategy 11.0 开始,将使用标准 SQL 来构建用于从 Google BigQuery 导入数据的查询。

  1. 创建空白达析报告或打开现有的达析报告。
  2. 选择添加数据 > 新数据,将数据导入新的数据集。

    在数据集面板中,单击 更多 在数据集名称旁并选择编辑数据集来将数据添加至数据集。这时将打开“预览”对话框。单击添加新表

    这时“数据源”对话框将打开。

  1. 要从特定数据库导入数据,请选择相应的徽标(Amazon Redshift、Apache Cassandra、Cloudera Hive、Google BigQuery、Hadoop等)。如果选择 PigWeb Services,将打开“从表导入”对话框,绕过“选择导入选项”对话框,以便键入查询来导入表。

    要导入数据而不指定数据库类型,请单击数据库

    这时将打开“选择导入选项”对话框。

  1. 选择构建查询并单击下一步。这时将打开“从表导入”对话框。如果选择了数据库,则仅会显示和所选数据库对应的数据源连接。如果没有选择数据库,则会显示所有可用的数据源连接。
  2. 如有必要,您可在导入数据时创建通向数据源的新连接

    “从表导入”对话框上的术语可能因数据源而异。

  1. 在“数据源/项目”窗格中,单击包含要导入的数据的数据源/项目。
  2. 如果数据源/项目支持命名空间,可从“可用的表/数据集”窗格中的命名空间下拉列表选择一个命名空间,仅显示所选命名空间内的表/数据集。要搜索命名空间,在命名空间中键入其名称。在您键入时,系统会筛选下拉列表中的选项。
  3. 展开表/数据集可查看其内的列。各列在括号中显示其对应的数据类型。要搜索表/数据集,在中键入其名称。在您键入时,系统会筛选表/数据集。
  4. 在首次使用数据源/项目时,MicroStrategy 会创建数据库的表和列的缓存。将光标悬停在“可用的表/数据集”窗格顶部的信息图标 上,可查看显示表数量和缓存上次更新时间的工具提示。
  5. 单击“可用的表/数据集”窗格中的更新命名空间 可刷新命名空间。
  6. 单击“可用的表/数据集”窗格中的更新可刷新表/数据集。
  7. 双击“可用的表/数据集”窗格中的表/数据集可将其添加到要导入的表的列表中。“查询生成器”窗格中会显示表/数据集及其对应的列。
  1. 如果从具有相同结构(即相同的列和数据类型)的相同数据库实例中选择多个表,则将打开一个对话框。选择是否将表作为单个分区表处理。

    您可从多个数据库实例添加表。在数据源窗格中选择不同的数据源连接,并如上所述添加表。

  2. 要在导入中包括某一列,在查询生成器窗格中双击该列。列名称以粗体显示,表示已包括该列,并在预览窗格中显示该列。
  3. 要在导入的表/数据集中包括所有列,可双击查询生成器窗格相应表/数据集中的添加所有列。列名称以粗体显示,表示已包括这些列,同时在预览窗格中显示这些列。
  4. 要从导入排除某一列,请将光标悬停在“预览”窗格中该列名称上方,单击下拉箭头,然后选择删除。该列名称在查询生成器窗格中不再显示为粗体,并从预览窗格中移除。
  5. 要从导入中移除表及其全部列,单击查询生成器窗格中表名称右侧的删除 。此操作会将表从查询生成器窗格中移除,并将对应的列从预览窗格中移除。
  6. 要编辑您的查询,请参阅在从数据库、Hadoop 或 Google BigQuery 导入数据时自定义查询
  7. 要创建跨多个表的联接,请参阅定义数据库表中列之间的联接了解更多信息。
  8. 要对列数据执行基本函数,请在“查询生成器”窗格中右键单击该列。选择基本函数和函数(例如,SumAverageMinimum)。函数将在预览窗格的对应列中显示。
  9. 要对列数据执行更多高级函数,在查询生成器窗格中右键单击该列。选择所有函数、函数类型和函数。填写函数引数表达式对话框中的字段。
  10. 要创建一个简易筛选器用于确定要导入的数据,右键单击筛选器所基于的列。选择基本筛选器和一个筛选器。然后,输入用于比较数据的值并单击确定。这时筛选器的图标会在数据列旁边显示。
  11. 要基于复杂的表达式创建更多高级筛选器,请参阅创建用于从数据库导入数据的高级筛选器
  12. 当您对数据选择感到满意时,单击 执行 SQL .预览窗格中将显示数据的预览。如果要修改用于选择数据的 SQL 查询,请参阅通过键入查询从数据库、Hadoop 或 Google BigQuery 导入数据
  1. 单击 准备数据 如果您要添加新数据集并希望 预览,修改和指定导入选项。

    如果要编辑现有数据集,单击添加

  2. 如果要添加新数据集并转到下一步,单击完成

    如果要编辑现有数据集并跳过下一步,单击更新数据集

  3. 这时将打开“数据访问模式”对话框。

    单击实时连接可在检索数据时连接到实时数据库。如果您使用大量数据,但可能无法将数据导入达析报告,则实时连接非常有用。转到最后一步。

    单击以内存中数据集的形式导入可将数据直接导入达析报告。导入数据可加快与数据交互的速度,但会使用更多 RAM 内存。转到最后一步。

  4. 这时将打开“发布状态”对话框。

    如果编辑实时连接数据集,现有数据集将刷新和更新。

    如果编辑内存中数据集,系统将提示您首先刷新现有数据集。

  5. 在“数据集”面板上查看新的或更新的数据集。

相关主题

导入数据

从文件导入数据的最佳实践方法

连接至数据源

管理数据库连接的方法

创建用于从数据库导入数据的高级筛选器

“表达式”对话框

“编辑目录选项”对话框