普元数据开发平台 普元数据开发平台
产品介绍
安装部署
快速入门
操作指南
应用集成
FAQ
  • PARQUET输出组件使用说明
  • 组件说明
  • 配置项说明

# PARQUET输出组件使用说明

  • 组件说明
  • 配置项说明
  • 使用示例
    • 输出文件至HDFS
    • 输出文件至LOCAL
    • 输出内容至HIVE

# 组件说明

该组件用于将数据输出成 Parquet 格式。

该组件为大数据组件,部署 Primeton DI时,需要配置 Hadoop 集群环境。

# 配置项说明

配置名称 数据类型 是否必须 默认值 描述
节点名称 String 是 - 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。
选择类型 String 是 - 支持三种选项:
-HDFS:将 Parquet 数据文件存储至大数据环境;
-LOCAL:将 Parquet 数据文件存储至本地;
-DATASOURCE:将 Parquet 数据存储至 Hive 数据库表。
文件/目录 String 是 - “选择类型”为“HDFS”时生效,用于配置目标文件/目录路径。
选择数据源 String 是 - “选择类型”为“HDFS”和“DATASOURCE”时生效,用于选择配置目数据源。
文件名称 String 是 - 输出文件文件名。
字段列表 - 是 - Parquet 字段名:显示在 Parquet 数据文件中的字段名称。
字段名称:上游节点传入的字段名。
Parquet类型:指定用于在Parquet文件中存储数据的数据类型。
精度:指定数字中有效数字的总数(仅适用于Decimal Parquet类型)。缺省值为20。
范围:指定小数点后的位数(仅适用于 Decimal 类型)。缺省值为10。
默认值:如果字段为空或空,请指定该字段的默认值。
是否分区字段:是否为分区字段。
是否可以为Null:指定字段是否可以包含空值。
覆盖已存在文件 Boolean 是 否 是:覆盖已经存在的 Parquet 文件。只保留最后一次运行的数据,即:第一次是全量,如果后续是增量数据。选择“是”则每次会清空数据,仅保留最后一次同步的数据,没有历史数据。

否:不覆盖已经存在的 Parquet 文件。运行结果会抛出异常 java.nio.file.FileAlreadyExistsException。
压缩算法 String 是 None 指定用于压缩 Parquet 输出文件的编解码器,NONE, SNAPPY, GZIP,默认:NONE。。
版本 String 是 Parquet1.0 指定要使用的 Parquet 版本,Parquet 1.0、Parquet 2.0。
文件扩展名 String 是 parquet 选择输出文件的扩展名。缺省值为 parquet。
行组大小(MB) String 是 0 指定行的组大小。缺省值为 0。
页大小(KB) String 是 0 指定数据的页面大小。
启用字典编码 Boolean 是 不勾选 指定字典编码,它构建列中遇到的值的字典。列的数据页之前,首先写入字典页。请注意,如果字典的大小大于Page大小(无论是大小还是不同值的数量),则编码方法将恢复为普通编码类型。
字段大小(KB) String 是 - 使用字典编码时指定页面大小。默认值为 1024。
文件名包含日期 Boolean 是 不勾选 生成的文件名中包含日期。
文件名包含时间 Boolean 是 不勾选 生成的文件名中包含时间。
日期掩码 String 是 - 日期格式,如:yyyy-MM-dd。
根据行数分割文件 Boolean 是 - 根据指定行数对结果数据进行行分割输出。
定时刷新 Boolean 是 不开启 是否将缓冲区中的数据立即写出到文件。
刷新间隔 Integer 是 - 刷新间隔。

← ORC输出 StarRocks输出 →