# PARQUET输出组件使用说明
# 组件说明
该组件用于将数据输出成 Parquet 格式。
该组件为大数据组件,部署 Primeton DI时,需要配置 Hadoop 集群环境。
# 配置项说明
配置名称 | 数据类型 | 是否必须 | 默认值 | 描述 |
---|---|---|---|---|
节点名称 | String | 是 | - | 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。 |
选择类型 | String | 是 | - | 支持三种选项: -HDFS:将 Parquet 数据文件存储至大数据环境; -LOCAL:将 Parquet 数据文件存储至本地; -DATASOURCE:将 Parquet 数据存储至 Hive 数据库表。 |
文件/目录 | String | 是 | - | “选择类型”为“HDFS”时生效,用于配置目标文件/目录路径。 |
选择数据源 | String | 是 | - | “选择类型”为“HDFS”和“DATASOURCE”时生效,用于选择配置目数据源。 |
文件名称 | String | 是 | - | 输出文件文件名。 |
字段列表 | - | 是 | - | Parquet 字段名:显示在 Parquet 数据文件中的字段名称。 字段名称:上游节点传入的字段名。 Parquet类型:指定用于在Parquet文件中存储数据的数据类型。 精度:指定数字中有效数字的总数(仅适用于Decimal Parquet类型)。缺省值为20。 范围:指定小数点后的位数(仅适用于 Decimal 类型)。缺省值为10。 默认值:如果字段为空或空,请指定该字段的默认值。 是否分区字段:是否为分区字段。 是否可以为Null:指定字段是否可以包含空值。 |
覆盖已存在文件 | Boolean | 是 | 否 | 是:覆盖已经存在的 Parquet 文件。只保留最后一次运行的数据,即:第一次是全量,如果后续是增量数据。选择“是”则每次会清空数据,仅保留最后一次同步的数据,没有历史数据。 否:不覆盖已经存在的 Parquet 文件。运行结果会抛出异常 java.nio.file.FileAlreadyExistsException。 |
压缩算法 | String | 是 | None | 指定用于压缩 Parquet 输出文件的编解码器,NONE, SNAPPY, GZIP,默认:NONE。。 |
版本 | String | 是 | Parquet1.0 | 指定要使用的 Parquet 版本,Parquet 1.0、Parquet 2.0。 |
文件扩展名 | String | 是 | parquet | 选择输出文件的扩展名。缺省值为 parquet。 |
行组大小(MB) | String | 是 | 0 | 指定行的组大小。缺省值为 0。 |
页大小(KB) | String | 是 | 0 | 指定数据的页面大小。 |
启用字典编码 | Boolean | 是 | 不勾选 | 指定字典编码,它构建列中遇到的值的字典。列的数据页之前,首先写入字典页。请注意,如果字典的大小大于Page大小(无论是大小还是不同值的数量),则编码方法将恢复为普通编码类型。 |
字段大小(KB) | String | 是 | - | 使用字典编码时指定页面大小。默认值为 1024。 |
文件名包含日期 | Boolean | 是 | 不勾选 | 生成的文件名中包含日期。 |
文件名包含时间 | Boolean | 是 | 不勾选 | 生成的文件名中包含时间。 |
日期掩码 | String | 是 | - | 日期格式,如:yyyy-MM-dd。 |
根据行数分割文件 | Boolean | 是 | - | 根据指定行数对结果数据进行行分割输出。 |
定时刷新 | Boolean | 是 | 不开启 | 是否将缓冲区中的数据立即写出到文件。 |
刷新间隔 | Integer | 是 | - | 刷新间隔。 |