# PARQUET输出组件使用说明

# 组件说明

该组件用于将数据输出成 Parquet 格式。

该组件为大数据组件，部署 Primeton DI时，需要配置 Hadoop 集群环境。

# 配置项说明

配置名称	数据类型	是否必须	默认值	描述
节点名称	String	是	-	当前创建的节点名称，由用户自定义且不可为空。命名可包含字母、数字、下划线。
选择类型	String	是	-	支持三种选项： -HDFS：将 Parquet 数据文件存储至大数据环境； -LOCAL：将 Parquet 数据文件存储至本地； -DATASOURCE：将 Parquet 数据存储至 Hive 数据库表。
文件/目录	String	是	-	“选择类型”为“HDFS”时生效，用于配置目标文件/目录路径。
选择数据源	String	是	-	“选择类型”为“HDFS”和“DATASOURCE”时生效，用于选择配置目数据源。
文件名称	String	是	-	输出文件文件名。
字段列表	-	是	-	Parquet 字段名：显示在 Parquet 数据文件中的字段名称。字段名称：上游节点传入的字段名。 Parquet类型：指定用于在Parquet文件中存储数据的数据类型。精度：指定数字中有效数字的总数(仅适用于Decimal Parquet类型)。缺省值为20。范围：指定小数点后的位数(仅适用于 Decimal 类型)。缺省值为10。默认值：如果字段为空或空，请指定该字段的默认值。是否分区字段：是否为分区字段。是否可以为Null：指定字段是否可以包含空值。
覆盖已存在文件	Boolean	是	否	是：覆盖已经存在的 Parquet 文件。只保留最后一次运行的数据，即：第一次是全量，如果后续是增量数据。选择“是”则每次会清空数据，仅保留最后一次同步的数据，没有历史数据。否：不覆盖已经存在的 Parquet 文件。运行结果会抛出异常 java.nio.file.FileAlreadyExistsException。
压缩算法	String	是	None	指定用于压缩 Parquet 输出文件的编解码器，NONE, SNAPPY, GZIP，默认：NONE。。
版本	String	是	Parquet1.0	指定要使用的 Parquet 版本，Parquet 1.0、Parquet 2.0。
文件扩展名	String	是	parquet	选择输出文件的扩展名。缺省值为 parquet。
行组大小（MB）	String	是	0	指定行的组大小。缺省值为 0。
页大小（KB）	String	是	0	指定数据的页面大小。
启用字典编码	Boolean	是	不勾选	指定字典编码，它构建列中遇到的值的字典。列的数据页之前，首先写入字典页。请注意，如果字典的大小大于Page大小(无论是大小还是不同值的数量)，则编码方法将恢复为普通编码类型。
字段大小（KB）	String	是	-	使用字典编码时指定页面大小。默认值为 1024。
文件名包含日期	Boolean	是	不勾选	生成的文件名中包含日期。
文件名包含时间	Boolean	是	不勾选	生成的文件名中包含时间。
日期掩码	String	是	-	日期格式，如：yyyy-MM-dd。
根据行数分割文件	Boolean	是	-	根据指定行数对结果数据进行行分割输出。
定时刷新	Boolean	是	不开启	是否将缓冲区中的数据立即写出到文件。
刷新间隔	Integer	是	-	刷新间隔。