Apache Pig 使用加载(Load)和存储(Store)函数来从数据源加载数据到Pig脚本中进行处理,以及将处理结果存储回其他数据源。以下是一些常用的加载和存储函数:

加载函数(Load Functions):

1. PigStorage:
   - 描述: 默认的加载函数,用于按照指定的分隔符加载文本文件。
   - 示例:
     data = LOAD 'input.txt' USING PigStorage(',') AS (field1:chararray, field2:int, field3:double);

2. TextLoader:
   - 描述: 用于加载纯文本文件,每一行作为一个元组。
   - 示例:
     data = LOAD 'input.txt' USING TextLoader();

3. AvroStorage:
   - 描述: 用于加载和存储Avro数据格式。
   - 示例:
     data = LOAD 'input.avro' USING AvroStorage();

存储函数(Store Functions):

1. PigStorage:
   - 描述: 默认的存储函数,用于按照指定的分隔符将数据存储为文本文件。
   - 示例:
     STORE result INTO 'output.txt' USING PigStorage(',');

2. TextOutputFormat:
   - 描述: 将数据以文本格式存储。
   - 示例:
     STORE result INTO 'output.txt' USING TextOutputFormat();

3. AvroStorage:
   - 描述: 用于加载和存储Avro数据格式。
   - 示例:
     STORE result INTO 'output.avro' USING AvroStorage();

4. JsonStorage:
   - 描述: 用于将数据以JSON格式存储。
   - 示例:
     STORE result INTO 'output.json' USING JsonStorage();

这只是一些加载和存储函数的例子,实际上,Pig支持多种不同的加载和存储函数,具体取决于你的数据源和存储需求。在使用这些函数时,你需要根据你的数据格式和存储目标选择适当的函数。


转载请注明出处:http://www.zyzy.cn/article/detail/11110/Apache Pig