Java读写Parquet格式的数据的方法-java教程-PHP中文网

首页

Java

java教程

Java读写Parquet格式的数据的方法

黄舟

Sep 23, 2017 am 10:08 AM

java 数据

本篇文章主要介绍了java 读写Parquet格式的数据的示例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧

本文介绍了java 读写Parquet格式的数据，分享给大家，具体如下：

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.Random;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.log4j.Logger;
import org.apache.parquet.example.data.Group;
import org.apache.parquet.example.data.GroupFactory;
import org.apache.parquet.example.data.simple.SimpleGroupFactory;
import org.apache.parquet.hadoop.ParquetReader;
import org.apache.parquet.hadoop.ParquetReader.Builder;
import org.apache.parquet.hadoop.ParquetWriter;
import org.apache.parquet.hadoop.example.GroupReadSupport;
import org.apache.parquet.hadoop.example.GroupWriteSupport;
import org.apache.parquet.schema.MessageType;
import org.apache.parquet.schema.MessageTypeParser;

public class ReadParquet {
  static Logger logger=Logger.getLogger(ReadParquet.class);
  public static void main(String[] args) throws Exception {
    
//    parquetWriter("test\\parquet-out2","input.txt");
    parquetReaderV2("test\\parquet-out2");
  }
  
  
  static void parquetReaderV2(String inPath) throws Exception{
    GroupReadSupport readSupport = new GroupReadSupport();
    Builder<Group> reader= ParquetReader.builder(readSupport, new Path(inPath));
    ParquetReader<Group> build=reader.build();
    Group line=null;
    while((line=build.read())!=null){
　　　　　　Group time= line.getGroup("time", 0);
　　　　　　　　//通过下标和字段名称都可以获取
　　　　　　　　/*System.out.println(line.getString(0, 0)+"\t"+
　　　　　　　　line.getString(1, 0)+"\t"+
　　　　　　　　time.getInteger(0, 0)+"\t"+
　　　　　　　　time.getString(1, 0)+"\t");*/
　　　　　　　　System.out.println(line.getString("city", 0)+"\t"+
　　　　　　　　line.getString("ip", 0)+"\t"+
　　　　　　　　time.getInteger("ttl", 0)+"\t"+
　　　　　　　　time.getString("ttl2", 0)+"\t");
　　　　　　　　//System.out.println(line.toString());
    }
    System.out.println("读取结束");
  } 
  //新版本中new ParquetReader()所有构造方法好像都弃用了,用上面的builder去构造对象
  static void parquetReader(String inPath) throws Exception{
    GroupReadSupport readSupport = new GroupReadSupport();
    ParquetReader<Group> reader = new ParquetReader<Group>(new Path(inPath),readSupport);
    Group line=null;
    while((line=reader.read())!=null){
     System.out.println(line.toString());
    }
    System.out.println("读取结束");
    
  }
  /**
   * 
   * @param outPath　　输出Parquet格式
   * @param inPath 输入普通文本文件
   * @throws IOException
   */
  static void parquetWriter(String outPath,String inPath) throws IOException{
    MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" +
        " required binary city (UTF8);\n" +
        " required binary ip (UTF8);\n" +
        " repeated group time {\n"+
        　　" required int32 ttl;\n"+
        　　 " required binary ttl2;\n"+
        "}\n"+
       "}");
    GroupFactory factory = new SimpleGroupFactory(schema);
    Path path = new Path(outPath);
    Configuration configuration = new Configuration();
    GroupWriteSupport writeSupport = new GroupWriteSupport();
    writeSupport.setSchema(schema,configuration);
    ParquetWriter<Group> writer = new ParquetWriter<Group>(path,configuration,writeSupport);
　　　　//把本地文件读取进去，用来生成parquet格式文件
    BufferedReader br =new BufferedReader(new FileReader(new File(inPath)));
    String line="";
    Random r=new Random();
    while((line=br.readLine())!=null){
      String[] strs=line.split("\\s+");
      if(strs.length==2) {
        Group group = factory.newGroup()
            .append("city",strs[0])
            .append("ip",strs[1]);
        Group tmpG =group.addGroup("time");
        tmpG.append("ttl", r.nextInt(9)+1);
        tmpG.append("ttl2", r.nextInt(9)+"_a");
        writer.write(group);
      }
    }
    System.out.println("write end");
    writer.close();
  }
}

登录后复制

说下schema（写Parquet格式数据需要schema，读取的话"自动识别"了schema）

/*
 * 每一个字段有三个属性：重复数、数据类型和字段名，重复数可以是以下三种：
 *     required(出现1次)
 *     repeated(出现0次或多次) 
 *     optional(出现0次或1次)
 * 每一个字段的数据类型可以分成两种：
 *     group(复杂类型)
 *     primitive(基本类型)
 * 数据类型有
 * INT64, INT32, BOOLEAN, BINARY, FLOAT, DOUBLE, INT96, FIXED_LEN_BYTE_ARRAY
 */

登录后复制

这个repeated和required 不光是次数上的区别，序列化后生成的数据类型也不同，比如repeqted修饰 ttl2 打印出来为 WrappedArray([7,7_a]) 而 required修饰 ttl2 打印出来为 [7,7_a]　　除了用MessageTypeParser.parseMessageType类生成MessageType 还可以用下面方法

（注意这里有个坑--spark里会有这个问题--ttl2这里 as(OriginalType.UTF8) 和 required binary city (UTF8)作用一样，加上UTF8，在读取的时候可以转为StringType，不加的话会报错 [B cannot be cast to java.lang.String ）

/*MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" +
        " required binary city (UTF8);\n" +
        " required binary ip (UTF8);\n" +
        "repeated group time {\n"+
        "required int32 ttl;\n"+
        "required binary ttl2;\n"+
        "}\n"+
        "}");*/
    
//import org.apache.parquet.schema.Types;
MessageType schema = Types.buildMessage() 
      .required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("city") 
      .required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("ip") 
      .repeatedGroup().required(PrimitiveTypeName.INT32).named("ttl")
              .required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("ttl2")
              .named("time")
     .named("Pair");

登录后复制

解决 [B cannot be cast to java.lang.String 异常：

1.要么生成parquet文件的时候加个UTF8
2.要么读取的时候再提供一个同样的schema类指定该字段类型，比如下面:

maven依赖（我用的1.7）

<dependency>
  <groupId>org.apache.parquet</groupId>
  <artifactId>parquet-hadoop</artifactId>
  <version>1.7.0</version>
</dependency>

登录后复制

以上是Java读写Parquet格式的数据的方法的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1661

CakePHP 教程

1417

Laravel 教程

1311

PHP教程

1261

C# 教程

1234

显示更多

Related knowledge

突破或从Java 8流返回？ Feb 07, 2025 pm 12:09 PM

Java 8引入了Stream API，提供了一种强大且表达力丰富的处理数据集合的方式。然而，使用Stream时，一个常见问题是：如何从forEach操作中中断或返回？传统循环允许提前中断或返回，但Stream的forEach方法并不直接支持这种方式。本文将解释原因，并探讨在Stream处理系统中实现提前终止的替代方法。延伸阅读： Java Stream API改进理解Stream forEach forEach方法是一个终端操作，它对Stream中的每个元素执行一个操作。它的设计意图是处

PHP：网络开发的关键语言 Apr 13, 2025 am 12:08 AM

PHP是一种广泛应用于服务器端的脚本语言，特别适合web开发。1.PHP可以嵌入HTML，处理HTTP请求和响应，支持多种数据库。2.PHP用于生成动态网页内容，处理表单数据，访问数据库等，具有强大的社区支持和开源资源。3.PHP是解释型语言，执行过程包括词法分析、语法分析、编译和执行。4.PHP可以与MySQL结合用于用户注册系统等高级应用。5.调试PHP时，可使用error_reporting()和var_dump()等函数。6.优化PHP代码可通过缓存机制、优化数据库查询和使用内置函数。7

PHP与Python：了解差异 Apr 11, 2025 am 12:15 AM

PHP和Python各有优势，选择应基于项目需求。1.PHP适合web开发，语法简单，执行效率高。2.Python适用于数据科学和机器学习，语法简洁，库丰富。

PHP与其他语言：比较 Apr 13, 2025 am 12:19 AM

PHP适合web开发，特别是在快速开发和处理动态内容方面表现出色，但不擅长数据科学和企业级应用。与Python相比，PHP在web开发中更具优势，但在数据科学领域不如Python；与Java相比，PHP在企业级应用中表现较差，但在web开发中更灵活；与JavaScript相比，PHP在后端开发中更简洁，但在前端开发中不如JavaScript。

PHP与Python：核心功能 Apr 13, 2025 am 12:16 AM

PHP和Python各有优势，适合不同场景。1.PHP适用于web开发，提供内置web服务器和丰富函数库。2.Python适合数据科学和机器学习，语法简洁且有强大标准库。选择时应根据项目需求决定。

Java程序查找胶囊的体积 Feb 07, 2025 am 11:37 AM

胶囊是一种三维几何图形，由一个圆柱体和两端各一个半球体组成。胶囊的体积可以通过将圆柱体的体积和两端半球体的体积相加来计算。本教程将讨论如何使用不同的方法在Java中计算给定胶囊的体积。胶囊体积公式胶囊体积的公式如下：胶囊体积 = 圆柱体体积两个半球体体积其中， r: 半球体的半径。 h: 圆柱体的高度（不包括半球体）。例子 1 输入半径 = 5 单位高度 = 10 单位输出体积 = 1570.8 立方单位解释使用公式计算体积：体积 = π × r2 × h (4

PHP的影响：网络开发及以后 Apr 18, 2025 am 12:10 AM

PHPhassignificantlyimpactedwebdevelopmentandextendsbeyondit.1)ItpowersmajorplatformslikeWordPressandexcelsindatabaseinteractions.2)PHP'sadaptabilityallowsittoscaleforlargeapplicationsusingframeworkslikeLaravel.3)Beyondweb,PHPisusedincommand-linescrip

PHP：许多网站的基础 Apr 13, 2025 am 12:07 AM

PHP成为许多网站首选技术栈的原因包括其易用性、强大社区支持和广泛应用。1)易于学习和使用，适合初学者。2)拥有庞大的开发者社区，资源丰富。3)广泛应用于WordPress、Drupal等平台。4)与Web服务器紧密集成，简化开发部署。

See all articles

Java读写Parquet格式的数据的方法

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题