parquet.hadoop.metadata java code examples

private ColumnChunkMetaData getColumnChunkMetaData(ColumnDescriptor columnDescriptor)
    throws IOException
{
  for (ColumnChunkMetaData metadata : currentBlockMetadata.getColumns()) {
    if (metadata.getPath().equals(ColumnPath.get(columnDescriptor.getPath()))) {
      return metadata;
    }
  }
  throw new ParquetCorruptionException("Metadata is missing for column: %s", columnDescriptor);
}

private static Map<ColumnDescriptor, Statistics<?>> getStatistics(BlockMetaData blockMetadata, Map<List<String>, RichColumnDescriptor> descriptorsByPath)
{
  ImmutableMap.Builder<ColumnDescriptor, Statistics<?>> statistics = ImmutableMap.builder();
  for (ColumnChunkMetaData columnMetaData : blockMetadata.getColumns()) {
    Statistics<?> columnStatistics = columnMetaData.getStatistics();
    if (columnStatistics != null) {
      RichColumnDescriptor descriptor = descriptorsByPath.get(Arrays.asList(columnMetaData.getPath().toArray()));
      if (descriptor != null) {
        statistics.put(descriptor, columnStatistics);
      }
    }
  }
  return statistics.build();
}

private static Map<ColumnDescriptor, DictionaryDescriptor> getDictionaries(BlockMetaData blockMetadata, ParquetDataSource dataSource, Map<List<String>, RichColumnDescriptor> descriptorsByPath, TupleDomain<ColumnDescriptor> parquetTupleDomain)
{
  ImmutableMap.Builder<ColumnDescriptor, DictionaryDescriptor> dictionaries = ImmutableMap.builder();
  for (ColumnChunkMetaData columnMetaData : blockMetadata.getColumns()) {
    RichColumnDescriptor descriptor = descriptorsByPath.get(Arrays.asList(columnMetaData.getPath().toArray()));
    if (descriptor != null) {
      if (isOnlyDictionaryEncodingPages(columnMetaData.getEncodings()) && isColumnPredicate(descriptor, parquetTupleDomain)) {
        int totalSize = toIntExact(columnMetaData.getTotalSize());
        byte[] buffer = new byte[totalSize];
        dataSource.readFully(columnMetaData.getStartingPos(), buffer);
        Optional<DictionaryPage> dictionaryPage = readDictionaryPage(buffer, columnMetaData.getCodec());
        dictionaries.put(descriptor, new DictionaryDescriptor(descriptor, dictionaryPage));
        break;
      }
    }
  }
  return dictionaries.build();
}

if (rowGroups != null) {
  for (RowGroup rowGroup : rowGroups) {
    BlockMetaData blockMetaData = new BlockMetaData();
    blockMetaData.setRowCount(rowGroup.getNum_rows());
    blockMetaData.setTotalByteSize(rowGroup.getTotal_byte_size());
    List<ColumnChunk> columns = rowGroup.getColumns();
    validateParquet(!columns.isEmpty(), "No columns in row group: %s", rowGroup);
          .map(value -> value.toLowerCase(Locale.ENGLISH))
          .toArray(String[]::new);
      ColumnPath columnPath = ColumnPath.get(path);
      PrimitiveTypeName primitiveTypeName = messageType.getType(columnPath.toArray()).asPrimitiveType().getPrimitiveTypeName();
      ColumnChunkMetaData column = ColumnChunkMetaData.get(
          columnPath,
          primitiveTypeName,
          CompressionCodecName.fromParquet(metaData.codec),
          readEncodings(metaData.encodings),
          readStats(metaData.statistics, primitiveTypeName),
          metaData.total_compressed_size,
          metaData.total_uncompressed_size);
      blockMetaData.addColumn(column);
    blockMetaData.setPath(filePath);
    blocks.add(blockMetaData);
return new ParquetMetadata(new parquet.hadoop.metadata.FileMetaData(messageType, keyValueMetaData, fileMetaData.getCreated_by()), blocks);

FSDataInputStream inputStream = fileSystem.open(path);
ParquetMetadata parquetMetadata = MetadataReader.readFooter(inputStream, path, fileSize);
FileMetaData fileMetaData = parquetMetadata.getFileMetaData();
MessageType fileSchema = fileMetaData.getSchema();
dataSource = buildHdfsParquetDataSource(inputStream, path, fileSize, stats);
for (BlockMetaData block : parquetMetadata.getBlocks()) {
  long firstDataPage = block.getColumns().get(0).getFirstDataPageOffset();
  if (firstDataPage >= start && firstDataPage < start + length) {
    footerBlocks.add(block);

private ColumnChunk readPrimitive(PrimitiveField field)
    throws IOException
{
  ColumnDescriptor columnDescriptor = field.getDescriptor();
  PrimitiveColumnReader columnReader = columnReaders[field.getId()];
  if (columnReader.getPageReader() == null) {
    validateParquet(currentBlockMetadata.getRowCount() > 0, "Row group has 0 rows");
    ColumnChunkMetaData metadata = getColumnChunkMetaData(columnDescriptor);
    long startingPosition = metadata.getStartingPos();
    int totalSize = toIntExact(metadata.getTotalSize());
    byte[] buffer = allocateBlock(totalSize);
    dataSource.readFully(startingPosition, buffer);
    ColumnChunkDescriptor descriptor = new ColumnChunkDescriptor(columnDescriptor, metadata, totalSize);
    ParquetColumnChunk columnChunk = new ParquetColumnChunk(descriptor, buffer, 0);
    columnReader.setPageReader(columnChunk.readAllPages());
  }
  return columnReader.readPrimitive(field);
}

 /**
  * @return the compressed size of all columns
  */
 public long getCompressedSize() {
  long totalSize = 0;
  for (ColumnChunkMetaData col : getColumns()) {
   totalSize += col.getTotalSize();
  }
  return totalSize;
 }
}

private boolean advanceToNextRowGroup()
{
  currentRowGroupMemoryContext.close();
  currentRowGroupMemoryContext = systemMemoryContext.newAggregatedMemoryContext();
  if (currentBlock == blocks.size()) {
    return false;
  }
  currentBlockMetadata = blocks.get(currentBlock);
  currentBlock = currentBlock + 1;
  nextRowInGroup = 0L;
  currentGroupRowCount = currentBlockMetadata.getRowCount();
  initializeColumnReaders();
  return true;
}

public PageReader readAllPages()
    throws IOException
{
  List<DataPage> pages = new ArrayList<>();
  DictionaryPage dictionaryPage = null;
  long valueCount = 0;
  while (valueCount < descriptor.getColumnChunkMetaData().getValueCount()) {
    PageHeader pageHeader = readPageHeader();
    int uncompressedPageSize = pageHeader.getUncompressed_page_size();
    int compressedPageSize = pageHeader.getCompressed_page_size();
    switch (pageHeader.type) {
      case DICTIONARY_PAGE:
        if (dictionaryPage != null) {
          throw new ParquetCorruptionException("%s has more than one dictionary page in column chunk", descriptor.getColumnDescriptor());
        }
        dictionaryPage = readDictionaryPage(pageHeader, uncompressedPageSize, compressedPageSize);
        break;
      case DATA_PAGE:
        valueCount += readDataPageV1(pageHeader, uncompressedPageSize, compressedPageSize, pages);
        break;
      case DATA_PAGE_V2:
        valueCount += readDataPageV2(pageHeader, uncompressedPageSize, compressedPageSize, pages);
        break;
      default:
        skip(compressedPageSize);
        break;
    }
  }
  return new PageReader(descriptor.getColumnChunkMetaData().getCodec(), pages, dictionaryPage);
}

 @Override
 public String toString() {
  return "ColumnMetaData{" + properties.toString() + ", " + getFirstDataPageOffset() + "}";
 }
}

public static ColumnPath get(String... path){
 return paths.canonicalize(new ColumnPath(path));
}

private CompressionCodecName getCodecFromConfig() {
 State state = this.destination.getProperties();
 String codecValue = Optional.ofNullable(state.getProp(getProperty(WRITER_CODEC_TYPE)))
   .orElse(CompressionCodecName.SNAPPY.toString());
 return CompressionCodecName.valueOf(codecValue.toUpperCase());
}

public static void configureCompression(Configuration config, HiveCompressionCodec compressionCodec)
{
  boolean compression = compressionCodec != HiveCompressionCodec.NONE;
  config.setBoolean(COMPRESSRESULT.varname, compression);
  config.setBoolean("mapred.output.compress", compression);
  config.setBoolean(FileOutputFormat.COMPRESS, compression);
  // For DWRF
  config.set(HIVE_ORC_DEFAULT_COMPRESS.varname, compressionCodec.getOrcCompressionKind().name());
  config.set(HIVE_ORC_COMPRESSION.varname, compressionCodec.getOrcCompressionKind().name());
  // For ORC
  config.set(OrcTableProperties.COMPRESSION.getPropName(), compressionCodec.getOrcCompressionKind().name());
  // For RCFile and Text
  if (compressionCodec.getCodec().isPresent()) {
    config.set("mapred.output.compression.codec", compressionCodec.getCodec().get().getName());
    config.set(FileOutputFormat.COMPRESS_CODEC, compressionCodec.getCodec().get().getName());
  }
  else {
    config.unset("mapred.output.compression.codec");
    config.unset(FileOutputFormat.COMPRESS_CODEC);
  }
  // For Parquet
  config.set(ParquetOutputFormat.COMPRESSION, compressionCodec.getParquetCompressionCodec().name());
  // For SequenceFile
  config.set(FileOutputFormat.COMPRESS_TYPE, BLOCK.toString());
}

@Override
public boolean equals(Object obj) {
 if (obj instanceof ColumnChunkProperties) {
  ColumnChunkProperties other = (ColumnChunkProperties)obj;
  return other.codec == codec && other.path.equals(path) && other.type == type && equals(other.encodings, encodings);
 }
 return false;
}

public static EncodingList getEncodingList(List<Encoding> encodings) {
 return encodingLists.canonicalize(new EncodingList(encodings));
}

public static ColumnChunkProperties get(ColumnPath path, PrimitiveTypeName type, CompressionCodecName codec, Set<Encoding> encodings) {
 return properties.canonicalize(new ColumnChunkProperties(codec, path, type, encodings));
}

/**
 * @return the location of the dictionary page if any
 */
public long getDictionaryPageOffset() {
 return intToPositiveLong(dictionaryPageOffset);
}

public static boolean predicateMatches(Predicate parquetPredicate, BlockMetaData block, ParquetDataSource dataSource, Map<List<String>, RichColumnDescriptor> descriptorsByPath, TupleDomain<ColumnDescriptor> parquetTupleDomain, boolean failOnCorruptedParquetStatistics)
    throws ParquetCorruptionException
{
  Map<ColumnDescriptor, Statistics<?>> columnStatistics = getStatistics(block, descriptorsByPath);
  if (!parquetPredicate.matches(block.getRowCount(), columnStatistics, dataSource.getId(), failOnCorruptedParquetStatistics)) {
    return false;
  }
  Map<ColumnDescriptor, DictionaryDescriptor> dictionaries = getDictionaries(block, dataSource, descriptorsByPath, parquetTupleDomain);
  return parquetPredicate.matches(dictionaries);
}

public static ColumnPath get(String... path){
 return paths.canonicalize(new ColumnPath(path));
}

/**
 * @return count of values in this block of the column
 */
public long getValueCount() {
 return intToPositiveLong(valueCount);
}

How to use parquet.hadoop.metadata

Best Java code snippets using parquet.hadoop.metadata (Showing top 20 results out of 315)