public MediaType normalize(MediaType type) { if (type == null) { return null; } MediaType canonical = registry.get(type.getBaseType()); if (canonical == null) { return type; } else if (type.hasParameters()) { return new MediaType(canonical, type.getParameters()); } else { return canonical; } }
return types.get(normalisedType.getBaseType());
return inheritance.get(type); } else if (type.hasParameters()) { return type.getBaseType(); } else if (type.getSubtype().endsWith("+xml")) { return MediaType.APPLICATION_XML;
private MediaType parseMediaType(String mediaTypeStr) { MediaType mediaType = MediaType.parse(mediaTypeStr.trim().toLowerCase(Locale.ROOT)); return mediaType.getBaseType(); };
private MediaType parseMediaType(String mediaTypeStr) { MediaType mediaType = MediaType.parse(mediaTypeStr.trim().toLowerCase(Locale.ROOT)); return mediaType.getBaseType(); };
private MediaType parseMediaType(String mediaTypeStr) { MediaType mediaType = MediaType.parse(mediaTypeStr.trim().toLowerCase(Locale.ROOT)); return mediaType.getBaseType(); };
private MediaType parseMediaType(String mediaTypeStr) { MediaType mediaType = MediaType.parse(mediaTypeStr.trim().toLowerCase(Locale.ROOT)); return mediaType.getBaseType(); };
public MediaType normalize(MediaType type) { if (type == null) { return null; } MediaType canonical = registry.get(type.getBaseType()); if (canonical == null) { return type; } else if (type.hasParameters()) { return new MediaType(canonical, type.getParameters()); } else { return canonical; } }
public CDR3Document build() { if (this.url == null) throw new IllegalArgumentException("Field 'url' is mandatory"); if (this.rawContent == null) throw new IllegalArgumentException("Field 'raw_content' is mandatory"); if (this.crawler == null) throw new IllegalArgumentException("Field 'crawler' is mandatory"); if (this.team == null) throw new IllegalArgumentException("Field 'team' is mandatory"); if (this.timestampIndex == null) throw new IllegalArgumentException("Field 'timestampIndex' is mandatory"); if(this.contentType == null) { MediaType mediaType = extractor.detect(this.rawContent, this.url, this.contentType); this.contentType = mediaType.getBaseType().toString(); } if(this.objects == null) { this.objects = new ArrayList<>(); } if (this._id == null) { // auto-generate _id field this._id = computeId(); } return new CDR3Document(this); }
public MediaType normalize(MediaType type) { if (type == null) { return null; } MediaType canonical = registry.get(type.getBaseType()); if (canonical == null) { return type; } else if (type.hasParameters()) { return new MediaType(canonical, type.getParameters()); } else { return canonical; } }
private Parser detectParser(Record record) { if (!hasAtLeastOneMimeType(record)) { return null; } String mediaTypeStr = (String) record.getFirstValue(Fields.ATTACHMENT_MIME_TYPE); //ExtractingParams.STREAM_TYPE); assert mediaTypeStr != null; MediaType mediaType = parseMediaType(mediaTypeStr).getBaseType(); Parser parser = mediaTypeToParserMap.get(mediaType); // fast path if (parser != null) { return parser; } // wildcard matching for (Map.Entry<MediaType, Parser> entry : mediaTypeToParserMap.entrySet()) { if (isMediaTypeMatch(mediaType, entry.getKey())) { return entry.getValue(); } } if (LOG.isDebugEnabled()) { LOG.debug("No supported MIME type parser found for " + Fields.ATTACHMENT_MIME_TYPE + "=" + mediaTypeStr); } return null; }
private Parser detectParser(Record record) { if (!hasAtLeastOneMimeType(record)) { return null; } String mediaTypeStr = (String) record.getFirstValue(Fields.ATTACHMENT_MIME_TYPE); //ExtractingParams.STREAM_TYPE); assert mediaTypeStr != null; MediaType mediaType = parseMediaType(mediaTypeStr).getBaseType(); Parser parser = mediaTypeToParserMap.get(mediaType); // fast path if (parser != null) { return parser; } // wildcard matching for (Map.Entry<MediaType, Parser> entry : mediaTypeToParserMap.entrySet()) { if (isMediaTypeMatch(mediaType, entry.getKey())) { return entry.getValue(); } } if (LOG.isDebugEnabled()) { LOG.debug("No supported MIME type parser found for " + Fields.ATTACHMENT_MIME_TYPE + "=" + mediaTypeStr); } return null; }
private Parser detectParser(Record record) { if (!hasAtLeastOneMimeType(record)) { return null; } String mediaTypeStr = (String) record.getFirstValue(Fields.ATTACHMENT_MIME_TYPE); //ExtractingParams.STREAM_TYPE); assert mediaTypeStr != null; MediaType mediaType = parseMediaType(mediaTypeStr).getBaseType(); Parser parser = mediaTypeToParserMap.get(mediaType); // fast path if (parser != null) { return parser; } // wildcard matching for (Map.Entry<MediaType, Parser> entry : mediaTypeToParserMap.entrySet()) { if (isMediaTypeMatch(mediaType, entry.getKey())) { return entry.getValue(); } } if (LOG.isDebugEnabled()) { LOG.debug("No supported MIME type parser found for " + Fields.ATTACHMENT_MIME_TYPE + "=" + mediaTypeStr); } return null; }
private Parser detectParser(Record record) { if (!hasAtLeastOneMimeType(record)) { return null; } String mediaTypeStr = (String) record.getFirstValue(Fields.ATTACHMENT_MIME_TYPE); //ExtractingParams.STREAM_TYPE); assert mediaTypeStr != null; MediaType mediaType = parseMediaType(mediaTypeStr).getBaseType(); Parser parser = mediaTypeToParserMap.get(mediaType); // fast path if (parser != null) { return parser; } // wildcard matching for (Map.Entry<MediaType, Parser> entry : mediaTypeToParserMap.entrySet()) { if (isMediaTypeMatch(mediaType, entry.getKey())) { return entry.getValue(); } } if (LOG.isDebugEnabled()) { LOG.debug("No supported MIME type parser found for " + Fields.ATTACHMENT_MIME_TYPE + "=" + mediaTypeStr); } return null; }
this.contentType = mediaType.getBaseType().toString();
this.contentType = mediaType.getBaseType().toString(); if(mediaType.getBaseType().equals(MediaType.TEXT_HTML)) {
return types.get(normalisedType.getBaseType());
public static MediaRange parse(String range, MediaTypeRegistry registry) { MediaType type = MediaType.parse(range); if (type == null) { return null; } type = registry.normalize(type); Map<String, String> parameters = new HashMap<String, String>(type.getParameters()); String q = parameters.remove("q"); if (q != null) { try { return new MediaRange( new MediaType(type.getBaseType(), parameters), Double.parseDouble(q)); } catch (NumberFormatException e) { return null; } } return new MediaRange(type, 1.0); }
public static MediaRange parse(String range, MediaTypeRegistry registry) { MediaType type = MediaType.parse(range); if (type == null) { return null; } type = registry.normalize(type); Map<String, String> parameters = new HashMap<String, String>(type.getParameters()); String q = parameters.remove("q"); if (q != null) { try { return new MediaRange( new MediaType(type.getBaseType(), parameters), Double.parseDouble(q)); } catch (NumberFormatException e) { return null; } } return new MediaRange(type, 1.0); }
@Test public void testDetectMimeType() { // given String filename = "http%3A%2F%2Fwww.darpa.mil%2Fprogram%2Fmemex"; InputStream fileStream = CDRDocumentBuilderTest.class.getResourceAsStream(filename); TikaExtractor parser = new TikaExtractor(); // when MediaType type = parser.detect(fileStream, filename, null); // then assertThat(type.getBaseType(), is(MediaType.TEXT_HTML)); assertThat(type.getBaseType().toString(), is("text/html")); }