cc.mallet.pipe.CharSequenceLowercase java code examples

 /**
  * Construct topic model pipe with given stopwords and alphabets
  *
  * @param stopwords to be removed
  * @param dataAlphabet to use
  */
 public TopicModelPipe(Collection<String> stopwords, Alphabet alphabet) {
  // @formatter:off
  super(
    ImmutableList.of(
      new CharSequenceLowercase(),
      new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}")),
      new RemoveStopwords(stopwords),
      new TokenSequence2FeatureSequence(alphabet)));
  // @formatter:on
 }
}

 /**
  * Construct topic model pipe with given stopwords and alphabets
  *
  * @param stopwords to be removed
  * @param dataAlphabet to use
  */
 public TopicModelPipe(Collection<String> stopwords, Alphabet alphabet) {
  // @formatter:off
  super(
    ImmutableList.of(
      new CharSequenceLowercase(),
      new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}")),
      new RemoveStopwords(stopwords),
      new TokenSequence2FeatureSequence(alphabet)));
  // @formatter:on
 }
}

public static void writeInstanceList(SimpleTokenizer prunedTokenizer)
  throws IOException {
  CsvIterator reader = new CsvIterator(new FileReader(inputFile.value),
                     lineRegex.value,
                     dataGroup.value,
                     labelGroup.value,
                     nameGroup.value);
  ArrayList<Pipe> pipes = new ArrayList<Pipe>();
  Alphabet alphabet = new Alphabet();
  
  CharSequenceLowercase csl = new CharSequenceLowercase();
  StringList2FeatureSequence sl2fs = new StringList2FeatureSequence(alphabet);
  if (! preserveCase.value) {
    pipes.add(csl);
  }
  pipes.add(prunedTokenizer);
  pipes.add(sl2fs);
  Pipe serialPipe = new SerialPipes(pipes);
  InstanceList instances = new InstanceList(serialPipe);
  instances.addThruPipe(reader);
  instances.save(outputFile.value);
}

 /**
  * Construct classifier pipe with given labels and stopwords
  *
  * @param initial pipe
  * @param stopwords to be removed
  */
 public AbstractClassifierPipe(Pipe pipe, Collection<String> stopwords) {
  // @formatter:off
  super(
    ImmutableList.of(
      pipe,
      new CharSequenceLowercase(),
      new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}")),
      new RemoveStopwords(stopwords),
      new TokenSequence2FeatureSequence(),
      new FeatureSequence2FeatureVector()));
  // @formatter:on
 }
}

 /**
  * Construct classifier pipe with given labels and stopwords
  *
  * @param initial pipe
  * @param stopwords to be removed
  */
 public AbstractClassifierPipe(Pipe pipe, Collection<String> stopwords) {
  // @formatter:off
  super(
    ImmutableList.of(
      pipe,
      new CharSequenceLowercase(),
      new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}")),
      new RemoveStopwords(stopwords),
      new TokenSequence2FeatureSequence(),
      new FeatureSequence2FeatureVector()));
  // @formatter:on
 }
}

public static void writeInstanceList(SimpleTokenizer prunedTokenizer)
  throws IOException {
  CsvIterator reader = new CsvIterator(new FileReader(inputFile.value),
                     lineRegex.value,
                     dataGroup.value,
                     labelGroup.value,
                     nameGroup.value);
  ArrayList<Pipe> pipes = new ArrayList<Pipe>();
  Alphabet alphabet = new Alphabet();
  
  CharSequenceLowercase csl = new CharSequenceLowercase();
  StringList2FeatureSequence sl2fs = new StringList2FeatureSequence(alphabet);
  if (! preserveCase.value) {
    pipes.add(csl);
  }
  pipes.add(prunedTokenizer);
  pipes.add(sl2fs);
  Pipe serialPipe = new SerialPipes(pipes);
  InstanceList instances = new InstanceList(serialPipe);
  instances.addThruPipe(reader);
  instances.save(outputFile.value);
}

public static void writeInstanceList(SimpleTokenizer prunedTokenizer)
  throws IOException {
  CsvIterator reader = new CsvIterator(new FileReader(inputFile.value),
                     lineRegex.value,
                     dataGroup.value,
                     labelGroup.value,
                     nameGroup.value);
  ArrayList<Pipe> pipes = new ArrayList<Pipe>();
  Alphabet alphabet = new Alphabet();
  
  CharSequenceLowercase csl = new CharSequenceLowercase();
  StringList2FeatureSequence sl2fs = new StringList2FeatureSequence(alphabet);
  if (! preserveCase.value) {
    pipes.add(csl);
  }
  pipes.add(prunedTokenizer);
  pipes.add(sl2fs);
  Pipe serialPipe = new SerialPipes(pipes);
  InstanceList instances = new InstanceList(serialPipe);
  instances.addThruPipe(reader);
  instances.save(outputFile.value);
}

Alphabet alphabet = new Alphabet();
CharSequenceLowercase csl = new CharSequenceLowercase();
SimpleTokenizer st = prunedTokenizer.deepClone();
StringList2FeatureSequence sl2fs = new StringList2FeatureSequence(alphabet);

Alphabet alphabet = new Alphabet();
CharSequenceLowercase csl = new CharSequenceLowercase();
SimpleTokenizer st = prunedTokenizer.deepClone();
StringList2FeatureSequence sl2fs = new StringList2FeatureSequence(alphabet);

Alphabet alphabet = new Alphabet();
CharSequenceLowercase csl = new CharSequenceLowercase();
SimpleTokenizer st = prunedTokenizer.deepClone();
StringList2FeatureSequence sl2fs = new StringList2FeatureSequence(alphabet);

pipeList.add( new CharSequenceLowercase() );
pipeList.add( new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}")) );
pipeList.add( new TokenSequenceRemoveStopwords(new File("stoplists/en.txt"), "UTF-8", false, false, false) );

pipeList.add( new CharSequenceLowercase() );
pipeList.add( new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}")) );
pipeList.add( new TokenSequenceRemoveStopwords(new File("stoplists/en.txt"), "UTF-8", false, false, false) );

pipeList.add( new CharSequenceLowercase() );
pipeList.add( new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}")) );
pipeList.add( new TokenSequenceRemoveStopwords(new File("stoplists/en.txt"), "UTF-8", false, false, false) );

Alphabet alphabet = new Alphabet();
CharSequenceLowercase csl = new CharSequenceLowercase();
StringList2FeatureSequence sl2fs = new StringList2FeatureSequence(alphabet);

Alphabet alphabet = new Alphabet();
CharSequenceLowercase csl = new CharSequenceLowercase();
StringList2FeatureSequence sl2fs = new StringList2FeatureSequence(alphabet);

Alphabet alphabet = new Alphabet();
CharSequenceLowercase csl = new CharSequenceLowercase();
StringList2FeatureSequence sl2fs = new StringList2FeatureSequence(alphabet);

pipeList.add(new CharSequenceLowercase());

pipeList.add(new CharSequenceLowercase());

pipeList.add(new CharSequenceLowercase());

pipeList.add(new CharSequenceLowercase());

Javadoc

Replace the data string or string buffer with a lowercased version. This can improve performance over TokenSequenceLowercase.

Most used methods

<init>

Popular in Java

Creating JSON documents from java classes using gson
getSharedPreferences (Context)
setRequestProperty (URLConnection)
getSupportFragmentManager (FragmentActivity)
SimpleDateFormat (java.text)
Formats and parses dates in a locale-sensitive manner. Formatting turns a Date into a String, and pa
Hashtable (java.util)
A plug-in replacement for JDK1.5 java.util.Hashtable. This version is based on org.cliffc.high_scale
CountDownLatch (java.util.concurrent)
A synchronization aid that allows one or more threads to wait until a set of operations being perfor
Rectangle (java.awt)
A Rectangle specifies an area in a coordinate space that is enclosed by the Rectangle object's top-
BoxLayout (javax.swing)
JTable (javax.swing)
Best IntelliJ plugins

How to useCharSequenceLowercase in cc.mallet.pipe

Best Java code snippets using cc.mallet.pipe.CharSequenceLowercase (Showing top 20 results out of 315)

How to use
CharSequenceLowercase
in
cc.mallet.pipe