org.apache.lucene.analysis.en.PorterStemmer java code examples

private final boolean doublec(int j) {
 if (j < k0+1)
  return false;
 if (b[j] != b[j-1])
  return false;
 return cons(j);
}

private final void step1() {
 if (b[k] == 's') {
  if (ends("sses")) k -= 2;
  else if (ends("ies")) setto("i");
  else if (b[k-1] != 's') k--;
 }
 if (ends("eed")) {
  if (m() > 0)
   k--;
 }
 else if ((ends("ed") || ends("ing")) && vowelinstem()) {
  k = j;
  if (ends("at")) setto("ate");
  else if (ends("bl")) setto("ble");
  else if (ends("iz")) setto("ize");
  else if (doublec(k)) {
   int ch = b[k--];
   if (ch == 'l' || ch == 's' || ch == 'z')
    k++;
  }
  else if (m() == 1 && cvc(k))
   setto("e");
 }
}

private final void step4() {
 switch (b[k]) {
 case 'e':
  if (ends("icate")) { r("ic"); break; }
  if (ends("ative")) { r(""); break; }
  if (ends("alize")) { r("al"); break; }
  break;
 case 'i':
  if (ends("iciti")) { r("ic"); break; }
  break;
 case 'l':
  if (ends("ical")) { r("ic"); break; }
  if (ends("ful")) { r(""); break; }
  break;
 case 's':
  if (ends("ness")) { r(""); break; }
  break;
 }
}

private final void step2() {
 if (ends("y") && vowelinstem()) {
  b[k] = 'i';
  dirty = true;
 }
}

private final void step6() {
 j = k;
 if (b[k] == 'e') {
  int a = m();
  if (a > 1 || a == 1 && !cvc(k-1))
   k--;
 }
 if (b[k] == 'l' && doublec(k) && m() > 1)
  k--;
}

void r(String s) { if (m() > 0) setto(s); }

 @Override
 public final boolean incrementToken() throws IOException {
  if (!input.incrementToken())
   return false;

  if ((!keywordAttr.isKeyword()) && stemmer.stem(termAtt.buffer(), 0, termAtt.length()))
   termAtt.copyBuffer(stemmer.getResultBuffer(), 0, stemmer.getResultLength());
  return true;
 }
}

/** Stem a word contained in a portion of a char[] array.  Returns
 * true if the stemming process resulted in a word different from
 * the input.  You can retrieve the result with
 * getResultLength()/getResultBuffer() or toString().
 */
public boolean stem(char[] wordBuffer, int offset, int wordLen) {
 reset();
 if (b.length < wordLen) {
  b = new char[ArrayUtil.oversize(wordLen, Character.BYTES)];
 }
 System.arraycopy(wordBuffer, offset, b, 0, wordLen);
 i = wordLen;
 return stem(0);
}

switch (b[k-1]) {
case 'a':
 if (ends("al")) break;
 return;
case 'c':
 if (ends("ance")) break;
 if (ends("ence")) break;
 return;
case 'e':
 if (ends("er")) break; return;
case 'i':
 if (ends("ic")) break; return;
case 'l':
 if (ends("able")) break;
 if (ends("ible")) break; return;
case 'n':
 if (ends("ant")) break;
 if (ends("ement")) break;
 if (ends("ment")) break;
 if (ends("ent")) break;
 return;
case 'o':
 if (ends("ion") && j >= 0 && (b[j] == 's' || b[j] == 't')) break;
 if (ends("ou")) break;
 return;
 if (ends("ism")) break;

private final void step6() {
 j = k;
 if (b[k] == 'e') {
  int a = m();
  if (a > 1 || a == 1 && !cvc(k-1))
   k--;
 }
 if (b[k] == 'l' && doublec(k) && m() > 1)
  k--;
}

 @Override
 public final boolean incrementToken() throws IOException {
  if (!input.incrementToken())
   return false;

  if ((!keywordAttr.isKeyword()) && stemmer.stem(termAtt.buffer(), 0, termAtt.length()))
   termAtt.copyBuffer(stemmer.getResultBuffer(), 0, stemmer.getResultLength());
  return true;
 }
}

private final void step2() {
 if (ends("y") && vowelinstem()) {
  b[k] = 'i';
  dirty = true;
 }
}

void r(String s) { if (m() > 0) setto(s); }

/** Stem a word contained in a portion of a char[] array.  Returns
 * true if the stemming process resulted in a word different from
 * the input.  You can retrieve the result with
 * getResultLength()/getResultBuffer() or toString().
 */
public boolean stem(char[] wordBuffer, int offset, int wordLen) {
 reset();
 if (b.length < wordLen) {
  b = new char[ArrayUtil.oversize(wordLen, NUM_BYTES_CHAR)];
 }
 System.arraycopy(wordBuffer, offset, b, 0, wordLen);
 i = wordLen;
 return stem(0);
}

switch (b[k-1]) {
case 'a':
 if (ends("al")) break;
 return;
case 'c':
 if (ends("ance")) break;
 if (ends("ence")) break;
 return;
case 'e':
 if (ends("er")) break; return;
case 'i':
 if (ends("ic")) break; return;
case 'l':
 if (ends("able")) break;
 if (ends("ible")) break; return;
case 'n':
 if (ends("ant")) break;
 if (ends("ement")) break;
 if (ends("ment")) break;
 if (ends("ent")) break;
 return;
case 'o':
 if (ends("ion") && j >= 0 && (b[j] == 's' || b[j] == 't')) break;
 if (ends("ou")) break;
 return;
 if (ends("ism")) break;

private final void step1() {
 if (b[k] == 's') {
  if (ends("sses")) k -= 2;
  else if (ends("ies")) setto("i");
  else if (b[k-1] != 's') k--;
 }
 if (ends("eed")) {
  if (m() > 0)
   k--;
 }
 else if ((ends("ed") || ends("ing")) && vowelinstem()) {
  k = j;
  if (ends("at")) setto("ate");
  else if (ends("bl")) setto("ble");
  else if (ends("iz")) setto("ize");
  else if (doublec(k)) {
   int ch = b[k--];
   if (ch == 'l' || ch == 's' || ch == 'z')
    k++;
  }
  else if (m() == 1 && cvc(k))
   setto("e");
 }
}

switch (b[k-1]) {
case 'a':
 if (ends("ational")) { r("ate"); break; }
 if (ends("tional")) { r("tion"); break; }
 break;
case 'c':
 if (ends("enci")) { r("ence"); break; }
 if (ends("anci")) { r("ance"); break; }
 break;
case 'e':
 if (ends("izer")) { r("ize"); break; }
 break;
case 'l':
 if (ends("bli")) { r("ble"); break; }
 if (ends("alli")) { r("al"); break; }
 if (ends("entli")) { r("ent"); break; }
 if (ends("eli")) { r("e"); break; }
 if (ends("ousli")) { r("ous"); break; }
 break;
case 'o':
 if (ends("ization")) { r("ize"); break; }
 if (ends("ation")) { r("ate"); break; }
 if (ends("ator")) { r("ate"); break; }
 break;
case 's':
 if (ends("alism")) { r("al"); break; }
 if (ends("iveness")) { r("ive"); break; }
 if (ends("fulness")) { r("ful"); break; }
 if (ends("ousness")) { r("ous"); break; }

private final boolean cvc(int i) {
 if (i < k0+2 || !cons(i) || cons(i-1) || !cons(i-2))
  return false;
 else {
  int ch = b[i];
  if (ch == 'w' || ch == 'x' || ch == 'y') return false;
 }
 return true;
}

private final void step4() {
 switch (b[k]) {
 case 'e':
  if (ends("icate")) { r("ic"); break; }
  if (ends("ative")) { r(""); break; }
  if (ends("alize")) { r("al"); break; }
  break;
 case 'i':
  if (ends("iciti")) { r("ic"); break; }
  break;
 case 'l':
  if (ends("ical")) { r("ic"); break; }
  if (ends("ful")) { r(""); break; }
  break;
 case 's':
  if (ends("ness")) { r(""); break; }
  break;
 }
}

private final boolean vowelinstem() {
 int i;
 for (i = k0; i <= j; i++)
  if (! cons(i))
   return true;
 return false;
}

Javadoc

Stemmer, implementing the Porter Stemming Algorithm The Stemmer class transforms a word into its root form. The input word can be provided a character at time (by calling add()), or at once by calling one of the various stem(something) methods.

Most used methods

cons
cvc
doublec
ends
getResultBuffer
Returns a reference to a character buffer containing the results of the stemming process. You also n
getResultLength
Returns the length of the word resulting from the stemming process.
m
r
reset
reset() resets the stemmer so it can stem another word. If you invoke the stemmer by calling add(cha
setto
stem
Stem a word contained in a portion of a char[] array. Returns true if the stemming process resulted
step1

Popular in Java

Reactive rest calls using spring rest template
onRequestPermissionsResult (Fragment)
findViewById (Activity)
getSupportFragmentManager (FragmentActivity)
Pointer (com.sun.jna)
An abstraction for a native pointer data type. A Pointer instance represents, on the Java side, a na
BufferedInputStream (java.io)
A BufferedInputStream adds functionality to another input stream-namely, the ability to buffer the i
Scanner (java.util)
A parser that parses a text string of primitive types and strings with the help of regular expressio
ReentrantLock (java.util.concurrent.locks)
A reentrant mutual exclusion Lock with the same basic behavior and semantics as the implicit monitor
FlowLayout (java.awt)
A flow layout arranges components in a left-to-right flow, much like lines of text in a paragraph. F
JPanel (javax.swing)
Top 12 Jupyter Notebook extensions

How to usePorterStemmer in org.apache.lucene.analysis.en

Best Java code snippets using org.apache.lucene.analysis.en.PorterStemmer (Showing top 20 results out of 315)

How to use
PorterStemmer
in
org.apache.lucene.analysis.en