KhmerAnalyzer

Analyzer for Khmer text.

Tokenizes text into grapheme clusters using GraphemeClusterTokenizer, optionally applies character-level normalization via KhmerNormalizationCharFilter before tokenization, and then reorders characters within each token using CharReorderFilter.

normalizationlevel

normalization level: 0 = none, 1 = formally confusable (default), 2 = also informally confusable, 3 = also digit mapping and more

Constructors

constructor()

constructor(normalizationlevel: Int)

constructor(normalizationlevel: Int, enableStopwords: Boolean, khmerNumber: Boolean)

constructor(normalizationlevel: Int, enableStopwords: Boolean, khmerNumber: Boolean, stopwords: CharArraySet)

open override fun close()

open fun getOffsetGap(fieldName: String?): Int