欢迎访问 生活随笔!

生活随笔

当前位置: 首页 >

基于逆向最大化词表中文分词法zz

发布时间:2025/4/16 50 豆豆
生活随笔 收集整理的这篇文章主要介绍了 基于逆向最大化词表中文分词法zz 小编觉得挺不错的,现在分享给大家,帮大家做个参考.
前做知识管理系统的时候,由于需要建立全文检索和统计词频,需要对中文文本进行分词。对于中文分词,

国内做到好的应该是中科院自然研究所,但是相对比较复杂,我看了几次没有看明白. :)  ,由于平常我们的知识系统

对分词的要求没有这么高,所以 就选择了最大化的词表分词法.  词表选择的是人民日报97版的词表.

实际效果可以达到90%以上,基本可以满足需要。支持 Lucene.net分词,词表是启动时一次性载入;

   具体代码如下:

  public sealed class LtWordTokenizer : Tokenizer
 {
  private String bufferText;
  private ArrayList wordArray; 
  private int  intIndex=0;  
  public static Hashtable hsDic=new Hashtable();  

  public LtWordTokenizer(TextReader _in)
  {
   input = _in;
   bufferText=input.ReadToEnd().ToLower();   
   wordArray=new ArrayList();   
   wordSegment(bufferText);  
   
  }  

  public void wordSegment(String Sentence)
  {
   int senLen = Sentence.Length;
   int i=0, j=0;
   int M=12;
   string word;    
   while(i < senLen)
   {
    int N= i+M<senLen ? i+M : senLen+1;
    bool bFind=false;
    for(j=N-1; j>i; j--)
    {
     word = Sentence.Substring(i, j-i).Trim();     
     if(hsDic.ContainsKey(word.Trim()))
     {
      wordArray.Add(new Token(word,i,i+word.Length));      
      bFind=true;
      i=j;
      break;
     }     
    }
    if(!bFind)
    {
     word = Sentence.Substring(i, 1).Trim();
     i=j+1;
     if(word.Trim()!="")
     {
      wordArray.Add(new Token(word,i,i+word.Length));     
     }     
    }
   } 
  }


 
  public override Token Next()
  { 
   
   if(intIndex<wordArray.Count)
   { 
    intIndex++;
    return (Token)(wordArray[intIndex-1]);           
   }
   else
    return null;   
  }
  
 }
}

下次可以在分词的时候更改一下,不必先分好保存到arraylist,动态速度更好。

转载于:https://www.cnblogs.com/dayouluo/archive/2005/09/20/240767.html

总结

以上是生活随笔为你收集整理的基于逆向最大化词表中文分词法zz的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。