paoding下载
http://code.google.com/p/paoding/
paoding分词的默认配置
paoding-analysis-default.properties
配置全局的规则,{字典目录,切词规则}
paoding分词的字典指定
paoding-dic-home.properties
paoding自己的字典文件paoding/dic
x-noise-*.dic是过滤字典,存放分词时过滤词和字;其他dic是定义一个完整的词。
paoding分词的切词策略
paoding-knives.properties
paoding/dic/.compiled目录是生成二进制字典的目录,每次字典,过滤字典添加新词的时候,需要删除,运行paoding分词的时候会重新生成新的字典。
net.paoding.analysis.dictionary包目录维护字典的类
net.paoding.analysis.knife包目录定义了一些分词策略
net.paoding.analysis.knife.FileDictionaries
程序分词时,主要加载的字典
/**
* 中文字典缓存根据地,为{@link CJKKnife}所用。<br>
* 从本对象可以获取中文需要的相关字典。包括词汇表、姓氏表、计量单位表、忽略的词或单字等。
* <p>
*
* @author Zhiliang Wang [qieqie.wang@gmail.com]
*
* @see CJKKnife
*
* @since 1.0
*/
public class FileDictionaries implements Dictionaries {
// -------------------------------------------------
protected Log log = LogFactory.getLog(this.getClass());
// -------------------------------------------------
/**
* 词汇表字典
*/
protected Dictionary vocabularyDictionary;
/**
* lantin+cjk的词典
*/
protected Dictionary combinatoricsDictionary;
/**
* 姓氏字典
*
*/
protected Dictionary confucianFamilyNamesDictionary;
/**
* 忽略的单字
*/
protected Dictionary noiseCharactorsDictionary;
/**
* 忽略的词语
*
*/
protected Dictionary noiseWordsDictionary;
/**
* 计量单位
*/
protected Dictionary unitsDictionary;
//分词
private String[] wordSegmentation(String text) {
//应该用一个全局变量,可以复用
Analyzer analyzer = new PaodingAnalyzer();
List<String> tags = new ArrayList<String>();
TokenStream tokenStream = analyzer.tokenStream("text",
new StringReader(text));
CharTermAttribute termAtt = (CharTermAttribute) tokenStream
.getAttribute(CharTermAttribute.class);
try {
while (tokenStream.incrementToken()) {
tags.add(termAtt.toString());
}
} catch (IOException e) {
e.printStackTrace();
}
String[] asdfasdf = new String[tags.size()];
tags.toArray(asdfasdf);
return asdfasdf;
}
分享到:
相关推荐
庖丁分词.jar 庖丁分词.jar 庖丁分词.jar 庖丁分词.jar
庖丁分词的jar包
支持中文的庖丁解牛,庖丁分词,找了好久才找到的希望对你有帮助。
https://github.com/chubbyjiang/MapReduce
庖丁分词测试数据集 工具
庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包
庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。...
庖丁解牛分词之自定义词库、庖丁解牛配置,java搜索分词
支持lucne4.X的庖丁分词jar包,自己打的jar包,保准好用
最新庖丁分词源代码(for lucene3.0)
庖丁 分词 归类 Java包2.0.4-bete.7z
Version 2.0.4–alpha2 通过 analyzer.bat 程序,可以输入中文文本,即时地查看分词效果。 Jar包在lib 文件夹中。 本人倡导零分资源共享,欢迎大家下载和评论。
由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...
庖丁分词 使用 paoding-analysis-2.0.4-beta.zip 版时异常 Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z 换用svn里源码版正常 ...
庖丁解牛分词器源码,包含源码与对应项目,可以用eclipse打开编译
庖丁中文分词在VB.NET的使用例子方法
一款比较好的中文分词器,可以很方便地集成到lucene中,集成到lucene3.0中的时候需要做一些修改,具体修改方法可以百度之
最新庖丁解牛分词法的使用demo,支持Lucene3.3、3.4等3.0以上版本,庖丁解牛的分词包为自己编译生成的,之前的2.0的版本不能支持Lucene3.0以上版本,所以需要从svn下载最新的庖丁解牛源码,生成jar文件(我同样已...
NULL 博文链接:https://michael-tuan.iteye.com/blog/370788
将源码做部分修改,打成jar包,适合于lucene3.6版本。注意paoding-dic-home.properties的配置