IT mmpower on 19 May 2007 05:49 am
【分享】中英文混合停用词表 (stop words list)
网上搜索了半天找到了一些但都不是很满意,于是干脆自己根据词性加手工筛选,再加上英文的还有网上找到的, 合在一起作了一个新的stopwords表。
有需要的朋友可以从这里下载:
http://www.smartpeer.net/index.php?p=41
注意这是utf-8编码的,下载后根据自己的需要转成gbk/big5或其他编码。
现在海归网的“相关主题”功能用的就是这个 stopwords 文件。
on 19 May 2007 at 9:12 pm 1.benfangd said …
标题:谢谢mmpower.顺便问一下,关联性的功能有没有open source的code?
on 20 May 2007 at 2:13 pm 2.SuanNiBaiRou said …
标题:问
有几次,上不了龟网,给我的MESSAGE是个 SELECT CERTAIN POSTS FROM XXX。SUANNI没干过网络活,想想:每个POSTS后的相关几篇文章也是这样找出来的吗?
可能是。如果是,那你这个STOP LIST这么长,怎么能这么快呢?
你想啊:
1先将题目和LIST比较,不是STOP LIST里的都放到KEY里边。
这会剩下许多字,组成有可能是看起来不MAKE SENSE的一句KEY
2。再用这个KEY在所有的旧的POST题目里找。
问题:
1只有一个KEY吗?如果是,那MATCH不到什么呀?因为这个KEY肯定太独特了。
2这么快,你的题目是怎么存储的?
签名:别嫌我烦,我知道我烦。
on 22 May 2007 at 8:05 am 3.mmpower said …
标题:可以参考一下lucene, sphinx等open source全文检索引擎
on 22 May 2007 at 8:10 am 4.mmpower said …
标题:stop list 存在一个搜索树上
binary search的话很快, log(n)嘛
具体不是象你想象的,而是:
-- 先分词
-- 过滤 stop words
– 每个词都做匹配,找出匹配度最高的主题。
题目有全文索引,所以快。
on 18 Jul 2007 at 11:30 am 5.qhlonline said …
标题:没法下载
怎么下不了呢,IE显示无法显示网页。
on 18 Jul 2007 at 11:39 am 6.mmpower said …
标题:我的网站所在的hosting ip被国内封了。