李维强-15级 发表于 2019-5-21 14:15:35

分词算法

本帖最后由 李维强-15级 于 2019-5-21 18:29 编辑

例如对于文本串“南京市长江大桥”,找到匹配的所有词条(南京,市,长江,大桥,南京市,长江大桥,市长,江大桥,江大,桥)
这个如何去分解?MIT的同学给出了分词算法,总体来说应用HMM模型,使用了Viterbi算法。
在我的项目里面有一个物料信息搜索,就是电力局内几万种物料名称,搜索后我需要给出匹配建议,这里就需要把搜索词拆分,然后再到数据内LIKE它,还好数据量只有几万,不大不然效率就会慢了,需要加入分布式和缓存了
https://github.com/anderscui/jieba.NET/

另外一个在线的,可调用其API
http://pullword.com/
页: [1]
查看完整版本: 分词算法