百度中文分词原理是怎样的?就百度中文分词原理及其分词规则、百度如何进行中文分析等,王克江用实例为我们做了详细分析解说:
搜索引擎算法的改变迎来的中文分词原理的变化,下面idsem团队成员王克江以中文分词原理来解说百度中文分词原理的分词规则,分享如下:
一、中文分词原理的解说
1、基于理解的分词方法
基于理解的分词方法就是机器模拟人来理解词语,在语言知识及其词库的配合下,机器执行语句控制,词意控制,以及分词控制来模拟人来读取网页信息。可以理解成机器模拟人分词。
2、基于字符串匹配的分词方法
基于字符串匹配分词是与词库进行对比按照不同的扫描方式进行分词,扫描方式分为四种:
1)正向最大匹配法(由左到右的方向)
2)逆向最大匹配法(由右到左的方向)
3)最少切分(使每一句中切出的词数最小)
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
为了提高分词精确度,又出现了标志和特征扫描。标志分词以标志作为为断点,可将原字符串分为较小的串再来进机械分词;特征分词将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
3、基于统计的分词方法
基于统计的分词方法目前有两种方式:互现信息统计分词、机械学习统计分词 互现信息统计分词:在去除噪声的前提下统计词语出现的频率以及词语相邻的位置,根据相邻原则以及词语出现的频率形式词语。
机械学习统计分词:在有大量已经分词的文本前提下,利用统计机器学习模型学习词语切分的规律,完成对未知文本的切分,也可以成为训练统计分词。
4、歧义词语的辨认
歧义分词包括交集型歧义和搭配型歧义在此就不做详细介绍您可以参考”中文分词”百科
5、新词辨认
新词辨认主要指专业术语或者是命名实体比如”人名、地名、机构名、商标”等在百度词库用定位为专有词库。
在为大家解说玩中文分词以后,那么百度是如何进行中文分词的呢,下面用详细例子详细介绍