学会中文分词技术就等于掌握了搜索引擎命脉

  • A+
所属分类:实用干货

搜索引擎在我们的日常生活中已经成为了不可分割的一部分了,相信很多朋友都曾在网上看到类似于“没有了百度我们将面临什么?”这样的问话,想必你自己对此也会深有体会吧。就目前来看,在国内的搜索引擎市场上,百度所占的份额是最大的,360其次,但不可否认的是他们都将中文分词技术应用到了他们的搜索引擎的工作中去了。

那么,到底什么是中文分词技术呢?

中文分词技术其实就是重新将一句话中所出现的字进行再次组合,形成另外一句或一个词组的技术。我就举个最简单的例子来给大家演示下好了,“我在武汉做SEO”像这样的一句简单的话,就可以分成 我 在 武汉 做 SEO 这样的几个词语,这个其实就是和的中文分词技术的原理,将原有的中文汉字重新组合成若干个有意的新的词组或语句,就叫中文分词技术。

中文分词技术到底与搜索引擎有着什么样的关系呢?

话说咱老祖宗留给咱的文化那叫一个博大精深啊,可能一句话中仅仅只是标点符号的位置变换一下,或者仅仅只是一个字的变化,都将有可能使得整句话的意思完全不相同,这里我也举个在搜索引擎中找到的例子:原句为——下雨天留客天天留我不留。

可以造就以下句子:

1.下雨天,留客天.天留,我不留

2.下雨,天留客,天天留,我不留!

3.下雨,天留客,天天留我?不留。

4.下雨,天留客,天天留我不?留。

5.下雨天,留客,天天留,我不留。

6.下雨天,留客,天天留我?不留。

7.下雨天,留客,天天留我不?留。

8.下雨天,留客天,天留我?不留。

9.下雨天,留客天,天留我不?留。

通过上面这强大的变化,相信大家对于中文的变幻莫测已经有了清晰的认识了吧,而中文分词技术为的就是能够通过这一技术,使得搜索引擎在他上亿甚至更多的数据库中,找出与你的搜索词最优匹配的内容提供给用户。

然而,人的智慧是无穷无尽的,机器却是死的,所以人可以创造机器,但机器却需要通过人给它设定的程序去运行。所以中文章分词技术基本上遵循以下几大规则:

一、字符串匹配

通俗点我们可以将这个理解为机械化的分词技术,即直接查找是否有与你所提供的文字有相同的出现的。这个时候又分为三个小类别的匹配顺序:

1、正向匹配

即自左往右出现与你提供完全相同的词语进行匹配。

2、逆向匹配

即自右往左出现与你提供完全相同的词语进行匹配。

3、双向匹配

即将前面所提到的两种匹配方式结合起来。

机械分词方法可以说是现有的分词方法中最成熟,使用最多,范围最广的分词技术了,因此对于每一名SEOER来说,对于此方法必须具备一定的了解,才能更好的在网站的建设过种中获得提升。

二、模拟分词方法

这个分词的方法可能就相对来讲比较模糊了,因为通过程序的设计,让搜索引擎去模拟人的思维对于句子进行理解、分化,从而识别这些词意的意思,此方法相对较复杂,搜索引擎在使用上还没有大面积推广,仅仅只是小部分尝试,因此大家只需要了解即可。

三、统筹分词方法

这一分词方法其实使用的主要是一个出现频率的计算以及对数据库比对的一个抽像算法,举个例子,当“你”、“好”这两个字连续出现多次数,搜索引擎就会将此词语当成“你好”这个词语来处理,但是如果要是中间部分加入了“很”字的话,那么就会产生部分认为是“你好”,部分为“你很好”,等等……

上面的三种分词方法可能介绍的不是很详细,因为笔者的文笔所限,可能表述不是很清楚,还请大家原谅。接下来说下分词技术中的几个困难之处,值得大家注意的:

1、词语的歧义分辩

这主要是因为同一句话有着非常多的分词方法,并不是固定的,就如同我前面所提到的“下雨天留客天天留我不留”这句话一样,因为搜索引擎不可能有我们人这样的智慧,它在拆分这样的语句的时候就无法达到尽善尽美。再比如“化妆和服装”这样的词语,切分的时候,搜索引擎就无法很好的识别“化妆 和 服装”与“化妆 和服 装”这样的区别了……

2、专业术语的识别

随着科技的不断进步与发展,很多以前从来没有过的词语纷纷的现世,诸如“你妹”,“屌丝”,“衰木涕”等等,这些网络新兴术语,在刚刚问世的时候中文分词词库中肯定没有记录这些词语的真正含义,需要后期人去进行收录。不过好在搜索引擎已经可以初步开始对新兴词语的识别,让用户得以到更好的体验。

最后小编结束语:了解搜索引擎的分词技术,在日后的建设网站的过程中,充分的将中文分词技术利用起来,那么你就掌握了搜索引擎的命脉所在,必定无往而不利。

avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: