百度分词技术
百度分为大体分为3中方法
1.字符串匹配的分词方法
2.词义分词法。
3.统计分此法。
一、字符串匹配的分词方法是最常用的分词法,百度就是用此种分词。字符串匹
配的分词方法又分为3中分词方法:
1.正向最大匹配法
什么意思呢?就是把一个词从左至右来分词。举个例子:“不知道你在说什么”
,这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”与正
向最大匹配法相对应的是反向最大匹配发。
2.反向最大匹配法
上面我举的例子是如何分的呢 “不知道你在说什么”。反向最大匹配法来分上面这
段是如何分的:“不,知道,你在,说,什么”,这个就分的比较多了,反向最
大匹配法就是从右至左。
3.就是最短路径分词法
这个怎么理解呢 ,就是说,我一段话里面要求切出的词数是最少的。
还是上面哪句话:“不知道你在说什么” 最短路径分词法就是指,我把上面哪句
话分成的词要是最少的。不知道,你在,说什么,这就是最短路径分词法,分出
来就只有3个词了 。好了,当然还有上面三种可以相互结合组成一些分词方法。
比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。好
了,第一种说完了,
二、词义分词法
这种其实就是一种机器语音判断的分词
方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象
来分词,这种分词方法,现在还不成熟。处在测试阶段。
三、统计的分词方法
这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那
么这个词就很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如
,“我的,你的,许多的,这里,这一,那里”。等等,这些词出现的比较多,就
从这些词里面分开来。好了,分词技术讲完了。
那么我们刚刚学了分词技术,又如何来运用他们为我们的站点获得流量呢
我们可以利用分词技术来增加我们站点长尾词,这样就可以获取流量排名。
不但这些分出来的长尾词能够获取一定的排名,也能够推动站点的目标关键词获
取很好的排名。这个原理就是内链原理,这里不再讲了。讲了这么多,我们举个
例子。
例如:外贸网站优化,如何来分呢?
正向最大匹配,反向最大匹配,双向最大匹配,最短链接匹配。
1、正向最大匹配:“外贸,网站优化”
2、反向最大匹配:“外贸网站,优化”
3、双向最大匹配:“外贸,网站,优化”
4、最短路径最大匹配。:“外贸网站优化”
好了,我们分了词为“外贸,网站优化,优化,外贸网站,网站 ,外贸网站优化
。”
这些词每个都可以做一个主题页为目标关键词
这些分出来的词,把他们都作为你站点的主题页,一旦导入链接权重上来了,竞
争力就大了,因为这些页面把他内链起来。用锚链接,指向主页的目标关键词。
呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给站点
带来一定流量。
分词还有一种好处,那就是提升内页的排名。好的,这个我就不详细讲了。大家
可以去看一下。就是关于百度,捕获描述的文章。如果你的内页不做描述,那么
百度就会给你定义一个描述或者从你的页面捕获一个描述。在捕获描述的时候,
如果你的知道他会捕获哪一段,那么你说,你的排名会不会上升。你就刻意写哪
一段。