搜索引擎原理 — 中文分词

向宇峰 发表于 2016-2-2 15:41:59 | 查看: 1727 | 回复: 0
  分词是中文搜索引擎中特有的技术。在英文中以单次为单位,单次之间会有空格,并且每个单次都有特定的意思,计算机很容易理解英文语句的意思。但是中文以字为单位,只有将一句话中所有的字串起来才能表达一个完整的意思,计算机不能直接把中文分成单个字来理解,所以就需要引入中文分词技术,把一句话切分成一个个有意义的词语来进行理解。比如把“我是一个学生”切分成“我/是/一个/学生”。

  搜索引擎面对中文网页时就是这样,靠中文分词来理解网页所描述的内容。其实分词技术的基础就是拥有海量的有意义的词库(词典),搜索引擎会使用自己强大的词库来对网页内容进行拆分,或者是对内容进行机械切割,统计出出现次数最多的词。通过分词就可以使得搜索引擎明白该网页内容是与什么相关的,这回直接决定该网页出现在哪些词的搜索结果中,所以中文分词在seo工作中也是需要潜心研究的。现在很多SEO人员只是知道有这么个技术,但是对这项技术具体是怎么进行分词的,以及中文分词是怎么运用到SEO工作中的还一无所知。

  搜索引擎对于中文内容的理解和分词一直都没有太大的进步,所以搜索引擎程序在判断网页内容和关键词的相关性方面的技术,与几年前相比也并没有太大进步。现在常见的中文分词技术有两种:基于词典匹配和基于统计,也有研究基于语义分析的分词方法,但是汉语博大精深,计算机程序暂时还不能很好的支持。

  1.基于词典匹配
  这种分词技术是使用搜索引擎自己的词典对网页内容进行拆分。按照匹配方向的不同可以分为正向匹配和逆向匹配;按照不同长度优先匹配的不同可以分为最长匹配和最小匹配。常见的三种匹配方法是正向最大匹配(从左到由)、逆向最大匹配(从右到左)和最少切分

  不论使用什么样的匹配方式,都是使用搜索引擎已有的词典,对网页内容进行拆分理解。这种分词方式的准确度取决于词典的完整性和更新情况。如果当一个新词出现时,搜索引擎没有即时把该词加入到词典中,那么就会影响最终的分词精准度。尤其是在网络如此发达的今天,几乎每天都有新词出现。

  2.基于统计
  这种分词技术不依靠词典,而是对大量文字样本进行分析,然后把相邻出现次数比较多的几个字当成一个词来处理。基于统计的分词方法在一定程度上解决了搜索引擎词典更新的问题,并且有利于消除歧义。

  在当前搜索引擎中文分词中多多少少都会存在着一些难题没有解决,这可能是因为汉语真的太博大精深了,在当下计算机根本不可能完全理解。比如,网络上流传的两句“以前喜欢一个人,现在喜欢一个人” “以前谁都看不上,现在谁都看不上”,有些人第一眼看到这两句话也不太理解,相信搜索引擎在短期内更不会真正理解这两句话。

  搜索引擎会把网页拆分出来的词按照词频进行排序,使用TF-IDF之类的算法以确定该网页主要和哪些词相关,并进行相关度计算。搜索引擎会综合各方面因素来确定当前页面主题描述的内容。分词技术指导SEO人员再进行网站内容建设和关键词布局时,可以把一个关键词分成更小的单位进行拆分布局,这样不仅可以加强网页和这个关键词的相关度,也会使得网页匹配出更多的关键词。

  比如下图在百度搜索长尾词“婚纱摄影公司”,图中自然搜索结果第一和第三的网页title、description和页面内容都没有完整出现“婚纱摄影公司”这个词,但是依然有比较不错的排名。
图1.jpg

  还有种情况,当在百度网页搜索“婚纱摄影公司”会被切割成“婚纱摄影” “公司”和“婚纱摄影”“摄影公司”或“婚纱”“摄影公司”,来进行相关度计算,在搜索结果中就算有网页完整的出现了“婚纱摄影公司”这个词,但是并不一定能排到靠前的位置,可见中文分词用得好,会为网页额外增加大量可以匹配的关键词,这样就可以是网站整体获得更多的搜索展现机会和流量。

  在上面例子中充分体现了分词技术中的正向最大匹配、逆向最大匹配以及最少切分的规律。如前面所述,很多SEO人员指导有中文分词这么回事,但是并不知道怎么运用。如果你还没有研究过中文分词,那么现在就开始详细研究吧,有不懂的就百度一下,会有很多详细介绍资料。也可以留言问我,每条留言必回!

----------------------------------------------------
部分文章将会更新至微信订阅号
微信添加好友搜索:xyfeng168 或 扫描下面二维码
qrcode_for_gh_4541646afbc2_1280.jpg
感谢关注,如果本文对你有帮助就请分享一下
如果你有SEO、网络推广网络营销等方面的问题可以给我留言,每条回复必看!

收藏 回复 显示全部楼层 道具 举报

访客可直接回复,无需注册!
高级模式
B Color Image Link Quote Code Smilies @朋友 |上传

楼主 : 向宇峰

  • 收听TA
  • 加好友
  • 发消息
  • 打招呼
关注微信订阅号
    部分文章将会更新至微信订阅号
    微信添加好友搜索:xyfeng168
    或扫描下面二维码
    微信二维码
一直专注于网站优化 - 网络推广 - 网络营销 - 微信运营 - 网站建设

Copyright © 2013 向宇峰博客 版权所有
浙ICP备13033857号

返回顶部