|
网站(zhàn)SEO优化之(zhī)Google分词法 |
|
Google分词(cí)算法值得我们好好研究(jiū)一(yī)下。Google的搜索结果页(SERP)与搜索关键字的相关性,明显大于百度(dù),这是因(yīn)为(wéi)Google把(bǎ)搜索关键字(zì)都拆分成最基本的词组(zǔ)和单字后,在根据相关性去匹配数据库的中(zhōng)内(nèi)容(róng),而且Google拆分后的最基本词组,完全是(shì)根据词典(diǎn)里的词组匹配的,也是说(shuō)它符合国家语(yǔ)言文字工(gōng)作委员会的规范和标准的,这只限于普通词组(公众(zhòng)人名、著名品(pǐn)牌(pái)名)。
实(shí)例1:测试Google是(shì)否有专(zhuān)业名词库(kù)
在(zài)Google搜索(suǒ)“搜索引擎关键字”,Google会把这个关键字短语拆分(fèn)为“搜(sōu)索—引擎—关键—字”,这是(shì)因为“搜(sōu)索(suǒ)引擎”和“关键字(zì)”都是网络专业词组,可能Google没有专业词组库(kù),所以就被拆分成了“搜索(suǒ)—引擎(qíng)—关键—字”。
实例2:测试Google拆分长关键字
在Google搜(sōu)索“他舅WAP流量统计分析”,Google把这(zhè)个关键字(zì)短语拆(chāi)分为“他—舅—wap—流(liú)量—统计—分析”六(liù)部分(fèn),“WAP”是一个英文(wén)词组(zǔ),包括Google和其他搜索引擎一般是不拆分英文词组的(就算它不是英(yīng)文单词),“流量”、“统计”、“分析”都(dōu)是(shì)符合国(guó)家语(yǔ)言规范的标准词组,“他舅”只是(shì)中国老百(bǎi)姓一个口头称谓用语,不符合国家语言(yán)规范,在词(cí)典(diǎn)中根本(běn)就查不到这,所以Google就(jiù)把“他舅”拆分成(chéng)了两个(gè)单字。
实例3:测试品(pǐn)牌名是否被Google收录为词组
在Google搜(sōu)索“海尔冰箱”、“惠普电脑”、“华(huá)为通讯”、“美的(de)电器(qì)”,“五粮液酒”,“夏利汽车”、“北京同仁堂”这七个都是著名的品牌,结果是“海尔”、“惠普”、“华为”、“五粮液”、“同仁堂”都是单独的词组,没有(yǒu)被拆分为单字,“夏(xià)利(lì)”、“美的”这(zhè)两个品牌却被拆分成了单字。不是所有品牌都能被Google作为一个词组收(shōu)录进品牌(pái)词库,Google有自己的(de)收(shōu)录(lù)标准的。
实例4:测试Google是否会(huì)拆分成(chéng)语
下面(miàn)我们搜索一下韩乔生的经典名句“迅雷(léi)不及(jí)掩耳之势”和“山(shān)清(qīng)水秀(xiù)丽(lì)”,结果“迅雷不及(jí)掩(yǎn)耳之势”这个短句(jù)被拆分成了“迅雷—不及(jí)—掩耳盗铃—之—势”,“迅雷(léi)”是一个符合汉(hàn)语言规(guī)范的标准词组,不是指下载(zǎi)工具那个“迅雷”,“不及”也是(shì)一个词组,“掩耳盗铃”也是符合国家语(yǔ)言规(guī)范的成语,“之势”不是标准词(cí)组,所(suǒ)以就被拆分为两个(gè)单字。“山清水秀丽”被拆(chāi)分为了“山清水秀(xiù)—丽(lì)”,“山清水秀”是(shì)一个成(chéng)语没有拆分。Google把成语作(zuò)为几个基本(běn)词组,不会进一步拆分(fèn)。
实例5:测试普通(tōng)之间是否有权重高低之分(fèn)
搜索“山(shān)河(hé)水灾”这个关键字短语,结果Google拆分(fèn)为“山(shān)河”和“水灾(zāi)”两个词(cí)组;然后搜素“山(shān)河水(shuǐ)灾(zāi)情”这个(gè)关键字短语,结(jié)果Google拆(chāi)分为“山河”、“水”、“灾情”三部分(fèn),“水”字没(méi)有和“灾”组成词组,反而“灾(zāi)”和“情”组成了词组,这说(shuō)“灾情”这(zhè)个词的权重高于(yú)“水(shuǐ)灾(zāi)”的权重。这说明词(cí)组之(zhī)间也是有权(quán)重之分的。
根据实例测试推断:Google会把搜(sōu)索(suǒ)的关(guān)键(jiàn)字(短语)拆分为最基本(běn)的(de)词组(zǔ),这些普通词组都是符合汉(hàn)语言规范的标准词组,不像(xiàng)百(bǎi)度那样收(shōu)录(lù)“人(rén)造名词(cí)”。Google的词(cí)组大致可分为普通(tōng)名词、地名、人名(míng)等几类,关键字(短(duǎn)语(yǔ))都是从(cóng)左(zuǒ)向右,按权重高(gāo)低拆分(fèn)。这些词(cí)组权重从低到(dào)高依次如(rú)下:人名<普通词组<地名<成语<领导(dǎo)人名字。进一步测试品(pǐn)牌名和人名的权重是(shì)一样,都是最低的,这只是一个大(dà)致顺序(xù),因为(wéi)同一类词组还(hái)会根据日常使用的频率(lǜ)进一步的分级,每一级的分配不同的权重,所以(yǐ)同(tóng)一(yī)类词组之间也有权(quán)重高低之(zhī)分。
|
|