 |


帖子主题: 如何防止搜索引擎spam |

 xuefengf | 

 职务:论坛版主 级别:骑士 积分:193 经验:379 文章:183 注册:06-04-21 11:47
|
|

 |
发表: 2006-11-14 19:47:53 人气:16938 
如何防止搜索引擎spam
回家前最后一次搜索引擎聚会讨论的主题是如何防止搜索引擎spam。spam现在应该是“相当的”严重了,现在搜索引擎的第一页经常成为了spam的专区,已经严重影响了搜索引擎的正常使用和用户对搜索引擎结果的信任。
参加讨论的有好几个相当专业的朋友,我的抛砖引玉总算没有白费,下面整理一些上次讨论的记录。
1. 什么是spam,seo?
2. spam 和 seo 的差别和关系。
3. spam 的种类
a. 内容型(内容欺骗型与非欺骗型) b. 联结型 c. 复合型
4. 搜索引擎如何判断spam
a. 联结分析:网站(域名,IP)之间的联结,网页之间的联结的数目,应该限制在一定的数目内,并且要考虑分布的状况。
b. 页面单一词汇的分析:页面单一词汇与页面全部词汇的比例和分布,当页面单一词汇集中在少数关键词上,有spam的嫌疑。
c. 页面stopwords的分析:stopwords的比例和位置是一个高斯分布和均匀的。
d. 页面连接页面的相似性分析:相互连接的页面几乎完全相似则有spam的嫌疑。
e. 内容的贝叶斯分析:关键词之间的相关性可以从训练spam样本和非spam样本得到。例如页面里出现:免费,或者铃声下载都不能判断为spam,但是同时出现“免费”,“铃声下载”就极有可能是spam
f. 相关分析:白名单,黑名单
g. 留言陷阱:例如建立多个blog系统,开放一些文章的留言,内容上说明是专门针对spam留言。这样当一些自动留言程序进行留言后联结就被记录下来,成为一个“陷阱”。
h. 非联结内容与正文的比例。就是正文里非联结的文字的比例,这一点我有所担心,因为现在的page rank采用两种page rank,一种是联结型网页,一种是内容型网页,如此判断很容易将联结型网页当做spam,例如 hao123.com 。
5. 锅炉现象
最难判断的是一种我们定义为“锅炉现象”的spam,这个我前一段时间曾经跟车东讨论过:
武大郎对锅炉说。。。
在众多的spam里,一种以替换文章中特殊词汇并加以联结的新类型spam难以从上述方法进行剔除。例如将水浒传里所有的武松替换成锅炉,并将锅炉进行联结到目标网站。
讨论完毕后第二天一位朋友建议从上下文紧挨的上一个字和下一个字来进行分析,这个方法尚在探讨中。
总结:spam已经严重影响了搜索引擎的质量,能否准确消除spam是提升搜索引擎质量的一个关键要素。
这里挂一漏万,如有更多的方法和建议请告知。
另外,推荐阅读:SVMs for the Blogosphere: Blog Identification and Splog Detection, P Kolari, T Finin, A Joshi - ebiquity.umbc.edu
Posted at February 3, 2006 12:15 PM by Liang
http://www.wespoke.com/archives/001043.html
comments:
不要重复同样的关键字超过6次,为了安全起见建议3次,否则搜索引擎会忽略你的网页或者
得到惩罚。 不要罗列重复的相连的关键字,这很容易看出你在spam,比如,如果你有3个
关键字,不应该如此排列: search,search,search,engine, ...
seo地球人都知道。spam就是作弊的意思吧
-----------------------------------------------------| 相关帖子 | |
如何防止搜索引擎spam (xuefengf,16938,2006-11-14 19:47:53) |
|
|

 回复帖子 注意: *为必填项 |
|
|
|
Copyright © 2018 外贸网站建设,SOHO英文网页制作,网站设计公司--伊路网络工作室 版权所有
本论坛内容纯属发表个人意见,与雪风伊路网络科技立场无关
论坛域名:bbs.elut.cn
页面执行时间:55毫秒