集群网站建设—搜索引擎如何区分原创内容?
1、对文章的内容进行分析比较
首先从搜索引擎角度去考虑:
用户在做伪原创的时候,会经常用到的方法有:
(1)删除部分内容
(2)添加部分内容。在复制过来的文章里添加上两句,或是把多篇文章合在一起。
(3)调换内容顺序。把原文1.A,2.B,3.C,4.D,5.E 改成 1.C,2.B,3.E,4.A,5. D
用分词技术后对相关的内容进行比较,分析项目有:
(1)字数大小
(2)几个关键字出现频率
(3)文中任几句话
(4)链接
程序分析过程:
如果 (字数大小一样)并且(几个关键字出现频率一样)并且(文中任几句话一样)并且(链接指向与本文有90%以上的相似度的文章)
或者 文中任5句(长短不一,可能是5-30个字)以上的话是一致的
那么 判定为抄袭或伪原创。
由上面的程序分析过程中,可以看出:简单的删除内容、添加合并部分内容、调换内容顺序、段落顺序并不能让搜索引擎当做原创。为什么?因为用如上简单的的方法就可以看出大概了。字数大小、几个关键字出现频率、链接这都好办,文中任几句话对比这就不好办了。
2、标题
如果是一样的,那很有可能是复制,但要是改了一下标题呢,如把《成都租车常识》改成《教您怎样在成都租车》,意思没变,文字变了。所以,不能仅靠标题来判断是不是原创。但可以做以下分析:
因为搜索引擎的数据量实在太大,不可能对所有的内容进行遂一的结比,而是同样是使用“分词“技术:
(1)如果搜索引擎蛛蛛访问的页面是一个新的页面,那么,它将先把这个页面内容收集起来,放入一个数据库(或是其它),等其它程序如专门对比内容是不是原创、是不是有价值的程序进行处理。这时候,这个内容将不会被搜索出来。
(2)分析内容。也是利用了分词技术,对标题、内容等进行分析。得出了这个页面的主要内容。如《周杰伦2010年专辑》这样的篇文章时,它将与包括”周杰伦“、”2010“、”专辑“这样的关键词的文章进行比较,而不用与所有的网页进行比较。如果结果是原创、比较有价值,则进行收录,给比较高的权重。如果被认为是复制或抄袭,则不进行收录,或是给的权重很低。顺便要说的是,对于这个页面的权重,不仅仅是跟其本身的内容、本身的内容有关,能不能有好的排名,还要跟整个站点的权重有关。打个比方,如果这个页面的权重是3,网站的权重是3,那加起来是6。要是别的网站转载了这个文章,文章的权重是1,但他的网站的权重是7,那加起来就是8。6<8所以转载的文章还是会排在原创文章的前面。
信息来源emc官网首页进入 中国:集群网站建设
推荐新闻
更多行业-
网站对企业的价值点(宣传企业形象)
(1)新形象在这个竞争激烈的数字化信息时代,企业建立自己的网站制作已经...
2015-01-16 -
网络公司价值评估指标体系
网络公司的价值评估指标体系分为内外两个层次:外部因素和内部因素。外部因...
2014-11-10 -
网站建设公司优化网站要考虑哪些因素?
Seo网站优化可以提高网站在搜索引擎中的排名,影响品牌知名度、流量水平...
2022-06-23 -
营销型网站建设要重视哪些方面
营销网站制作是网站建设过程中一项受欢迎、受追捧、有利可图、行之有效的基...
2021-10-29 -
勇敢向前,emc官网首页进入 中国真人户外活动勇者勋章争夺
emc官网首页进入 中国真人户外活动勇者勋章争夺,周六组织了为期一天的团建活动。本次活...
2019-06-28 -
网站建设好过后如何做内容测试?
在我们面前,我们谈论了一篇关于网站界面测试的文章。众所周知,当北京网站...
2020-05-15
预约专业咨询顾问沟通!
免责声明
非常感谢您访问我们的网站。在您使用本网站之前,请您仔细阅读本声明的所有条款。
1、本站部分内容来源自网络,涉及到的部分文章和图片版权属于原作者,本站转载仅供大家学习和交流,切勿用于任何商业活动。
2、本站不承担用户因使用这些资源对自己和他人造成任何形式的损失或伤害。
3、本声明未涉及的问题参见国家有关法律法规,当本声明与国家法律法规冲突时,以国家法律法规为准。
4、如果侵害了您的合法权益,请您及时与我们,我们会在第一时间删除相关内容!
联系方式:010-60259772
电子邮件:394588593@qq.com