原稿搜索性能分析系统:新闻
很遗憾,在互联网上存在大量非法复制的信息。任何作者都遭遇过剽窃:一篇新的文章在网站上发布几天甚至几小时后,便可能出现在那些没有取得转载权限的资源里。这些剽窃的信息通常会表示“由公开渠道获得”。 或者声称本文来自用户。
对此行为,网站所有者不承担任何责任。使用别人的内容,可以将搜索结果中获得的访客流量转换成金钱。事实上,这便是“借用”的主要经济动机。因此,对于搜索引擎来说,其区分原稿和副本,并能在搜索结果中将原稿链接置顶的能力非常重要。
原稿搜索分析系统,每天依据一百篇文章中具体的引文进行核对。这些文章已存在于已知的合法地址里。搜索请求数量的统计方式,是将该搜索引擎原稿的链接,置于比转载链接高的位置。
在默认的情况下,该分析系统评估指定文章的引文搜索请求时,引文带双引号,虽然用户很少这样进行搜索,但是当引文带双引号时,搜索到原文和所转载的副本的概率将比较高。需要补充的是,分析系统按照两种方式进行评估,一种为搜索时引文不带双引号,另一种搜索时引文带双引号。(分析系统对搜索引擎所得数据进行降序排列。)
- 90−100%
- 80−90%
- 60−80%
- 40−60%
- 20−40%
- 0−20%
|
|