搜索引擎整体性能
搜索引擎更新分析系统
哪些网站在搜索结果中的排名上升到前十位,而哪些又下降了。每个搜索引擎都有自己独特的更新风格,这在相应的分析系统很好地体现了出来。搜索引擎更新的分析系统每日监测140个搜索请求的前10个链接的排名并进行比较。
比较网站数量位置的变化以及同前一天的数据对比的变化程度。
对于更新的综合数据的计算将通过Di来表示位置的变化。字母i 表示前十个网站中从第一个按顺序排列下来的位置。比如,所给出的网站中的第5个在第二天位于第3或者第7位,则D5=2. 如果i 在前十个网站中的排名没有发生任何改变,即没有从该页的第一位落入第二位,则认为,Di=10.
更新指数按以下公式进行计算:
10
∑ Di/100
i=1
为了能更清楚地理解,我们来看下面两个例子:
例1
第一天前十的某个搜索请求显示如下:
С1, С2, С3, С4, С5, С6, С7, С8, С9, С10.
第二天同样的搜索请求显示为:
Сн, С1, С2, С3, С4, С5, С6, С7, С8, С9.
在此情况下更新指数的计算结果为:
((2-1)+(3-2)+(4-3)+ ... +(10-9)+10)/100 = 0.19 (19%)
例2
在第一天前十的某搜索请求显示如下:
С1, С2, С3, С4, С5, С6, С7, С8, С9, С10.
第二天该搜索请求显示为:
Сн1, Сн2, Сн3, Сн4, Сн5, Сн6, Сн7, Сн8, Сн9, Сн10.
在这种情况下更新指数等于:
10*10/100 = 1.00 (100%)
除此之外,补充参数计算 —— 搜索引擎给出的消失的网站数量和位置发生改变的网站数量。
该分析系统不具有评分属性。结果可由两方面进行说明:搜索引擎有大量更新说明其更实用些,即搜索结果经常发生变化;搜索引擎有少量更新则被认为是稳定的和可预测的。该分析系统的信息中搜索引擎更新的强度从高到低自上而下排列。
对于更新的综合数据的计算将通过Di来表示位置的变化。字母i 表示前十个网站中从第一个按顺序排列下来的位置。比如,所给出的网站中的第5个在第二天位于第3或者第7位,则D5=2. 如果i 在前十个网站中的排名没有发生任何改变,即没有从该页的第一位落入第二位,则认为,Di=10.
更新指数按以下公式进行计算:
10
∑ Di/100
i=1
为了能更清楚地理解,我们来看下面两个例子:
例1
第一天前十的某个搜索请求显示如下:
С1, С2, С3, С4, С5, С6, С7, С8, С9, С10.
第二天同样的搜索请求显示为:
Сн, С1, С2, С3, С4, С5, С6, С7, С8, С9.
在此情况下更新指数的计算结果为:
((2-1)+(3-2)+(4-3)+ ... +(10-9)+10)/100 = 0.19 (19%)
例2
在第一天前十的某搜索请求显示如下:
С1, С2, С3, С4, С5, С6, С7, С8, С9, С10.
第二天该搜索请求显示为:
Сн1, Сн2, Сн3, Сн4, Сн5, Сн6, Сн7, Сн8, Сн9, Сн10.
在这种情况下更新指数等于:
10*10/100 = 1.00 (100%)
除此之外,补充参数计算 —— 搜索引擎给出的消失的网站数量和位置发生改变的网站数量。
该分析系统不具有评分属性。结果可由两方面进行说明:搜索引擎有大量更新说明其更实用些,即搜索结果经常发生变化;搜索引擎有少量更新则被认为是稳定的和可预测的。该分析系统的信息中搜索引擎更新的强度从高到低自上而下排列。
导航搜索分析系统
导航搜索性能分析系统
导航搜索是用户以特定的网站为搜索目标的一种搜索方式。对“中国银行”,“福建匹克”,“湖北中烟”等进行搜索查询以找到他们的官方网站。
在导航搜索中,对于所搜寻的网站最好的结果为在搜索引擎中位列第一的答案。
为了对导航搜索的性能进行评估,我们随机选取了200个不同的导航搜索请求作为每个搜索引擎的查询内容。每个查询内容得到一个或者几个网站的结果。
分析系统会对搜索引擎找到的第一页的前10个搜索结果进行统计,一个查询的内容可能会得到几个搜索结果。这些结果都会被统计在内。然后会计算出比重。这个比重(百分比)将会作为导航搜索性能评判的综合指标。
该分析系统的第二个标准为不只统计所搜索到的相符网站数量,对其所在的顺序位置也进行统计。若搜索到的相符网站排在第一位,则搜索引擎得1分;若在第二位,则得0.9分;以此类推,若在第十位,则得0.1分;若未找到相符网站,则得0分。若同时搜索到几个相符网站,则只统计排在第一位的网站。所统计的得分将会被叠加起来,然后除于搜索请求的总数。以排列位置为统计基准的分值与不以排列位置为基准的分值相差越少,则标准网站在搜索结果中所处的位置越高。
信息搜索分析系统
地址搜寻性能分析系统
当我们需要找到附近或某个特定地方的机构或者单位的确切地址时,经常需要借助搜索引擎。虽然地址搜寻性能都比较高, 但是有时候也可能发生些错误。譬如, 搜索引擎把用户所搜寻的地址发现在某另外一的市区或在另外一个城市;或者搜索引擎向用户提供的搜索结果不是所求的地址,而是相像的或者是另外一家公司的等。
该分析系统用于检验类似搜索结果的精确性。
分析系统查询依据 “机构名称或类型+搜索区域”的原则设置。之所以按照此原则,是为了使每个搜索请求只得到一个相对应的对象。在这种情况下,最好的结果将在所搜寻单位的完整联系方式的帮助下获得 —— 然而只要在片段上有正确的地址就能取得最高分。
当然,对于用户所提出的搜索请求,分析系统感兴趣的可能不仅是地址,还会有该机构的电话号码和其工作时间表。然而,该分析系统会评估分析会分析评估搜索地址的性质,所以带有与相关单位有用的其他信息的页面,将不被计算在内。
结果评估分值和导航分析系统一样(被评估的结果和导航分析系统一样):被找到的地址在所找到的所有结果中所处位置越低,搜索引擎从这个搜索请求得到的分值越低。(搜索地址若在最高处,即第一位将得1分,若第十位则得0.1分) 。另外,按照相同的模式,将在搜索引擎所找到的网页中,将地址标记出来。
引文搜索性能分析系统
引文搜索,即按照给定的文本片段来搜索其文章或者作品原文。
用户会给出这样的查询请求,极有可能是想要找到此引文的出处,即要么可以知道该引文来自哪部作品(在该情况下在所找到的页面显示篇幅足够长的引文原文上下文,并由分析系统进行核对),要么可以知道作者和这部作品的名称。
分析系统向搜索引擎提出了100个查询请求。这100个查询请求的引文篇幅都足够长,并且所选择的查询内容都是来自于发布在互联网上的作品。每个搜索引擎都会统计出搜索结果的百分比。在所找到的页面中这些搜索结果有以下几个特点:所搜索的作品片段篇幅足够长 ;或者,提及了作品的名称和作者。
在所找到的相关页面中搜索引擎找到的结果的排列位置不会被进行统计。同样不重要的是,所找的文本片段在哪个网站上最先发布(这有别于原稿分析系统对于最先发布的来源的跟踪)。
原稿搜索性能分析系统:新闻
很遗憾,在互联网上存在大量非法复制的信息。任何作者都遭遇过剽窃:一篇新的文章在网站上发布几天甚至几小时后,便可能出现在那些没有取得转载权限的资源里。这些剽窃的信息通常会表示“由公开渠道获得”。 或者声称本文来自用户。
对此行为,网站所有者不承担任何责任。使用别人的内容,可以将搜索结果中获得的访客流量转换成金钱。事实上,这便是“借用”的主要经济动机。因此,对于搜索引擎来说,其区分原稿和副本,并能在搜索结果中将原稿链接置顶的能力非常重要。
原稿搜索分析系统,每天依据一百篇文章中具体的引文进行核对。这些文章已存在于已知的合法地址里。搜索请求数量的统计方式,是将该搜索引擎原稿的链接,置于比转载链接高的位置。
在默认的情况下,该分析系统评估指定文章的引文搜索请求时,引文带双引号,虽然用户很少这样进行搜索,但是当引文带双引号时,搜索到原文和所转载的副本的概率将比较高。需要补充的是,分析系统按照两种方式进行评估,一种为搜索时引文不带双引号,另一种搜索时引文带双引号。(分析系统对搜索引擎所得数据进行降序排列。)
答案搜寻性能分析系统( “问题解答” )
该分析系统测试,搜索引擎如何能够很好的找到问题的正确答案(含有一个疑问代词,例如, “2014年世界杯在哪儿举办?”“圣诞老人领头的驯鹿叫什么”)或隐性问题的答案(问题中包含有问题性质的肯定句,比如“世界上第一位女性宇航员”,“灌篮高手作者”) 。
当用户输入一个包含隐性或显性问题的查询,他可能只是为了寻找一个答案。用户越早找到答案越好。最好的答案是直接体现在搜索结果的页面,即搜索结果的第一个片段。
然而,该分析系统依据“严谨性”程度的不同用四种方式来评估搜索引擎。由此分析系统有的四个选项标签:
1. 答案在片段中的位置
若答案出现在在搜索结果排序第一位的片段中得1分,若第二位得0.9分,若第三位0.8分,依此类推。如果答案出现在搜索结果位于第十的片段中得0.1分。若在前十个搜索结果的片段中都没有出现答案则得零分。
2.片段中的答案
若第一页的搜索结果的所有片段中包含至少一个答案得一分,否则为零分。
3.网站中答案的位置
搜索引擎的每个查询请求得到的分数由1至0.1。若第一页包含所要搜寻的答案则得一分,若第二页包含所要搜寻的答案得0.9分。由此类推,若所有的页面都没有包含所需答案,则为零分。
4. 在网上的答案(答案站点)
若在前十页搜索结果的网页中至少有一页包含所需答案,则搜索引擎得一分,否则为零分。
对于某些查询的问题的正确答案可能有几个不同的表达方式。例如,查询“奥林匹克格言”得到的正确答案可能来自英语,拉丁语或者用户的母语。只要这些都是同一实体的变体,我们都认为是正确的。但是我们避免使用拥有多个可能性答案的问题(如“四书是指的是哪几本书”)作为不适当的查询内容。
不良因素分析系统
运行得再好的搜索引擎都会有一些细节会极大地破坏用户对搜索结果质量的印象,并且明显影响他们对服务的忠诚度。这无疑包括感染病毒的危险,烦人的广告栏等。
当然,广告数量或者网站上的危险脚本并不来自搜索引擎。然而,搜索结果中不良内容的集中程度却完全在他们的控制范围以内。因此,他们有需要在网站排名中将带有刺激性因素(即不良因素)的网站排在显著低于良好和安全网站的位置。
在垃圾信息分析系统中,Ashmanov & Partners 公司对于这一部分开发了专门的技术,该技术用于检测广告,色情作品,病毒等。为了令搜索结果一目了然,该分析系统收集了更容易找到垃圾信息的搜索内容用于测试。
垃圾信息搜索分析系统
“Ashmanov & partners”是一家专业从事研究网络垃圾信息搜索现象的公司。垃圾信息搜索是扰乱搜索引擎系统的正常工作或使搜索结果质量恶化的手段和技术。
垃圾信息可以是文本、链接、技术、软件码和其他不为提高用户使用舒适度的网页元素。而用户的目的是通过搜索请求快速、轻松、完整、专业地找到真实可信的信息。
但是对于垃圾信息,其创建的原因是站长们希望能提高其网站在搜索结果中的位置。
鉴定专家们定期检测所选搜索内容的前10个搜索结果,然后记下这些网站中他们所认为的垃圾信息元素。这些综合数据将被输入分析系统,同时显示搜索请求所搜索到的前10个网站在鉴定专家们搜集的数据中所占的比重。
网络垃圾信息分类如下:
* doorway – 绝对的垃圾信息,使用户转入其他的页面。
* spamcatalog –绝对的垃圾信息,垃圾信息目录
* spamcontent –绝对的垃圾信息, 外来的垃圾信息
* pseudosite – 绝对的垃圾信息,伪装成正规网站
* catalog – 目录
* board – 公告栏
* domainsale – 销售区域
* secondary – 间接代理,二级代理
* partner – 任何的推广
* linksite – 网站连接
* spamforum – 类垃圾信息
* techspam – 技术垃圾信息
* searchres – 搜索结果
* cj – 色情网站
在搜索结果中垃圾信息网站的百分比是综合指标。拥有最低综合指标的搜索引擎为最好。该分析系统以此为依据对搜索引擎进行排序。
技术性能
搜索引擎速度分析系统
“搜索“是成千上万人都在使用的一种服务。从提出搜索请求到得到搜索结果应该在极短的时间内完成 —— 1-2秒钟,最好是几分之一秒。如果稍微慢一点点,用户将会感到不便,如果这种情况不断重复,在有其他选择的情况下,用户将会优先选择其他的搜索引擎。
此分析系统显示,搜索结果如何快速地“飞“到不同城市的用户手里。该分析系统的信息由其他分析系统搜集而来。该分析系统所计算的时间为搜索引擎结果页面上传到我们服务器的平均时间。
当然,搜索速度取决于网络“天气“:在任何一个城市任何一天通道的占用率、网络供应商服务的质量和许多其他现实因素都会影响任何一个搜索引擎的结果,然而如果某个搜索引擎比别的搜索引擎更经常发生响应速度慢的情况,并且日复一日地重复,这便值得思索。
导航搜索是用户以特定的网站为搜索目标的一种搜索方式。对“中国银行”,“福建匹克”,“湖北中烟”等进行搜索查询以找到他们的官方网站。
在导航搜索中,对于所搜寻的网站最好的结果为在搜索引擎中位列第一的答案。
在导航搜索中,对于所搜寻的网站最好的结果为在搜索引擎中位列第一的答案。
为了对导航搜索的性能进行评估,我们随机选取了200个不同的导航搜索请求作为每个搜索引擎的查询内容。每个查询内容得到一个或者几个网站的结果。
分析系统会对搜索引擎找到的第一页的前10个搜索结果进行统计,一个查询的内容可能会得到几个搜索结果。这些结果都会被统计在内。然后会计算出比重。这个比重(百分比)将会作为导航搜索性能评判的综合指标。
该分析系统的第二个标准为不只统计所搜索到的相符网站数量,对其所在的顺序位置也进行统计。若搜索到的相符网站排在第一位,则搜索引擎得1分;若在第二位,则得0.9分;以此类推,若在第十位,则得0.1分;若未找到相符网站,则得0分。若同时搜索到几个相符网站,则只统计排在第一位的网站。所统计的得分将会被叠加起来,然后除于搜索请求的总数。以排列位置为统计基准的分值与不以排列位置为基准的分值相差越少,则标准网站在搜索结果中所处的位置越高。
分析系统会对搜索引擎找到的第一页的前10个搜索结果进行统计,一个查询的内容可能会得到几个搜索结果。这些结果都会被统计在内。然后会计算出比重。这个比重(百分比)将会作为导航搜索性能评判的综合指标。
该分析系统的第二个标准为不只统计所搜索到的相符网站数量,对其所在的顺序位置也进行统计。若搜索到的相符网站排在第一位,则搜索引擎得1分;若在第二位,则得0.9分;以此类推,若在第十位,则得0.1分;若未找到相符网站,则得0分。若同时搜索到几个相符网站,则只统计排在第一位的网站。所统计的得分将会被叠加起来,然后除于搜索请求的总数。以排列位置为统计基准的分值与不以排列位置为基准的分值相差越少,则标准网站在搜索结果中所处的位置越高。
信息搜索分析系统
当我们需要找到附近或某个特定地方的机构或者单位的确切地址时,经常需要借助搜索引擎。虽然地址搜寻性能都比较高, 但是有时候也可能发生些错误。譬如, 搜索引擎把用户所搜寻的地址发现在某另外一的市区或在另外一个城市;或者搜索引擎向用户提供的搜索结果不是所求的地址,而是相像的或者是另外一家公司的等。
该分析系统用于检验类似搜索结果的精确性。
该分析系统用于检验类似搜索结果的精确性。
分析系统查询依据 “机构名称或类型+搜索区域”的原则设置。之所以按照此原则,是为了使每个搜索请求只得到一个相对应的对象。在这种情况下,最好的结果将在所搜寻单位的完整联系方式的帮助下获得 —— 然而只要在片段上有正确的地址就能取得最高分。
当然,对于用户所提出的搜索请求,分析系统感兴趣的可能不仅是地址,还会有该机构的电话号码和其工作时间表。然而,该分析系统会评估分析会分析评估搜索地址的性质,所以带有与相关单位有用的其他信息的页面,将不被计算在内。
结果评估分值和导航分析系统一样(被评估的结果和导航分析系统一样):被找到的地址在所找到的所有结果中所处位置越低,搜索引擎从这个搜索请求得到的分值越低。(搜索地址若在最高处,即第一位将得1分,若第十位则得0.1分) 。另外,按照相同的模式,将在搜索引擎所找到的网页中,将地址标记出来。
当然,对于用户所提出的搜索请求,分析系统感兴趣的可能不仅是地址,还会有该机构的电话号码和其工作时间表。然而,该分析系统会评估分析会分析评估搜索地址的性质,所以带有与相关单位有用的其他信息的页面,将不被计算在内。
结果评估分值和导航分析系统一样(被评估的结果和导航分析系统一样):被找到的地址在所找到的所有结果中所处位置越低,搜索引擎从这个搜索请求得到的分值越低。(搜索地址若在最高处,即第一位将得1分,若第十位则得0.1分) 。另外,按照相同的模式,将在搜索引擎所找到的网页中,将地址标记出来。
引文搜索性能分析系统
引文搜索,即按照给定的文本片段来搜索其文章或者作品原文。
用户会给出这样的查询请求,极有可能是想要找到此引文的出处,即要么可以知道该引文来自哪部作品(在该情况下在所找到的页面显示篇幅足够长的引文原文上下文,并由分析系统进行核对),要么可以知道作者和这部作品的名称。
分析系统向搜索引擎提出了100个查询请求。这100个查询请求的引文篇幅都足够长,并且所选择的查询内容都是来自于发布在互联网上的作品。每个搜索引擎都会统计出搜索结果的百分比。在所找到的页面中这些搜索结果有以下几个特点:所搜索的作品片段篇幅足够长 ;或者,提及了作品的名称和作者。
在所找到的相关页面中搜索引擎找到的结果的排列位置不会被进行统计。同样不重要的是,所找的文本片段在哪个网站上最先发布(这有别于原稿分析系统对于最先发布的来源的跟踪)。
原稿搜索性能分析系统:新闻
很遗憾,在互联网上存在大量非法复制的信息。任何作者都遭遇过剽窃:一篇新的文章在网站上发布几天甚至几小时后,便可能出现在那些没有取得转载权限的资源里。这些剽窃的信息通常会表示“由公开渠道获得”。 或者声称本文来自用户。
对此行为,网站所有者不承担任何责任。使用别人的内容,可以将搜索结果中获得的访客流量转换成金钱。事实上,这便是“借用”的主要经济动机。因此,对于搜索引擎来说,其区分原稿和副本,并能在搜索结果中将原稿链接置顶的能力非常重要。
原稿搜索分析系统,每天依据一百篇文章中具体的引文进行核对。这些文章已存在于已知的合法地址里。搜索请求数量的统计方式,是将该搜索引擎原稿的链接,置于比转载链接高的位置。
在默认的情况下,该分析系统评估指定文章的引文搜索请求时,引文带双引号,虽然用户很少这样进行搜索,但是当引文带双引号时,搜索到原文和所转载的副本的概率将比较高。需要补充的是,分析系统按照两种方式进行评估,一种为搜索时引文不带双引号,另一种搜索时引文带双引号。(分析系统对搜索引擎所得数据进行降序排列。)
答案搜寻性能分析系统( “问题解答” )
该分析系统测试,搜索引擎如何能够很好的找到问题的正确答案(含有一个疑问代词,例如, “2014年世界杯在哪儿举办?”“圣诞老人领头的驯鹿叫什么”)或隐性问题的答案(问题中包含有问题性质的肯定句,比如“世界上第一位女性宇航员”,“灌篮高手作者”) 。
当用户输入一个包含隐性或显性问题的查询,他可能只是为了寻找一个答案。用户越早找到答案越好。最好的答案是直接体现在搜索结果的页面,即搜索结果的第一个片段。
然而,该分析系统依据“严谨性”程度的不同用四种方式来评估搜索引擎。由此分析系统有的四个选项标签:
1. 答案在片段中的位置
若答案出现在在搜索结果排序第一位的片段中得1分,若第二位得0.9分,若第三位0.8分,依此类推。如果答案出现在搜索结果位于第十的片段中得0.1分。若在前十个搜索结果的片段中都没有出现答案则得零分。
2.片段中的答案
若第一页的搜索结果的所有片段中包含至少一个答案得一分,否则为零分。
3.网站中答案的位置
搜索引擎的每个查询请求得到的分数由1至0.1。若第一页包含所要搜寻的答案则得一分,若第二页包含所要搜寻的答案得0.9分。由此类推,若所有的页面都没有包含所需答案,则为零分。
4. 在网上的答案(答案站点)
若在前十页搜索结果的网页中至少有一页包含所需答案,则搜索引擎得一分,否则为零分。
对于某些查询的问题的正确答案可能有几个不同的表达方式。例如,查询“奥林匹克格言”得到的正确答案可能来自英语,拉丁语或者用户的母语。只要这些都是同一实体的变体,我们都认为是正确的。但是我们避免使用拥有多个可能性答案的问题(如“四书是指的是哪几本书”)作为不适当的查询内容。
不良因素分析系统
运行得再好的搜索引擎都会有一些细节会极大地破坏用户对搜索结果质量的印象,并且明显影响他们对服务的忠诚度。这无疑包括感染病毒的危险,烦人的广告栏等。
当然,广告数量或者网站上的危险脚本并不来自搜索引擎。然而,搜索结果中不良内容的集中程度却完全在他们的控制范围以内。因此,他们有需要在网站排名中将带有刺激性因素(即不良因素)的网站排在显著低于良好和安全网站的位置。
在垃圾信息分析系统中,Ashmanov & Partners 公司对于这一部分开发了专门的技术,该技术用于检测广告,色情作品,病毒等。为了令搜索结果一目了然,该分析系统收集了更容易找到垃圾信息的搜索内容用于测试。
垃圾信息搜索分析系统
“Ashmanov & partners”是一家专业从事研究网络垃圾信息搜索现象的公司。垃圾信息搜索是扰乱搜索引擎系统的正常工作或使搜索结果质量恶化的手段和技术。
垃圾信息可以是文本、链接、技术、软件码和其他不为提高用户使用舒适度的网页元素。而用户的目的是通过搜索请求快速、轻松、完整、专业地找到真实可信的信息。
但是对于垃圾信息,其创建的原因是站长们希望能提高其网站在搜索结果中的位置。
鉴定专家们定期检测所选搜索内容的前10个搜索结果,然后记下这些网站中他们所认为的垃圾信息元素。这些综合数据将被输入分析系统,同时显示搜索请求所搜索到的前10个网站在鉴定专家们搜集的数据中所占的比重。
网络垃圾信息分类如下:
* doorway – 绝对的垃圾信息,使用户转入其他的页面。
* spamcatalog –绝对的垃圾信息,垃圾信息目录
* spamcontent –绝对的垃圾信息, 外来的垃圾信息
* pseudosite – 绝对的垃圾信息,伪装成正规网站
* catalog – 目录
* board – 公告栏
* domainsale – 销售区域
* secondary – 间接代理,二级代理
* partner – 任何的推广
* linksite – 网站连接
* spamforum – 类垃圾信息
* techspam – 技术垃圾信息
* searchres – 搜索结果
* cj – 色情网站
在搜索结果中垃圾信息网站的百分比是综合指标。拥有最低综合指标的搜索引擎为最好。该分析系统以此为依据对搜索引擎进行排序。
技术性能
搜索引擎速度分析系统
“搜索“是成千上万人都在使用的一种服务。从提出搜索请求到得到搜索结果应该在极短的时间内完成 —— 1-2秒钟,最好是几分之一秒。如果稍微慢一点点,用户将会感到不便,如果这种情况不断重复,在有其他选择的情况下,用户将会优先选择其他的搜索引擎。
此分析系统显示,搜索结果如何快速地“飞“到不同城市的用户手里。该分析系统的信息由其他分析系统搜集而来。该分析系统所计算的时间为搜索引擎结果页面上传到我们服务器的平均时间。
当然,搜索速度取决于网络“天气“:在任何一个城市任何一天通道的占用率、网络供应商服务的质量和许多其他现实因素都会影响任何一个搜索引擎的结果,然而如果某个搜索引擎比别的搜索引擎更经常发生响应速度慢的情况,并且日复一日地重复,这便值得思索。
用户会给出这样的查询请求,极有可能是想要找到此引文的出处,即要么可以知道该引文来自哪部作品(在该情况下在所找到的页面显示篇幅足够长的引文原文上下文,并由分析系统进行核对),要么可以知道作者和这部作品的名称。
在所找到的相关页面中搜索引擎找到的结果的排列位置不会被进行统计。同样不重要的是,所找的文本片段在哪个网站上最先发布(这有别于原稿分析系统对于最先发布的来源的跟踪)。
很遗憾,在互联网上存在大量非法复制的信息。任何作者都遭遇过剽窃:一篇新的文章在网站上发布几天甚至几小时后,便可能出现在那些没有取得转载权限的资源里。这些剽窃的信息通常会表示“由公开渠道获得”。 或者声称本文来自用户。
对此行为,网站所有者不承担任何责任。使用别人的内容,可以将搜索结果中获得的访客流量转换成金钱。事实上,这便是“借用”的主要经济动机。因此,对于搜索引擎来说,其区分原稿和副本,并能在搜索结果中将原稿链接置顶的能力非常重要。
对此行为,网站所有者不承担任何责任。使用别人的内容,可以将搜索结果中获得的访客流量转换成金钱。事实上,这便是“借用”的主要经济动机。因此,对于搜索引擎来说,其区分原稿和副本,并能在搜索结果中将原稿链接置顶的能力非常重要。
原稿搜索分析系统,每天依据一百篇文章中具体的引文进行核对。这些文章已存在于已知的合法地址里。搜索请求数量的统计方式,是将该搜索引擎原稿的链接,置于比转载链接高的位置。
在默认的情况下,该分析系统评估指定文章的引文搜索请求时,引文带双引号,虽然用户很少这样进行搜索,但是当引文带双引号时,搜索到原文和所转载的副本的概率将比较高。需要补充的是,分析系统按照两种方式进行评估,一种为搜索时引文不带双引号,另一种搜索时引文带双引号。(分析系统对搜索引擎所得数据进行降序排列。)
在默认的情况下,该分析系统评估指定文章的引文搜索请求时,引文带双引号,虽然用户很少这样进行搜索,但是当引文带双引号时,搜索到原文和所转载的副本的概率将比较高。需要补充的是,分析系统按照两种方式进行评估,一种为搜索时引文不带双引号,另一种搜索时引文带双引号。(分析系统对搜索引擎所得数据进行降序排列。)
答案搜寻性能分析系统( “问题解答” )
该分析系统测试,搜索引擎如何能够很好的找到问题的正确答案(含有一个疑问代词,例如, “2014年世界杯在哪儿举办?”“圣诞老人领头的驯鹿叫什么”)或隐性问题的答案(问题中包含有问题性质的肯定句,比如“世界上第一位女性宇航员”,“灌篮高手作者”) 。
当用户输入一个包含隐性或显性问题的查询,他可能只是为了寻找一个答案。用户越早找到答案越好。最好的答案是直接体现在搜索结果的页面,即搜索结果的第一个片段。
然而,该分析系统依据“严谨性”程度的不同用四种方式来评估搜索引擎。由此分析系统有的四个选项标签:
1. 答案在片段中的位置
若答案出现在在搜索结果排序第一位的片段中得1分,若第二位得0.9分,若第三位0.8分,依此类推。如果答案出现在搜索结果位于第十的片段中得0.1分。若在前十个搜索结果的片段中都没有出现答案则得零分。
2.片段中的答案
若第一页的搜索结果的所有片段中包含至少一个答案得一分,否则为零分。
3.网站中答案的位置
搜索引擎的每个查询请求得到的分数由1至0.1。若第一页包含所要搜寻的答案则得一分,若第二页包含所要搜寻的答案得0.9分。由此类推,若所有的页面都没有包含所需答案,则为零分。
4. 在网上的答案(答案站点)
若在前十页搜索结果的网页中至少有一页包含所需答案,则搜索引擎得一分,否则为零分。
对于某些查询的问题的正确答案可能有几个不同的表达方式。例如,查询“奥林匹克格言”得到的正确答案可能来自英语,拉丁语或者用户的母语。只要这些都是同一实体的变体,我们都认为是正确的。但是我们避免使用拥有多个可能性答案的问题(如“四书是指的是哪几本书”)作为不适当的查询内容。
不良因素分析系统
当用户输入一个包含隐性或显性问题的查询,他可能只是为了寻找一个答案。用户越早找到答案越好。最好的答案是直接体现在搜索结果的页面,即搜索结果的第一个片段。
1. 答案在片段中的位置
若答案出现在在搜索结果排序第一位的片段中得1分,若第二位得0.9分,若第三位0.8分,依此类推。如果答案出现在搜索结果位于第十的片段中得0.1分。若在前十个搜索结果的片段中都没有出现答案则得零分。
2.片段中的答案
若第一页的搜索结果的所有片段中包含至少一个答案得一分,否则为零分。
3.网站中答案的位置
搜索引擎的每个查询请求得到的分数由1至0.1。若第一页包含所要搜寻的答案则得一分,若第二页包含所要搜寻的答案得0.9分。由此类推,若所有的页面都没有包含所需答案,则为零分。
4. 在网上的答案(答案站点)
若在前十页搜索结果的网页中至少有一页包含所需答案,则搜索引擎得一分,否则为零分。
对于某些查询的问题的正确答案可能有几个不同的表达方式。例如,查询“奥林匹克格言”得到的正确答案可能来自英语,拉丁语或者用户的母语。只要这些都是同一实体的变体,我们都认为是正确的。但是我们避免使用拥有多个可能性答案的问题(如“四书是指的是哪几本书”)作为不适当的查询内容。
运行得再好的搜索引擎都会有一些细节会极大地破坏用户对搜索结果质量的印象,并且明显影响他们对服务的忠诚度。这无疑包括感染病毒的危险,烦人的广告栏等。
当然,广告数量或者网站上的危险脚本并不来自搜索引擎。然而,搜索结果中不良内容的集中程度却完全在他们的控制范围以内。因此,他们有需要在网站排名中将带有刺激性因素(即不良因素)的网站排在显著低于良好和安全网站的位置。
在垃圾信息分析系统中,Ashmanov & Partners 公司对于这一部分开发了专门的技术,该技术用于检测广告,色情作品,病毒等。为了令搜索结果一目了然,该分析系统收集了更容易找到垃圾信息的搜索内容用于测试。
在垃圾信息分析系统中,Ashmanov & Partners 公司对于这一部分开发了专门的技术,该技术用于检测广告,色情作品,病毒等。为了令搜索结果一目了然,该分析系统收集了更容易找到垃圾信息的搜索内容用于测试。
垃圾信息搜索分析系统
“Ashmanov & partners”是一家专业从事研究网络垃圾信息搜索现象的公司。垃圾信息搜索是扰乱搜索引擎系统的正常工作或使搜索结果质量恶化的手段和技术。
垃圾信息可以是文本、链接、技术、软件码和其他不为提高用户使用舒适度的网页元素。而用户的目的是通过搜索请求快速、轻松、完整、专业地找到真实可信的信息。
但是对于垃圾信息,其创建的原因是站长们希望能提高其网站在搜索结果中的位置。
鉴定专家们定期检测所选搜索内容的前10个搜索结果,然后记下这些网站中他们所认为的垃圾信息元素。这些综合数据将被输入分析系统,同时显示搜索请求所搜索到的前10个网站在鉴定专家们搜集的数据中所占的比重。
网络垃圾信息分类如下:
* doorway – 绝对的垃圾信息,使用户转入其他的页面。
* spamcatalog –绝对的垃圾信息,垃圾信息目录
* spamcontent –绝对的垃圾信息, 外来的垃圾信息
* pseudosite – 绝对的垃圾信息,伪装成正规网站
* catalog – 目录
* board – 公告栏
* domainsale – 销售区域
* secondary – 间接代理,二级代理
* partner – 任何的推广
* linksite – 网站连接
* spamforum – 类垃圾信息
* techspam – 技术垃圾信息
* searchres – 搜索结果
* cj – 色情网站
在搜索结果中垃圾信息网站的百分比是综合指标。拥有最低综合指标的搜索引擎为最好。该分析系统以此为依据对搜索引擎进行排序。
技术性能
垃圾信息可以是文本、链接、技术、软件码和其他不为提高用户使用舒适度的网页元素。而用户的目的是通过搜索请求快速、轻松、完整、专业地找到真实可信的信息。
但是对于垃圾信息,其创建的原因是站长们希望能提高其网站在搜索结果中的位置。
网络垃圾信息分类如下:
* doorway – 绝对的垃圾信息,使用户转入其他的页面。
* spamcatalog –绝对的垃圾信息,垃圾信息目录
* spamcontent –绝对的垃圾信息, 外来的垃圾信息
* pseudosite – 绝对的垃圾信息,伪装成正规网站
* catalog – 目录
* board – 公告栏
* domainsale – 销售区域
* secondary – 间接代理,二级代理
* partner – 任何的推广
* linksite – 网站连接
* spamforum – 类垃圾信息
* techspam – 技术垃圾信息
* searchres – 搜索结果
* cj – 色情网站
在搜索结果中垃圾信息网站的百分比是综合指标。拥有最低综合指标的搜索引擎为最好。该分析系统以此为依据对搜索引擎进行排序。
搜索引擎速度分析系统
“搜索“是成千上万人都在使用的一种服务。从提出搜索请求到得到搜索结果应该在极短的时间内完成 —— 1-2秒钟,最好是几分之一秒。如果稍微慢一点点,用户将会感到不便,如果这种情况不断重复,在有其他选择的情况下,用户将会优先选择其他的搜索引擎。
此分析系统显示,搜索结果如何快速地“飞“到不同城市的用户手里。该分析系统的信息由其他分析系统搜集而来。该分析系统所计算的时间为搜索引擎结果页面上传到我们服务器的平均时间。
当然,搜索速度取决于网络“天气“:在任何一个城市任何一天通道的占用率、网络供应商服务的质量和许多其他现实因素都会影响任何一个搜索引擎的结果,然而如果某个搜索引擎比别的搜索引擎更经常发生响应速度慢的情况,并且日复一日地重复,这便值得思索。
当然,搜索速度取决于网络“天气“:在任何一个城市任何一天通道的占用率、网络供应商服务的质量和许多其他现实因素都会影响任何一个搜索引擎的结果,然而如果某个搜索引擎比别的搜索引擎更经常发生响应速度慢的情况,并且日复一日地重复,这便值得思索。