样本整体描述
本次研究采用线上问卷和检索日志相结合的方法。线上问卷的数据来自mp3首页
需要说明的是,由于本次数据的cookie来自mp3首页,应该考虑到的是mp3的用户并不能完全代表百度的所有用户。从艾瑞的iUserTracker数据可以看到,大约有54.3%的百度用户使用百度mp3,也就是说本次调查的数据并不能准确反映剩余45.7%的百度用户的检索行为。在解读数据时这个因素是需要被考虑进去的。

在这2455个样本中继续剔出无效样本,具体的判断标准是:1、25天内在网页搜索上检索量为0的。2、平均每次检索会话(session)的检索次数大于20的。(这类cookie属于机器抓取或攻击的行为)。3、25天内总检索量大于3000的。(这类cookie很可能来自网吧或者公共机房)。最终剩余691个有效样本。
当然这种判断标准主要来自于主观的经验判定,可能并不绝对合理。尤其是总检索量大于3000这一标准,很可能把一些检索次数非常高的用户剔除在外。但考虑到本次研究将一个cookie假定为一个用户,多人一机时的检索数据将对分析结果造成较大影响,因此在检索量上限的设定上采用了较为严格的标准。
在确定有效样本后,对他们的检索词进行分类,共计4大类,54小类。标注词占总检索词的覆盖率为69.3%,对标注词的检索量占总检索量的覆盖率为80.6%。具体数据见下表:
|
|
标注词 |
所有词 |
覆盖率 |
|
个数 |
163050 |
235334 |
69.3% |
|
检索量 |
440884 |
547213 |
80.6% |
检索量前十位的类别分别是:
|
|
标注检索量(去翻页) |
百分比 | |
|
1 |
网址/网站 |
7061 |
10.87% |
|
2 |
游戏 |
6706 |
10.32% |
|
3 |
音乐 |
6214 |
9.57% |
|
4 |
教育培训 |
5404 |
8.32% |
|
5 |
影视 |
5204 |
8.01% |
|
6 |
性/情色 |
3078 |
4.74% |
|
7 |
p2p软件 |
2995 |
4.61% |
|
8 |
明星 |
2734 |
4.21% |
|
9 |
小说 |
2060 |
3.17% |
|
10 |
企业/行业 |
2039 |
3.14% |
我们可以看到,检索量最高的类别是网址/网站类,也就是说用户使用搜索引擎进行“网站导航”的需求量很高。其次是游戏和音乐,这两类娱乐主题的检索比例也很高。教育培训的检索量是第四名,主要原因是我们对日志的跟踪时间段是在8月份,正好是高考招生的时候,很多学生、老师、家长都会大量的检索与之有关的信息。