|
中搜公司跟前面演讲的李总的新浪公司是挺有缘分的,我的演讲正好安排在他后面。我们中搜公司是提供新浪所有搜索服务的后台厂商。进入搜索领域以来,我也长期思考一个问题,就是说搜索引擎除了为广大消费者服务,怎样创造更大的社会效应。
我们今天看到的互联网已经确立了它第四大媒体的一个主导地位,在2004年的年初,就已经有8千万网民,在两年之内,中国的网民数量可能超过美国,成为世界最大的网民群体。我们看到网民从年龄结构来看,50%以上的网民是24岁以下的。国外的投资银行做了一份研究报告,摩根士丹利的报告也说明,60%的网民,一年的消费能力在2500元人民币以下,这说明中国的网民主要由低龄的网民组成,低龄的网民有一些特点,他们在网上花的时间长,也容易受网上内容的影响。我们看一下网上是一些什么样的内容,这可能不是危言耸听,网上大量充斥着黄色、反动/邪教、网络犯罪的内容,结合青少年在学校受教育的体系主要以分数为主导的,相对来讲,对思想教育的前线是比较放松的。而且广大青少年学生在学校以外的时间,以及年轻白领在工作以外的时间,在网络上花的时间非常多。在Internet网上的内容现在日益呈现出一个问题。
我们谈一下监控分析的必要性,主管单位对我们新闻网站有各种各样的指导,以及我们一些行业内的自律。我们看到从新闻的源头到它的转载,到它的阅读都有监控的必要。监控系统可以监控三个环节发生的事情,我们看互联网监控的范围,主要是由五大类内容信息,第一类是比较主流的新闻网站,尤其政府新闻网站,以人民网、中国网为代表;第二类是很大的商业网站,新浪网、搜狐网、TOM,也是由我们提供搜索引擎的服务。第三类是不可忽视的BBS、网络社区,很多舆论导向以及突发事件的跟踪,都是在BBS里完成的。第四类同时监控的,比如像“法轮功”。第五类还有一些临时监控的,比如像陕西宝马案和孙志刚事件,我们大致分这样五类。
现在看互联网的监管现象,一方面是爆炸成长的信息,一方面从监管手段来讲大量停留在手工方面。可能各个新闻网站和我们的主管单位有一个人、两个人或者一个小组监控指定的数字网站,可能是50个或者100个量级的新闻网站,我们每天打开做人工的浏览,还有一个渠道是拉动的方式,由网民进行,包括前一段新闻办组织的扫黄打非的活动。另外是借助搜索工具,这些工具和渠道都有它的弱点,比如说浏览,它的浏览不能保证及时性,即使每天15分钟浏览,也不能保证及时性。另外监控的范围也是有限的,即使有10人,每人监控10家网站,也只能监控100家网站,比如新闻检索,可以监控6000个监控网点,这是人工达不到的。我有时候也收到过“法轮功”的E-mail的信息,也不是每一个都会举报。我们看一下搜索工具,传统的搜索工具往往是你知道要找什么才可以找,有时候别人跟我讲,第一次听到陕西宝马案的时候,我还以为是黑龙江宝马车撞人案,这是我知道的信息,否则我就不知道。所有信息员要自发监控,根据跟帖量和点击量把突然事件找出来。
我们有4亿多家中文网站,信息来源纷繁复杂,既有重点的新闻网站,也有各地出现的地方网站,还有就是BBS的网站,尤其是BBS网站建立一个论坛非常快,不同时间的BBS的流行热点也是不一样的。一些好的网站,信息都有一些加密。甚至BBS的个人网站用手机登录的,给我们监控带来了非常大的挑战。
对热点信息的控制,我们也面临一些挑战。热点的出现非常快,等我们发现是热点的时候已经传播开了。怎样提高预警机制,怎么提高红色预警机制?成为热点之前,新闻主办单位已经做好准备,做好舆论导向的准备。而同时监控产品在市场上功能比较少,性能比较低。
我们看一看具体的分析。主管员看的一个指标就是信息的转载,这是第一大的需求。对新闻评论,很多新闻网站都开了评论的功能,包括前面新浪李总提到当有热点事件发生的时候,评论是增加网站的浏览量的一个重要手段。对于评论,也有监控的必要。同时在BBS这部分的监督需求,其实比新闻网站更大。
突发事件的监控能力,以大平矿难为例子,在大平发生的第一时间,以监管系统抓住专题,搜集所有跟大平相关的矿难事件,第一时间把整个专题和相关的内容全部控制起来,这是从新闻监管机构来的,非常直接的需求。
对于新闻热点的分析方法,新闻学有非常成熟的理论,我们作为一个技术厂商,从技术解决方案的角度来说,有一些初步的应用,也是解决了一些最急需的需求。方法一:通过新闻评论量的排序,这是网民对信息关注程度的主要反映。同时通过模糊排除技术,把新闻转载量统计出来,产品出来之前,通用的产品是经过精确排序,没有被转载的话,相应的标题就没有挑选出来。我们通过模糊排除技术,可以对转载量进行有效的统计。
整个监管的需求,对门户网站的监管需求,通过这个技术和解决方案可以完全符合新闻单位的合法要求。另外我们看到在新闻这一类的信息分析里面,很大的挑战是吞吐量的挑战。中搜是做Internet网的检索的,我们在这一套解决方案里面很好解决了刚才讲的新闻类分析的重点需求。
我们把BBS的网站分析作为一个例子,单做标题来讲,我们可以做它的合法性判断,像这个标题是不显眼的,跟帖量和评论量来说,我们发现网民舆情非常关注的一个热点,这就涉及到我们用科学的方法管理着以前用艺术管理方法的事情。
舆情分析、趋势的分析,这是从哲学系统考虑的一个主要设计思想。在成为热点之前,就能够发现趋势。根据每个时段对某个话题,从新闻的跟帖,从BBS的讨论发现趋势。在成为热点之前就发现它,然后提出相应的舆论导向。
系统的流程图就不在这里细讲了。整个信息是从互联网来的信息以及现在已有的各地专稿的编辑会进入到互联网的信息监控系统,监控系统配置、编辑、系统管理人员把系统预分类的热点专题和舆情的报表进一步深加工,然后提供政府及其情报分析部门。
整个系统架构图也是比较复杂,希望今天演讲完以后,有兴趣的网站负责人、外宣办的负责人可以有进一步的交流。
(全文)
|