我们应该知道的是:搜索引擎只能搜到它网页索引数据库里储存的网页文字信息。如果数据库里应该有而你没有搜索到,那是你的能力问题,了解和掌握搜索策略和技巧可以大幅度提高你的搜索能力。多数情况下,有一个好的搜索策略,能正确地应用布尔逻辑符,并熟悉每个搜索引擎的特性,就可得到一个好的检索结果。除此之外,在某些情况下还可用其他的一些技巧来改善检索结果。这些技巧适用于大多数的搜索引擎。
(一)搜索引擎的搜索步骤
1.搜索前的需求分析
搜索之前要思考,而思考的第一步是分析自己的搜索需求(或检索主题)。分析搜索需求是检索第一步,是选择正确搜索工具、确定去哪儿搜的基础。我们的搜索需求(检索主题)大体可分为以下几类。
(1)需求很明确,能用很独特的、非常有区分性的关键词来描述。例如,佳能EOS400D相机报价、Huipk的百度空间等。
(2)不能用独特而有区分性的关键词来描述搜索需求(检索主题),或暂时想不到这样的关键词,而只能用普通或较为常见的术语来描述需求。这有可能带来不理想的检索结果。例如,社会保险、社会保障。
(3)只是想浏览一个比较宽泛的主题。例如,大学生就业、大学生招聘。
(4)想了解一个宽泛主题的某一方面。例如,法律专业大学生就业、IT企业招聘。
(5)搜索需求(或检索词)需要用同义词、近义词、不同写法(如繁简体)、加辅助词、减辅助词来扩展或缩小。例如,car&auto&auto design、搜索引擎9238&俞军&俞军生平、Google&谷歌&李开复等。
(6)对于要检索的东西,完全是门外汉,所知甚少,需要一个总体的指导。例如,审判心证、认知心理学、Pangrank等。
2.搜索前的关键词选择
(1)首先确定一个原则,所有的东西都是可以搜索的
大家对熟悉的知识点,都能想到用一个关键词去搜索;但是一旦遇到一个陌生的概念、名词、术语的时候,一时便有点茫然而忘记了使用搜索引擎这个工具。因为搜索引擎首先是贪婪的抓取到了网上所有的数字化内容,相当于一个无所不包的大百科;许多时候,要牢记这一点——什么东西都可以搜,不要怕搜索引擎不知道。
(2)搜索以关键词为核心
现在所有的搜索引擎主要都是以关键词建立倒排文档索引来组织知识内容的,所有的搜索也是以关键词搜索为最主要方式的。你可以总结出许多检索方法,但是最经常使用的还是关键词。
(3)关键词设计和选择
关键词就像买衣服,你到服装店里跟导购说“我要买衣服”,这就是废话,服装店难不成还卖计算机,但如果你说“我想看新款冬装”,导购马上就会带你看到你想看的。在这里“新款”“冬装”就是关键词。所以,使用搜索引擎要避免大而空的关键词,它不知道你要找啥,就可能返回很多莫名其妙的结果。
因此需要习惯多关键词搜索,一般情况下两个关键词搜索就够了,注意关键词与关键词之间以空格隔开。你可以先用简单关键词测试,不忙着仔细查看搜索结果,而先从搜索结果页面里寻找更多信息,再设计一个更好的关键词重搜,这样重复几次后,就能设计出很棒的关键词,也就能搜索到满意的结果了。
(4)关键词的主题关联与简练
目前的搜索引擎并不能很好地处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题相关联的查询词。
(5)如何确定多个关键词
单一关键词的搜索效果总是不太令人满意,一般用多个关键词的搜索效果比较好,这样,如何确定出多个关键词就是一个很有学问的事情。
3.搜索中的技巧使用
(1)选用适当的高级语法
选用适当的高级语法即对搜索提问进行适度人工过滤,使关键词更准确地与文献存储文档相匹配,提高检索命中率和精确度,忽略检索外延度。如site:用来搜索某个域名下的所有被搜索引擎收录的文件,适用于所有搜索引擎。inurl:指令用于搜索查询词出现在url中的页面,百度和谷歌都支持inurl指令,等等。
(2)修改搜索提问
大家经常在搜索一次,没有返回自己想要的结果的时候,就放弃了继续搜索下去的想法,而不是去改进自己的提问。经常是一次搜索并不能很准确地给你想要的东西,但是返回的结果当中,总有一点相关的内容,这时要充分利用那一点相关的内容,作为引子给自己启发,然后组成一个新的提问继续去搜索。通过这种环环相扣的递进搜索,肯定能找到你想要的东西。
此外,如果你输入一个关键词,返回结果上万项,而前两页都没有你想要的东西,这时好的办法是增加关键词重新搜索,而不是继续往下翻页。一般而言,当搜索结果在1000条左右时,很容易在前两页的条目中找到跟你需求很吻合的内容。
4.搜索后对信息的评价和选择
搜索的最终结果是得到一批相关的信息,选择其中一些适用的信息是利用这些信息的最后也是最重要的一步。
对信息的评价是一门学问,而且是一门很深的学问。机器评价的技术主要是Google Pagerank,而论坛、博客、点评等则提供了人工评价信息的渠道。信息是具有实效性的,也许当时是对的,但过一段时间就是错的了,机器评价和人工评价皆有明显的弱点和缺陷。对于一个搜索者来说,有时需要有敏锐的洞察力、深刻的逻辑判断力、相当的生活阅历和丰富的搜索实践经验,才能对一条信息做出恰当的评价。
(二)搜索引擎的搜索技巧
1.选择最常用的(合适的)搜索引擎
尽管网上有大量的搜索引擎可供选择,但时下搜索效率等各方面让人满意的并不多。相比之下,中文搜索引擎“百度”以及“谷歌”应该是大家的首选。其中百度主要提供基于“关键词”的检索方式,它在这方面做得非常有特色。而谷歌则不仅可以支持基于“关键词”的搜索网页搜索方式,同时也是分类目录式搜索的典范。
2.学习和掌握关键词的选用
一家总部位于荷兰的专业网站分析公司OneStat.com曾发布过2006年度的用户使用搜索引擎的关键词报告。该报告结论是:搜索引擎用户使用单一关键词检索的比例逐年下降,到2006年7月只有10.4%的用户仅使用一个关键词检索,与此同时,使用2个以上关键词组合进行检索的用户比例则逐年上升,其中使用4个关键词组合的用户比例已经达到18.2%,有些用户甚至使用7个以上的关键词进行检索。关键词策略应该多多考虑使用关键词组合而不是单一的关键字。随着用户对搜索引擎的使用越来越熟悉,他们根据经验知道,搜索条件越具体,结果可能相关度越高,越符合自己的需要。
根据六度分离理论,绝大多数事物都可以通过六个词语来进行精确的定位。
3.利用“网页快照”
对于已经搜索到的网页,如果无法打开,八成是该网页已经被站长从网上删除了。而更让人难以接受的是,通过搜索引擎的对该页的简要介绍,发现该页上正是自己苦苦找寻的结果,是不是就真的没有办法了呢?当然不是。如果选择百度搜索引擎进行搜索,可以看出,在每个搜索结果后,都有“网页快照”和“网页预览”两个超链接。在这种情况下,直接打开该网页可能会失败,但单击“网页快照”却可以看到该网页的快照内容。因为网页快照保存了该网站以前的信息,网页快照不仅下载速度极快,而且搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。
网页快照不仅可以让你看到一些根本就不存在了的网页上的内容,对仍然可以打开的网页,使用网页快照也有许多好处。因为,快照页面的首部都有一个与关键词相关的页内链接,直接指向该页中你所关心的重要内容。同时,网页内的所有关键词都被不同的颜色进行了区分,这比直接打开网页后自己用眼睛在该页上查找要方便得多,尤其是内容多的网页,有时你会感觉这些关键词是在与你玩“捉迷藏”的游戏。
4.重视“相关搜索”
当你选取的关键字找不到你所要的结果时,很可能是关键字选取不当。怎么办?需要重新选取关键字,很多搜索引擎都在搜索结果页面下方已经为你另外选取了几组关键词,可用它们来做关键词搜索试试,这就是相关搜索。
如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最少、最精确。因为检索系统会把用双引号括起来的检索词作为一个词组来检索。例如在搜索引擎的Search(查询)框中输入“search engine”,这会比输入search engine得到更少、更精确的结果。
有些搜索引擎的书名号(《》)也有类似的精确查找的功能。
6.特殊搜索命令
(1)“Intitle:”把搜索范限定在网页标题中
用户把查询内容范围限定在网页标题中,有时能获得更好的效果。例如,找杨幂的写真,就可以查询“写真intitle:杨幂”;而搜索“商业intitle:超级女声”,那么就只会在所有标题中包含“超级女声”这个词的网页中寻找出现“商业”这个关键字的结果。
“Intitle:”和后面的关键词之间,不要有空格。因为空格可以让一个词变成一个词组,分词不一样,搜索的结果页也会不一样。(www.xing528.com)
(2)“Site:”把搜索范围限定在特定站点中
有时候,用户如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用方法是在查询内容的后面,加上“site:站点域名”。例如,天空网下载软件不错,需要下载MSN软件,就可以查询“msn site:skycn.com”。
“site:”后面跟的站点域名,不要带“http:∥”;另外,“site:”和站点名之间不要带空格。
(3)“Inurl:”把搜索范围限定在URL链接中
网页URL中的某些信息,常常具有某种有价值的含义。于是,用户如果对搜索结果的URL做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在URL中出现的关键词。例如,找关于Photoshop的使用技巧,可以查询“photoshop inurl:jiqiao”。
上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页URL中。同样,“inurl:”语法和后面所跟的关键词之间不要有空格。
(4)“Filetype:”文档类型限定
很多有价值的资料,在互联网上并非是普通的网页,而是以其他格式存在。当用户需要搜索特定格式的文件时,使用Filetype这一搜索引擎的指令,可以使搜索结果只显示特定格式的文件。语法格式是“关键词filetype:文件类型”。例如,查找道德经的相关文档,输入“道德经filetype:doc”,可以看到,搜索结果都是doc格式的文件,这就大大方便了用户;而查找有关网站制作的Flash文件,则输入“网站制作filetype:swf”,即可找到所需。
目前仅百度、谷歌搜索引擎支持此种搜索方式,且文件格式为:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有文件类型。
对于这样一些特定的搜索,一般在搜索引擎的高级搜索页中实现。同时还应指出,不同的搜索引擎,提供的查找功能和实现的方法各有不同,我们还需阅读相应搜索引擎的使用说明。
7.限制查询范围
范围限制的能力越强,则越能准确地找到需要的信息。搜索引擎提供的范围限制类型大体有分类范围、地域范围、时间范围、网站类型范围以及其他特殊范围。一些搜索引擎,提供了许多特殊范围的限定,如域名后缀(com、gov、org等)、文件类型(文本、图形、声音等)。这些范围限制、实现的方法各不相同:有些是通过在关键词前加特殊的字符,有些是通过下拉式菜单。
8.使用短语更有效
我们使用搜索引擎,大多数情况下都是使用一些关键词去搜索引擎中进行搜索的。因此,搜索的技巧之一就是关键词的合理选取。
有时用一句话或一个短语作为关键词往往可以收到奇效。
因为相同的词汇可以用在许多不同的场合,仅仅使用一个或几个单词搜索到的结果肯定会是一片汪洋,这样的搜索结果没有任何作用。除了关键词的长度,合理的选择关键词也是非常重要的。对于同样的搜索需求,两种不同的关键词搜索策略可能会得到相差悬殊的结果。
比如,有这样的一个问题:内蒙古锡林郭勒盟苏尼特右旗,1985年出土的距今1.2亿年的“恐龙”是目前中国发现的最大的恐龙化石骨架。装架后体长22.4米,背高7长,抬头高12米。关键词是“内蒙古”,还是“恐龙化石”,抑或是将这两个关键词同时使用?无论采用以上哪种方案去搜索,得到的结果都会有成千上万!但如果能够紧紧抓住“中国发现的最大的恐龙化石骨架”这句短语,以它为关键词来进行搜索,那么找到这个问题的答案就易如反掌了。
9.使用词组提速搜索
如果只给出一个单词进行搜索,那么将发现数以千计甚至以百万计的匹配网页。然而如果再加上一个单词,那么搜索结果会更加切题。在搜索时,给出两个关键词,并将两个词用AND(与逻辑)结合起来,或者在每个词前面加上加号,这种与逻辑技术大大地缩小了命中范围,从而加快了搜索。幸运的是,所有主要的搜索引擎都使用同样的语法。一个带引号的词组意味着只有完全匹配该词组(包括空格)的网页才是要搜索的网页。例如在搜索说明中,有“this exact phrase”(这个确切词组),那么搜索引擎只搜索包含“thisexactphrase”的网页。
10.使用自然语言
一般来说在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。但是,运用词组搜索涉及如何使用一个词组来表达某一具体问题。有时简单地输入一个问题作为词组就能奏效,尤其是在Altavista这个站点上,因为它采用了“Ask Jeeves”引擎技术,该技术就常见问题给出预置的答案。
在Altavista上输入“Why is the sky blue”(为什么天是蓝的),就会在“Ask Jeeves”部分找到答案,并给出若干网页回答这个问题。然而简单明了的提问方法只对一部分搜索奏效。其他词组也可以作为搜索条件,尤其这些词组中有一个词十分独特或者该词组是几个词独特的组合。试一试用人名、产品名,甚至是嵌入程序中的字符串去搜索。
11.最容易被忽视的搜索方法
有时词组搜索太精确或者一个词组无法准确表达所需信息,那么可以直接到信息源,这种技术“简单得似乎不值一提”,但却很有效。根本不用搜索引擎,直接到提供某种信息组织的站点去。很多时候我们可以用公式“www.公司名.com”去猜测某一组织的站点。如果猜不中,那么到雅虎去,或用搜索引擎。例如,要找Dell公司现有附件的说明书,直接去该站点www.dell.com;想知道NBA的赛程安排,可试一试www.nba.com,然后进网站查看。人们在搜索引擎中得到很多无用的信息,却忘了试一试该方法。这种技术还可用于其他搜索目的,并不一定与公司有关。政府机构、职业协会、教育机构也可以提供很好的信息资源。
(三)搜索中常见的问题
网上的信息浩如烟海,为了在最短的时间内找到所需的资料,我们都会借助搜索引擎来帮忙。目前各大搜索引擎都正在不断地改进搜索技术和拓展搜索功能,从而让我们使用起来更加容易和方便。尽管如此,我们还是经常发现有些内容,网上明明存在,但是用搜索引擎却搜不到(其中也包括这样的情况:虽然得到的搜索结果不少,但并不是所要的资料)。究竟是什么原因造成的这种情况?一般有以下几种原因:
1.选用了不当的搜索引擎进行搜索
选用合适的搜索引擎不但可以让你事半功倍,而且还可以让你少走弯路。当前的社会分工变得越来越精细,就连搜索引擎也毫不例外,各类专业和特殊的搜索引擎正不断应运而生,任何一个搜索引擎也不能面面俱到,在不少领域也是无能为力的。
解决办法:首先,要对将要搜索的内容做出合理评估。看看搜索的信息是否比较冷僻,是否需要使用专用的搜索引擎(尤其是当使用流行的搜索引擎不能查找合适的资料时),是否需要转用其他搜索引擎再去尝试等。
2.错误使用搜索关键字
使用正确关键字就等于搜索成功了一半。主要是没有充分理解和领会所要搜索的内容,以致错误使用关键字,例如新年到处都有人说“龙马精神”,但龙马是什么意思呢?如果不经思考,直接在谷歌中使用“龙马是什么意思”作为搜索关键字,则会得到毫无意义的结果,但只要想想,这个问题似乎应该与一些典故有关,再用“春节龙马出自”进行搜索,则第一结果就是答案了。
解决办法:首先,要养成思考的习惯,学习分析问题,看看所要搜索的内容与哪方面的联系比较大,然后再决定使用关键字。至于错别字的问题,尽管没有特别有效的办法,但也可以尝试查字典、思考使用习惯来推测常用拼写方法来对付。
3.没有正确分词
就算搜索引擎的搜索技术多么先进,但它始终是程序,不会领会你的意图,只是很机械地从数据库中检索你查询的资料。所以当输入一些类似“北京到重庆列车时刻表”的搜索关键字是不会找到结果的,因为搜索引擎的数据库中没有这样的关键词,这就需要我们进行合理的分词。众所周知,我们所使用的中文文本是没有类似英文空格之类的显式表示词的边界标志,这就出现这样的现象:把一个关键词按不同的方法进行拆分得到的结果,其差异是比较大的。
解决办法:不要想要什么就直接输入什么,更不要用你心中想的大白话去搜索。如果搜索关键词较长,应该适当用空格进行分词。
4.技术原因搜索引擎无法抓取
大部分搜索引擎是通过一种被称为Spider的搜索机器人在网络上抓取内容,整理后放入搜索引擎库的。当遇到由大量Flash、Script、ASP等网络语言编写的网页时(BBS、数据库多数采用这种编写方式),搜索机器人就会停止抓取网页,因为这是为了避免一种叫作“搜索机器人陷阱”(Spider Traps)的脚本错误(这种错误会让搜索机器人进行无限循环的抓取,无法退出而浪费大量时间)。如果碰巧要搜索的网页是由上述网络语言编写,则会无功而返。
解决办法:一般情况下,这些网站都会提供站内搜索服务,可以尝试直接登录再进行搜索。
5.因为其他原因不去抓取
如果所要搜索的是一些有商业价值的内容,即使搜索引擎可以抓取,但基于商业利益原因则可能放弃抓取。另外一种情况就是需要用户名和密码登录才能访问的站点,搜索机器人无法自动完成“输入内容”,所以它也没办法访问(当然也有出于版权和隐私方面的因素)。
解决办法:碰到搜索无结果时,先看看是否属于上述情况,然后再做出抉择。
6.使用了禁用词
可能不少朋友在搜索时都没有注意到一个问题,就是禁用词的使用。所谓的禁用词是指由于该关键字太常见、使用太频繁,以至于无法搜索出有意义的结果,当把禁用词输入搜索框时,搜索引擎自动会忽略这些词。各个搜索引擎对禁用词都有各自不同的定义,但一般常见的多是语言中的副词、连词、介词,例如“是”“的”等。
解决办法:如果发现出现的搜索结果中并没有完全包含所输入的全部关键字时,则要看看是否使用了禁用词。万一必须使用禁用词,请用英文输入双引号(千万不要输入中文的“”符号)或“+”号把禁用词与其他关键字连接起来再搜索。
7.搜索引擎库里的资料还没有更新
每个搜索引擎都会定期通过搜索机器人来抓取网页,这个时间不但各搜索引擎不相同,即使是同一搜索引擎的不同镜像站点,其更新时间也有一定的差异,有些周期短,有些周期长。如果碰巧所搜索的内容搜索引擎还没来得及更新,则会出现一个时间上的断档而无法找到结果。
8.尽量选用更新时间快的镜像站点来进行搜索
至于如何知道镜像站点的更新快慢,除了自己在使用中积累的经验外,还可以从一些专业搜索知识中得知。如果要搜索的内容是属于时效性比较强的,则考虑使用更新时间较快的专业搜索引擎,例如搜索时事新闻可采用新浪、BBC的新闻搜索。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。