tion %> 山东菏泽麻将
當前位置:首頁 > 建站知識

為網站的web robot 設計路標

更新時間:2009.07.02 瀏覽次數:

internet越來越酷,www的知名度如日中天。在internet上發布公司信息、進行電子商 務已經從時髦演化成時尚。作為一個web master,你可能對html、javascript、java、 activex了如指掌,但你是否知道什么是web robot?你是否知道web robot和你所設 計的主頁有什么關系?

 internet上的流浪漢--- web robot

  有時你會莫名其妙地發現你的主頁的內容在一個搜索引擎中被索引,即使你從未與他們有過任何聯系。其實這正是web robot的功勞。web robot其實是一些程序,它可以穿越大量internet網址的超文本結構,遞歸地檢索網絡站點所有的內容。這些程序有時被叫“蜘蛛(spider)”,“網上流浪漢(web wanderer)”,“網絡蠕蟲(web worms)”或web crawler。一些internet網上知名的搜索引擎站點(search engines)都有專門的web robot程序來完成信息的采集,例如lycos,webcrawler,altavista等,以 及中文搜索引擎站點例如北極星,網易,goyoyo等。

  web robot就象一個不速之客,不管你是否在意,它都會忠于自己主人的職責,任勞任怨、不知疲倦地奔波于萬維網的空間,當然也會光臨你的主頁,檢索主頁內容并生 成它所需要的記錄格式。或許有的主頁內容你樂于世人皆知,但有的內容你卻不愿被洞察、索引。難道你就只能任其“橫行”于自己主頁空間,能否指揮和控制web robot的行蹤呢?答案當然是肯定的。只要你閱讀了本篇的下文,就可以象一個交通 警察一樣,布置下一個個路標,告訴web robot應該怎么去檢索你的主頁,哪些可以 檢索,哪些不可以訪問。

  其實web robot能聽懂你的話

  不要以為web robot是毫無組織,毫無管束地亂跑。很多web robot軟件給網絡站點的 管理員或網頁內容制作者提供了兩種方法來限制web robot的行蹤:

  1、robots exclusion protocol 協議

  網絡站點的管理員可以在站點上建立一個專門格式的文件,來指出站點上的哪一部分 可以被robot訪問, 這個文件放在站點的根目錄下,即 http://.../robots.txt

  2、robots meta tag

  一個網頁作者可以使用專門的html meta tag ,來指出某一個網頁是否可以被索 引、分析或鏈接。

  這些方法適合于大多數的web robot,至于是否在軟件中實施了這些方法,還依賴于 robot的開發者,并非可以保證對任何robot都靈驗。如果你迫切需要保護自己內容, 則應考慮采用諸如增加密碼等其他保護方法。

  使用robots exclusion protocol協議

  當robot訪問一個 web 站點時,比如http://www.sti.net.cn/,它先去檢查文件http: //www.sti.net.cn/robots.txt。如果這個文件存在,它便會按照這樣的記錄格式去分析:

user-agent: *
disallow: /cgi-bin/
disallow: /tmp/
disallow: /~joe/

  以確定它是否應該檢索站點的文件。這些記錄是專門給web robot看的,一般的瀏覽 者大概永遠不會看到這個文件,所以千萬不要異想天開地在里面加入形似<img src=*> 類的html語句或是“how do you do? where are you from?”之類假情假意的問候語。

  在一個站點上只能有一個 "/robots.txt" 文件,而且文件名的每個字母要求全部是小寫。在robot的記錄格式中每一個單獨的"disallow" 行表示你不希望robot訪問的url, 每個url必須單獨占一行,不能出現 "disallow: /cgi-bin/ /tmp/"這樣的病句。同時在一個 記錄中不能出現空行,這是因為空行是多個記錄分割的標志。

  user-agent行指出的是robot或其他代理的名稱。在user-agent行,'*' 表示一個特殊的含義---所有的robot。

  下面是幾個robot.txt的例子:

  在整個服務器上拒絕所有的robots:

user-agent: *
disallow: /

允許所有的robots訪問整個站點:
user-agent: *
disallow:
或者產生一個空的 "/robots.txt" 文件。

服務器的部分內容允許所有的robot訪問
user-agent: *
disallow: /cgi-bin/
disallow: /tmp/
disallow: /private/

拒絕某一個專門的robot:
user-agent: badbot
disallow: /

只允許某一個robot光顧:
user-agent: webcrawler
disallow:
user-agent: *
disallow: /

最后我們給出 http://www.w3.org/站點上的robots.txt:
# for use by search.w3.org
user-agent: w3crobot/1
disallow:
user-agent: *
disallow: /member/ # this is restricted to w3c members only
disallow: /member/ # this is restricted to w3c members only
disallow: /team/ # this is restricted to w3c team only
disallow: /tands/member # this is restricted to w3c members only
disallow: /tands/team # this is restricted to w3c team only
disallow: /project
disallow: /systems
disallow: /web
disallow: /team

  使用robots meta tag方式

  robots meta tag 允許html網頁作者指出某一頁是否可以被索引,或是否可以用來查 找更多的鏈接文件。目前只有部分robot實施了這一功能。

  robots meta tag的格式為:

<meta name="robots" content="noindex, nofollow">
象其他的meta tag一樣,它應該放在html文件的head區:
<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="this page ....">
<title>...</title>
</head>
<body>
...

  robots meta tag指令使用逗號隔開,可以使用的指令包括 [no]index 和[no] follow。index 指令指出一個索引性robot是否可以對本頁進行索引;follow 指 令指出robot是否可以跟蹤本頁的鏈接。缺省的情況是index和follow。例如:

<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">

  一個好的web 站點管理員應該將robot的管理考慮在內,使robot為自己的主頁服務, 同時又不損害自己網頁的安全。

烟台麻将规则 000032股票行情 沦陷在日本sm俱乐部续 山西十一选五任三遗 闲来贵州麻将作弊器 奥讯球探网即时赔率 体育彩票比分竞彩 日本sm虐恋电影在线观看 澳洲幸运10玩家群 吉林麻将代理平台 即时比分网球探网 海南4+1 重庆百变王牌走势图 美国对中国排球比分2019 500比分直播完整 一级日本黄色片 3d绝杀6码