![]() |
![]() |
|
||||
|
Robots.txt disallows Web Robot, User-agentBi viết giới thiệu về Robots Exclusion Protocol với tệp tin robots.txt v c php, cch sử dụng đng v danh sch cc User Agent Names.Robots, HTML Meta v Google, Yahoo, MicrosoftGiới thiệu về Robots Exclusion Protocol (REP), qui ước chung của Google, Yahoo v Microsoft : Qui ước robots.txt v qui ước HTML META Tags.Googlebot v Robots.txt : Allow, DisallowCch ứng dụng Robots Exclusion Protocol (REP) bằng việc sử dụng tệp tin robots.txt đối với my tm kiếm Google. Cch bin dịch đặc biệt tệp tin robots.txt của spider GoogleBot.Robots META Tag - Metadata ElementsỨng dụng Robots Exclusion Protocol (REP) thng qua sử dụng thẻ Metadata Robots cho cc trang đơn lẻ. Cc User Agent của Google
Google c vi user-agent chnh. Bạn c thể ngăn chng bằng cch thm tn của bọ tm kiếm tương ứng v trong dng User-agent tương ứng trong bảng ghi robots.txt. Nếu bạn chặn Googlebot th c nghĩa l bạn chặn tất cả cc bọ tm kiếm với từ kha Googlebot. GooglebotĐnh chỉ số từ cc chỉ mục cũ v mới của Google.Googlebot-MobileĐnh chỉ số cho cc thiết bị cầm tay hoặc di động.Googlebot-ImageĐnh chỉ số cc tệp tin ảnh.Mediapartners-GoogleXuất hiện trong cc trang dăng quảng co của Google Adsense.Adsbot-GoogleĐnh chỉ số cc trang được nh quảng co sử dụng giới thiệu sản phẩm hay dịch vụ thng qua Google Adwords. N cho php đnh gi chất lượng của trang dng dịch vụ Adwords. Chặn Googlebot Để chặn ton bộ Googlebot th bạn thm c php sau vo file robots loại trừ : User-agent: Googlebot Disallow: / Cho php Googlebot Trong trường hợp bạn muốn chặn tất cả cc bọ tm kiếm khc trừ một robot, Googlebot chẳng hạn, th bạn c thể sử dụng c php sau. Tuy nhin nếu bạn khng muốn trang lin quan biến mất khỏi kết quả tm kiếm của cc my tm kiếm như Yahoo, MSN Live hay Ask th bạn khng nn lm như thế. User-agent: * Disallow: / User-agent: Googlebot Disallow: Cho php mở rộng Google hỗ trợ c php mở rộng Allow trong tệp tin robots.txt. C nhiều my tm kiếm khng hỗ trợ phần mở rộng ny, v thế bạn nn tham khảo kỹ. Dng lệnh Allow hoạt động cũng giống như Disallow chỉ khc l n liệt k cc thư mục hay trang bạn cho php đnh chỉ số. Bạn c thể sử dụng đồng thời Allow v Disallow cng nhau. Chẳng hạn để cấm tất cả cc trang trong một thư mục seoblog chẳng hạn, trừ tệp tin quang-ba-web.html, bạn hy lm như sau : User-agent: Googlebot Disallow: /seoblog/ Allow: /seoblog/quang-ba-web.html Cn trong trường hợp bạn muốn chặn Googlebot v sau đ lại vẫn muốn cho cc bot khc của Google (Googlebot-Mobile) chẳng hạn, bạn c thể sử dụng lệnh Allow như sau : User-agent: Googlebot Disallow: / User-agent: Googlebot-Mobile Allow: / Sử dụng mẫu tổ hợp Đặc biệt hữu ch trong trường hợp bạn khng muốn phải liệt k tất cả cc trang m bạn muốn chặn. Đy l phần đui mở rộng m GoogleBot hỗ trợ. Ch l cc my tm kiếm khc chưa chắc đ hỗ trợ tnh năng ny. Mẫu tổ hợp chuỗi cc k tự sử dụng dấu sao (*) Bạn c thể sử dụng dấu sao (*) để liệt k tổ hợp chuỗi cc lkys tự. V dụ bạn c thể chặn một loạt cc thư mục con bắt đầu bằng chữ wp (v dụ wp-admin, wp-content cho blog WordPress) như sau : User-agent: Googlebot Disallow: /wp*/ Để chặn tất cả đường dẫn URL m chứa k tự (?) chứa tham biến (trong ngn ngữ PHP), bạn hy lm như sau : User-agent: * Disallow: /*? Kiểm tra phần kết của chuỗi k tự URL bằng $ Bạn cũng c thể sử dụng dấu dollard ($) để liệt k cc URL c phần kết tương ứng. V dụ để chặn tất cả cc đường dẫn URL kết thc với pdf (phin bản pdf trn website để trnh trng nội dung chẳng hạn) : User-agent: Googlebot Disallow: /*.pdf$ Bạn cũng c thể sử dụng tổ hợp kết ny với lệnh Allow. V dụ nếu như c dấu hỏi ? tương ứng với một session ID, bạn c thể loại trừ chng để trnh cho GoogleBot phải đnh chỉ số một nội dung trng lặp. Thế nhưng cc URLs kết thc bởi dấu hỏi ? lại l một phin bản trang m bạn muốn thm vo. Trong trường hợp ny, hy đặt tệp tin robots.txt của bạn như sau : User-agent: * Allow: /*?$ Disallow: /*? Dng lệnh Disallow:/ *? sẽ chặn tất cả cc URL c chứa k tự ? (Cụ thể l n sẽ chặn tất cả cc URL bắt đầu bằng tn miền, tiếp theo cc k tự, tiếp theo l dấu hỏi ?, tiếp theo bởi bất kể k tự no khc) Dng lệnh Allow: /*?$ sẽ cho php bất kể đường dẫn no kết thc bởi dấu hỏi ? (Cụ thể l với bất kể URL no bắt đầu bằng tn min, theo bởi chuỗi k tự, theo tip bởi dấu hỏi ?, khng c k tự no nằm sau dấu hỏi ny). Hoi Nam - Quảng b Web. Bi viết cng chủ đề lin quan
|
|
||||
|
Robots Exclusion Protocol (REP)
Một trong những quan tm hng đầu của cc quản trị website (webmaster) l mức độ phổ biến v khả thị (visibility) trong website của họ. Đy l một trong những vấn đề chnh trong thủ thuật SEO, thủ thuật tối ưu ha website cho cng cụ tm kiếm (search engine optimization) nhằm gip cho bọ tm kiếm dễ dng đnh chỉ số nội dung trang web. Tuy nhin, trong vi trường hợp th webmaster lại khng muốn đăng tải một số thng tin nhất định ln my tm kiếm. Trong trường hợp ny họ sẽ sử dụng tệp tin loại trừ robots.txt (Robots Exclusion Protocol - REP) để hướng dẫn bọ tm kiếm tiếp cận ti nguyn trn ton website hay cc phần quan trọng. Trong trường hợp từng trang đơn lẻ th cc webmaster sẽ sử dụng thẻ META Tags. Quay trở lại với chuẩn REP vừa ni ở trn, Robots Exclusion Protocol xuất hiện trong những năm 90 v sớm trở thnh một trong những chuẩn gip webmaster chỉ định cc thnh phần của trang web m họ muốn đăng tải ln my tm kiếm v cc thnh phần họ muốn giữ kn. Ngy nay, Robots Exclusion Protocol đ trở ln hết sức phổ biến v được sử dụng rộng ri nhờ tnh đơn giản v hiệu quả trong việc lin lạc với cc my tm kiếm. Điểm mạnh của n cn nằm ở khả năng ty biến cao thch ứng với World Wide Web. Chuẩn ny được ứng dụng cho hầu hết cc my tm kiếm v cc bọ tm kiếm v tất cả cc website lớn nhỏ, khng kể qui m. Trong ti liệu ny, chng ta sẽ cũng phn tch cch thức ứng dụng Robots Exclusion Protocol (REP). vietSEO sẽ giới thiệu cc qui ước chung sử dụng bởi cả 3 ng lớn Google, Yahoo v Microsoft mới được cng bố gần đy. Qui ước chung của Google, Yahoo v Microsoft Danh sch cc tnh năng chủ yếu sau của Robots Exclusion Protocol được ứng dụng bởi cả Google, Microsoft v Yahoo. Với mỗi tnh năng, bạn sẽ hiểu được nghĩa v cch sử dụng. Mỗi qui ước được ứng dụng cho tt cả cc bọ tm kiếm hay cc bọ tm kiếm đặt biệt được chỉ định bởi User-Agent (Xem thm cc bi viết lin quan về Robots.txt trn vietSEO). Qui ước robots.txt Qui ước robots.txt cho Google, Yahoo v Microsoft Robots.txt Directives Qui ước nghĩa Ứng dụng SEO Disallow No Crawl page : Yu cầu bọ tm kiếm khng được đnh chỉ số ti nguyn. Tuy nhin tệp tin robots.txt vẫn cần được đnh chỉ số để tm được cc chỉ định, cc trang web bị cấm sẽ khng được quyt. Khng qut cc ti nguyn trn một trang. Qui ước ny ngầm cấm cc bọ tm kiếm tiếp cận cc đường dẫn đến một số ti nguyn đặc biệt trn một trang Web. Allow Yu cầu cc bọ tm kiếm đnh chỉ số một số trang nhất định trn website của bạn. Bạn c thể sử dụng kết hợp với Disallow. Đặc biệt hữu ch khi sử dụng cng Disallow, khi m một phần lớn cc ti nguyn bị cấm trừ một phần nhỏ trong đ. $ - Wildcard Yu cầu bọ tm kiếm xc định mọi thứ từ cuối đường dẫn URL - một phần quan trọng cc thư mục m khng phải chỉ định từng trang một. No Crawl files : Khng đnh chỉ số cc files với qui luật nhất định. V dụ cc tệp tin với thnh phần đui mở rộng nhất định, như PDF chẳng hạn. * - Wildcard Yu cầu bọ tm kiếm xc định tập hợp k tự. No Crawl URLs : Kiểm tra đường dẫn URL với qui luật nhất định. V dụ cấm cc đường dẫn với URLs chứ cc session id hoặc cc tham biến phụ. Sitemap Yu cầu bọ tm kiếm tm tệp tin sitemap của website. Trỏ tới vị tr đặt sitemap XML hay cc luồng tin RSS. Qui ước HTML META Như bi viết trước về thẻ META tags, phần ny chng ta sẽ bổ sung thm cc qui ước chung cho cả 3 đại gia tm kiếm Google, Yahoo v Microsoft : Qui ước META tags cho Google, Yahoo v Microsoft HTML META Directives Qui ước nghĩa Ứng dụng SEO NOINDEX META Tag Bọ tm kiếm khng đnh chỉ số trang lin quan. Khng cho php đnh chỉ số trang chỉ định. Ngoi ra, n cn rt trang đ khỏi danh mục nếu được được đnh chỉ số. NOFOLLOW META Tag Bọ tm kiếm khng được theo đường dẫn URL nằm trong nội dung trang chỉ định. Gip chống lại nạn spam cc trang cho php viết bi hng tăng lin kết. Thẻ nofollow bo cho bọ tm kiếm biết bạn bỏ qua cc lin kết trỏ đến cc trang bn ngoi trong nội dung trang chứ thẻ META tags nofollow. NOSNIPPET META Tag Yu cầu bọ tm kiếm khng hiển thị snippets trong kết quả tm kiếm đối với trang ny. Loại bỏ phần m tả snippet ra khỏi trang kết quả tm kiếm. NOARCHIVE META Tag Cấm khng cho bọ tm kiếm được hiển thị bản sao trang web trong bộ nhớ cache đối với trang sử dụng thẻ ny. Khng cho php người dng xem phin bản copy chứ trong bộ nhớ của my tm kiếm. NOODP META Tag Yu cầu my tm kiếm khng được sử dụng tiu đề (title) v snippets từ cc danh bạ Web - Open Directory Project cho trang được chỉ định. khng sử dụng ODP - Open Directory Project, tiu đề v phần m tả snippets trong kết quả tm kiếm cho trang ny. Cc qui ước trn được p dụng cho cc loại ti nguyn khc nhau trn Website. Chng c thể được đặt trong một trang HTMK hay với HTTP header cho cc trang khng c nội dung l HTML, v dụ cc tệp tin PDF, Video, ect. (X-Robots-Tag). Một số qui ước REP khc Cc qui ước trn đều được sử dụng cho Microsofts, Google v Yahoo. Tuy nhin chng khng được p dụng cho tất cả cc my tm kiếm khc. Ngoi ra, cn c một số qui ước được Google sử dụng nhưng lại khng được cc my tm khc hỗ trợ : UNAVAILABLE_AFTER Meta TagThng bo cho bọ tm kiếm thời hạn của trang. V dụ ngy m trang đ khng cn c hiệu lực v sẽ khng xuất hiện trong kết quả tm kiếm.NOIMAGEINDEX Meta TagYu cầu bọ tm kiếm khng qut cc files ảnh trong trang được chỉ định v hiển thị trong kết quả tm kiếm.NOTRANSLATE Meta TagYu cầu bọ tm kiếm khng được dịch nối dung của trang sang một ngn ngữ khc trong kết quả tm kiếm. Robots v Search Engine Optimization Ngoi những ứng dụng đ nhắc ở phần trn th lợi ch của robots trong quảng b web rất l lớn. Đặc biệt phải kể đến ứng dụng của REP trong việc tối ưu ha Website cho cng cụ tm kiếm (Search Engine Optimization). Lấy v dụ một Blog, th việc thng tin c thể được truy cập v hiển thị qua nhiều đường dẫn khc nhau lm pht sinh nhiều nội dung trng lặp (Duplicate Content) (qua category, tags, archive, RSS). Bạn c thể loại trừ cc nội dung trong phần tags, archive hay RSS bằng cch ứng dụng Robots. Nếu sử dụng robots.txt, bạn c thể sử dụng lệnh sau trong blog WordPress của bạn. User-agent: * Disallow: */trackback* Disallow: /wp-* Disallow: */feed* Disallow: /20* Disallow: /page/ Allow: / Ngoi ra bạn c thể dng thẻ META tag. Vấn đề ứng dụng REP cho Blog, Forum mnh sẽ quay trở lại sau trong một chủ đề lin quan. Ngoải ra, bạn c thể sử dụng dng lệch sitemap để gip bọ tm kiếm tiếp cận với cấu trc, nội dung mới của trang Web bằng việc thm đường dẫn Sitemap XML v Feed RSS trong file robots.txt. V dụ : Sitemap: http://aevn.fr/indexsitemap_invm.xml.gz Sitemap: AEVN - Sinh Vien du hoc Sitemap: Sinh vien Viet Nam - Hoc tap - Giai tri |
|
||||
![]() Hội nghị PubCon Trong hội nghị PubCon (một diễn đn lớn cho những chuyn gia về SEO) , Matt Cutts - sếp, nhn vin nổi tiếng của Google, chi nhnh chống thư rc, spam đ đồng trả lời phỏng vấn Stephan Spencer - một chuyn gia quảng co trực tuyến theo blog c nhn của tc giả. Xung quanh cuộc phỏng vấn ny, c rất nhiều thng tin th vị v c ch cho giới SEO, nn tớ xin php tm lược lại vi điểm chnh sau : Matt Cutts trả lời về Duplicate Content
Điều lm tớ ngạc nhin nhất trong đoạn phỏng vấn trn đ l khi Matt Cutts ni rằng kết quả phụ thược vo thứ hạng PageRank. Mnh đ khng nghĩ rằng PageRank lại đng vai tr quan trọng đến khi thế; V c rất nhiều trang c vị tr trong trang kết quả cao hơn d PageRank thấp hơn cc trang khc cho cng một từ kha tm kiếm. Nhưng kiểu g th mnh cũng rt ra kết luận (sẽ viết một bi về nội dung kp thủ thuật WordPress chi tiết hơn ): phải đặt kha MORE cao hơn nữa trong cc bi viết, nhất l khi kch hoạt cc chức năng lung tin RSS Feed Bi viết tổng hợp của Hoi Nam - vietSEO [tags]blog, Duplicate Content, Google, Matt Cutts,PubCon, SEO, Stephan, trng lặp nội dung, Spencer,wordpress,vietnam, webmaster,hoai nam[/tags] Bi viết cng chủ đề lin quan
|
|
||||
|
Như cc bạn đ biết, để đnh chỉ số một trang Web th cc my tm kiếm thường gửi cc bọ tm kiếm tới viếng thăm trang Web cần được chỉ số ha. Ngoi việc sử dụng thẻ Meta Tag Robots, th bạn c thể ứng dụng một file text đặc biệt đặt tại thư mục gốc của tn miền để điều chỉnh ứng xử của bọ tm kiếm (trường hợp ứng dụng cho Google xem Google Robots). Bi viết ny vietSEO v cc bạn sẽ cng phn tch ứng dụng của file robots.txt ny.
Giới thiệu Robots.txt Như đ viết ở trn, khi đnh chỉ số một trang Web th cc bọ tm kiếm sẽ kiểm tra nội dung một tệp tin đặc biệt đặt tại thư mục gốc tn l robots.txt. Tệp tin ny chứa hon ton nội dung văn bản text (khng phải HTML). Robots.txt được hiểu với nghĩa l Robots Exclusion Protocol; n cho php người quản trị Web (Webmaster) định ra cc thnh phần với quyền hạn ring biệt cho từng bọ tm kiếm. Ni cch khc thng qua tệp tin ny, Webmaster sẽ giao tiếp với bọ tm kiếm để điều khiển tc vụ của cc bọ tm kiếm ni trn. C php trong Robots.txt C php dng trong tệp tin ny thường dng để cấm robots (bọ tm kiếm) qut cc trang m đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm c tn của bọ tm kiếm (user agent hay robot) v đường dẫn m n khng được qut. V thường l bạn khng thể chỉ định ra thư mục nhất định hay l cc loại tệp tin m bọ tm kiếm c thể đnh chỉ số. Nn nhớ rằng, ngầm định, cc robots c thể truy cập bất kể thư mục no theo đường dẫn URL khng được cấm trong tệp tin robots.txt. Tất cả mọi ti nguyn khng bị cấm th đều c thể được truy cập. Bạn c thể hiển thị file robots.txt chỉ đơn giản bằng trnh duyệt ( http://vietseo.net/robots.txt ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu. Xin ni thm rằng Google gần đy c hỗ trợ c php Sitemap trong robots.txt cho php chỉ định sơ đồ Web (Sitemap XML) trong robots.txt V dụ phần c php Sitemap được chỉ định trong fie robots.txt trn vietSEO như sau : [source:html] #BEGIN XML-SITEMAP-PLUGIN Sitemap: http://www.vietseo.net/sitemaps.xml.gz #END XML-SITEMAP-PLUGIN [/source] Ứng dụng robots.txt Đy l ton bộ ti liệu lin quan tới chuẩn loại trừ Robot, m theo l thuyết th tất cả cc robots đề phải tun theo cc chỉ định trong file robots.txt. Sử dụng file robots.txt C php Ghi ch cho Webmaster User-agent: * Disallow: Dấu (*) c nghĩa l p dụng cho mọi robots. Nhưng v khng c ti nguyn no bị cấm nn thnh ra tất cả mọi thư mục đề được cho php. User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ Tất cả mọi robots đều c quyền truy cập tất cả cc thư mục trừ ba thư mục được trch dẫn pha sau. User-agent: SpamBot Disallow: / Trường hợp ny robot SpamBot bị cấm truy cập tất cả thư mục. Dấu gạch cho / c nghĩa l tất cả cc thư mục.User-Agent c thể l k tự đơn v cc robots khng phần biệt chữ hoa v chữ thường. User-agent: SpamBot Disallow: / User-agent: * Disallow: /private/ Để bắt đầu chỉ định mới th bạn hy đặt một dng trắng. SpamBot bị cấm truy cập tất cả ti nguyn. Trong khi cc robots khc được được truy cập tất cả trừ thư mục private. User-agent: SpamBot Disallow: /tmp/ Disallow: /private/ Disallow: /tailieu/canhan.html User-agent: * Disallow: /tmp/ Disallow: /private/ Khng cho php SpamBot d cc thư mục được liệt k pha sau : thư mục tmp, private v tệp tin canhan.html trong thư mục tailieu. Cc bọ tm kiếm cc được d mọi thứ trừ hai thư mục tmp v private. Sử dụng sai - Phản v dụ Cc cch dng sai syntax v file robots.txt User-agent: * Disallow / KHNG ! Đy l cch dng sai v thiếu dấu hai chấm : sau disallow. User-agent: * Disallow: * KHNG ! Nếu muốn cấm ton bộ mọi thứ th hy sử dụng k tự gạch ngang / (chỉ định thư mục gốc) User-agent: sidewiner Disallow: /tmp/ KHNG ! Robots sẽ bỏ qua cc tn sai của User Agent. Hy xem file logs trn server hoặc xem thm danh sch User Agent names. User-agent: * Disallow: /tmp/ User-agent: SpamBot Disallow: /tailieu/canhan.html Disallow: /tmp/ KHNG ! Robots đọc theo thứ tự từ trn xuống dưới v n sẽ dng lại khi tm thấy phần văn bản lin quan tới n. Bởi vậy SpamBot sẽ dừng ngay tại bảng ghi đầu tin với dấu sao * m khng cần đến bảng ghi tiếp theo dnh ring cho n. Ngoi ra, bạn c thể ưng dụng file robots.txt trong việc ngăn ngừa phần no cc robots c hại, mang tnh chất spam, email extractor hay nhằm giảm nội dung trng lặp, loại bỏ đường dẫn URL đ bị đnh chỉ số. Chng ta sẽ trở lại vấn đề ny trong cc bi viết với từng chủ đề lin quan. Danh sch User Agent Names Cc User Agent của Google Google thường sử dụng vi User Agent cho từng dịch vụ ring của mnh. Bạn c thể chỉ định từng dng User Agent ring rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn tất cả cc User Agent bắt đầu bằng Goooglebot
Đy l một số danh sch cc User-Agent m bạn c thể tham khảo như đ viết ở trn :
|
![]() |
| Thread Tools | |
| Display Modes | |
|
|
LinkBacks (?)
LinkBack to this Thread: http://hackingart.com/quang_ba_thuong_hieu/270-googlebot_va_robots_txt_allow_disallow.html
|
||||
| Posted By | For | Type | Date | |
| Vi?t l?i ???ng d?n URL (mod_rewrite, .htaccess, Apache) | This thread | Refback | 14-08-2008 11:32 AM | |