Server - System - Manager - CentOS, Operation System, VBB, HACKING AND SECURITY

Go Back   Server - System - Manager - CentOS, Operation System, VBB, HACKING AND SECURITY > Dnh cho webmaster > Cng cụ cho Webmaster > Quảng b thương hiệu

Reply
 
LinkBack (1) Thread Tools Display Modes
  1 links from elsewhere to this Post. Click to view. #1 (permalink)  
Old 14-08-2008
get2you's Avatar
Advanced Member
 
Join Date: Jul 2008
Posts: 115
Thanks: 7
Thanked 3 Times in 3 Posts
Default Googlebot v Robots.txt : Allow, Disallow

Robots.txt disallows Web Robot, User-agentBi viết giới thiệu về Robots Exclusion Protocol với tệp tin robots.txt v c php, cch sử dụng đng v danh sch cc User Agent Names.Robots, HTML Meta v Google, Yahoo, MicrosoftGiới thiệu về Robots Exclusion Protocol (REP), qui ước chung của Google, Yahoo v Microsoft : Qui ước robots.txt v qui ước HTML META Tags.Googlebot v Robots.txt : Allow, DisallowCch ứng dụng Robots Exclusion Protocol (REP) bằng việc sử dụng tệp tin robots.txt đối với my tm kiếm Google. Cch bin dịch đặc biệt tệp tin robots.txt của spider GoogleBot.Robots META Tag - Metadata ElementsỨng dụng Robots Exclusion Protocol (REP) thng qua sử dụng thẻ Metadata Robots cho cc trang đơn lẻ. Cc User Agent của Google

Google c vi user-agent chnh. Bạn c thể ngăn chng bằng cch thm tn của bọ tm kiếm tương ứng v trong dng User-agent tương ứng trong bảng ghi robots.txt. Nếu bạn chặn Googlebot th c nghĩa l bạn chặn tất cả cc bọ tm kiếm với từ kha Googlebot.
GooglebotĐnh chỉ số từ cc chỉ mục cũ v mới của Google.Googlebot-MobileĐnh chỉ số cho cc thiết bị cầm tay hoặc di động.Googlebot-ImageĐnh chỉ số cc tệp tin ảnh.Mediapartners-GoogleXuất hiện trong cc trang dăng quảng co của Google Adsense.Adsbot-GoogleĐnh chỉ số cc trang được nh quảng co sử dụng giới thiệu sản phẩm hay dịch vụ thng qua Google Adwords. N cho php đnh gi chất lượng của trang dng dịch vụ Adwords. Chặn Googlebot

Để chặn ton bộ Googlebot th bạn thm c php sau vo file robots loại trừ :
User-agent: Googlebot
Disallow: / Cho php Googlebot

Trong trường hợp bạn muốn chặn tất cả cc bọ tm kiếm khc trừ một robot, Googlebot chẳng hạn, th bạn c thể sử dụng c php sau. Tuy nhin nếu bạn khng muốn trang lin quan biến mất khỏi kết quả tm kiếm của cc my tm kiếm như Yahoo, MSN Live hay Ask th bạn khng nn lm như thế.
User-agent: *
Disallow: /

User-agent: Googlebot
Disallow: Cho php mở rộng

Google hỗ trợ c php mở rộng Allow trong tệp tin robots.txt. C nhiều my tm kiếm khng hỗ trợ phần mở rộng ny, v thế bạn nn tham khảo kỹ. Dng lệnh Allow hoạt động cũng giống như Disallow chỉ khc l n liệt k cc thư mục hay trang bạn cho php đnh chỉ số.
Bạn c thể sử dụng đồng thời Allow v Disallow cng nhau. Chẳng hạn để cấm tất cả cc trang trong một thư mục seoblog chẳng hạn, trừ tệp tin quang-ba-web.html, bạn hy lm như sau :
User-agent: Googlebot
Disallow: /seoblog/
Allow: /seoblog/quang-ba-web.html Cn trong trường hợp bạn muốn chặn Googlebot v sau đ lại vẫn muốn cho cc bot khc của Google (Googlebot-Mobile) chẳng hạn, bạn c thể sử dụng lệnh Allow như sau :
User-agent: Googlebot
Disallow: /

User-agent: Googlebot-Mobile
Allow: / Sử dụng mẫu tổ hợp

Đặc biệt hữu ch trong trường hợp bạn khng muốn phải liệt k tất cả cc trang m bạn muốn chặn. Đy l phần đui mở rộng m GoogleBot hỗ trợ. Ch l cc my tm kiếm khc chưa chắc đ hỗ trợ tnh năng ny.
Mẫu tổ hợp chuỗi cc k tự sử dụng dấu sao (*)

Bạn c thể sử dụng dấu sao (*) để liệt k tổ hợp chuỗi cc lkys tự. V dụ bạn c thể chặn một loạt cc thư mục con bắt đầu bằng chữ wp (v dụ wp-admin, wp-content cho blog WordPress) như sau :
User-agent: Googlebot
Disallow: /wp*/
Để chặn tất cả đường dẫn URL m chứa k tự (?) chứa tham biến (trong ngn ngữ PHP), bạn hy lm như sau :
User-agent: *
Disallow: /*?
Kiểm tra phần kết của chuỗi k tự URL bằng $

Bạn cũng c thể sử dụng dấu dollard ($) để liệt k cc URL c phần kết tương ứng. V dụ để chặn tất cả cc đường dẫn URL kết thc với pdf (phin bản pdf trn website để trnh trng nội dung chẳng hạn) :
User-agent: Googlebot
Disallow: /*.pdf$
Bạn cũng c thể sử dụng tổ hợp kết ny với lệnh Allow. V dụ nếu như c dấu hỏi ? tương ứng với một session ID, bạn c thể loại trừ chng để trnh cho GoogleBot phải đnh chỉ số một nội dung trng lặp. Thế nhưng cc URLs kết thc bởi dấu hỏi ? lại l một phin bản trang m bạn muốn thm vo. Trong trường hợp ny, hy đặt tệp tin robots.txt của bạn như sau :
User-agent: *
Allow: /*?$
Disallow: /*?
Dng lệnh Disallow:/ *? sẽ chặn tất cả cc URL c chứa k tự ? (Cụ thể l n sẽ chặn tất cả cc URL bắt đầu bằng tn miền, tiếp theo cc k tự, tiếp theo l dấu hỏi ?, tiếp theo bởi bất kể k tự no khc)
Dng lệnh Allow: /*?$ sẽ cho php bất kể đường dẫn no kết thc bởi dấu hỏi ? (Cụ thể l với bất kể URL no bắt đầu bằng tn min, theo bởi chuỗi k tự, theo tip bởi dấu hỏi ?, khng c k tự no nằm sau dấu hỏi ny).
Hoi Nam - Quảng b Web.
Bi viết cng chủ đề lin quan

  1. Robots.txt disallows Web Robot, User-agent
    Như cc bạn đ biết, để đnh chỉ số một trang Web th cc my tm kiếm thường gửi cc bọ tm kiếm tới viếng thăm trang Web cần được...
  2. Robots, HTML Meta v Google, Yahoo, Microsoft
    Robots Exclusion Protocol (REP) Một trong những quan tm hng đầu của cc quản trị website (webmaster) l mức độ phổ biến v khả thị (visibility) trong website của...
  3. Web crawler - web spider - web robot - googlebot - slurp
    Web crawler, web spider hay web robot l một chương trnh tự động tm kiếm trn Internet. N được thiết kết để thu thập ti nguyn Internet (trang Web, hnh...
  4. Robots META Tag - Metadata Elements
    Thường th tệp tin robots.txt đặt tại thư mục gốc của tn miền l cng cụ l tưởng để giao tiếp với cc my tm kiếm (Robots với Google, Yahoo...
__________________
cho mừng đến với site của tớ
www.get2you.com
Reply With Quote
  #2 (permalink)  
Old 14-08-2008
get2you's Avatar
Advanced Member
 
Join Date: Jul 2008
Posts: 115
Thanks: 7
Thanked 3 Times in 3 Posts
Default Robots, HTML Meta v Google, Yahoo, Microsoft

Robots Exclusion Protocol (REP)

Một trong những quan tm hng đầu của cc quản trị website (webmaster) l mức độ phổ biến v khả thị (visibility) trong website của họ. Đy l một trong những vấn đề chnh trong thủ thuật SEO, thủ thuật tối ưu ha website cho cng cụ tm kiếm (search engine optimization) nhằm gip cho bọ tm kiếm dễ dng đnh chỉ số nội dung trang web.

Tuy nhin, trong vi trường hợp th webmaster lại khng muốn đăng tải một số thng tin nhất định ln my tm kiếm. Trong trường hợp ny họ sẽ sử dụng tệp tin loại trừ robots.txt (Robots Exclusion Protocol - REP) để hướng dẫn bọ tm kiếm tiếp cận ti nguyn trn ton website hay cc phần quan trọng. Trong trường hợp từng trang đơn lẻ th cc webmaster sẽ sử dụng thẻ META Tags.
Quay trở lại với chuẩn REP vừa ni ở trn, Robots Exclusion Protocol xuất hiện trong những năm 90 v sớm trở thnh một trong những chuẩn gip webmaster chỉ định cc thnh phần của trang web m họ muốn đăng tải ln my tm kiếm v cc thnh phần họ muốn giữ kn. Ngy nay, Robots Exclusion Protocol đ trở ln hết sức phổ biến v được sử dụng rộng ri nhờ tnh đơn giản v hiệu quả trong việc lin lạc với cc my tm kiếm. Điểm mạnh của n cn nằm ở khả năng ty biến cao thch ứng với World Wide Web. Chuẩn ny được ứng dụng cho hầu hết cc my tm kiếm v cc bọ tm kiếm v tất cả cc website lớn nhỏ, khng kể qui m.
Trong ti liệu ny, chng ta sẽ cũng phn tch cch thức ứng dụng Robots Exclusion Protocol (REP). vietSEO sẽ giới thiệu cc qui ước chung sử dụng bởi cả 3 ng lớn Google, Yahoo v Microsoft mới được cng bố gần đy.
Qui ước chung của Google, Yahoo v Microsoft

Danh sch cc tnh năng chủ yếu sau của Robots Exclusion Protocol được ứng dụng bởi cả Google, Microsoft v Yahoo. Với mỗi tnh năng, bạn sẽ hiểu được nghĩa v cch sử dụng.
Mỗi qui ước được ứng dụng cho tt cả cc bọ tm kiếm hay cc bọ tm kiếm đặt biệt được chỉ định bởi User-Agent (Xem thm cc bi viết lin quan về Robots.txt trn vietSEO).
Qui ước robots.txt

Qui ước robots.txt cho Google, Yahoo v Microsoft Robots.txt Directives Qui ước nghĩa Ứng dụng SEO Disallow No Crawl page : Yu cầu bọ tm kiếm khng được đnh chỉ số ti nguyn. Tuy nhin tệp tin robots.txt vẫn cần được đnh chỉ số để tm được cc chỉ định, cc trang web bị cấm sẽ khng được quyt. Khng qut cc ti nguyn trn một trang. Qui ước ny ngầm cấm cc bọ tm kiếm tiếp cận cc đường dẫn đến một số ti nguyn đặc biệt trn một trang Web. Allow Yu cầu cc bọ tm kiếm đnh chỉ số một số trang nhất định trn website của bạn. Bạn c thể sử dụng kết hợp với Disallow. Đặc biệt hữu ch khi sử dụng cng Disallow, khi m một phần lớn cc ti nguyn bị cấm trừ một phần nhỏ trong đ. $ - Wildcard Yu cầu bọ tm kiếm xc định mọi thứ từ cuối đường dẫn URL - một phần quan trọng cc thư mục m khng phải chỉ định từng trang một. No Crawl files : Khng đnh chỉ số cc files với qui luật nhất định. V dụ cc tệp tin với thnh phần đui mở rộng nhất định, như PDF chẳng hạn. * - Wildcard Yu cầu bọ tm kiếm xc định tập hợp k tự. No Crawl URLs : Kiểm tra đường dẫn URL với qui luật nhất định. V dụ cấm cc đường dẫn với URLs chứ cc session id hoặc cc tham biến phụ. Sitemap Yu cầu bọ tm kiếm tm tệp tin sitemap của website. Trỏ tới vị tr đặt sitemap XML hay cc luồng tin RSS. Qui ước HTML META

Như bi viết trước về thẻ META tags, phần ny chng ta sẽ bổ sung thm cc qui ước chung cho cả 3 đại gia tm kiếm Google, Yahoo v Microsoft :
Qui ước META tags cho Google, Yahoo v Microsoft HTML META Directives Qui ước nghĩa Ứng dụng SEO NOINDEX META Tag Bọ tm kiếm khng đnh chỉ số trang lin quan. Khng cho php đnh chỉ số trang chỉ định. Ngoi ra, n cn rt trang đ khỏi danh mục nếu được được đnh chỉ số. NOFOLLOW META Tag Bọ tm kiếm khng được theo đường dẫn URL nằm trong nội dung trang chỉ định. Gip chống lại nạn spam cc trang cho php viết bi hng tăng lin kết. Thẻ nofollow bo cho bọ tm kiếm biết bạn bỏ qua cc lin kết trỏ đến cc trang bn ngoi trong nội dung trang chứ thẻ META tags nofollow. NOSNIPPET META Tag Yu cầu bọ tm kiếm khng hiển thị snippets trong kết quả tm kiếm đối với trang ny. Loại bỏ phần m tả snippet ra khỏi trang kết quả tm kiếm. NOARCHIVE META Tag Cấm khng cho bọ tm kiếm được hiển thị bản sao trang web trong bộ nhớ cache đối với trang sử dụng thẻ ny. Khng cho php người dng xem phin bản copy chứ trong bộ nhớ của my tm kiếm. NOODP META Tag Yu cầu my tm kiếm khng được sử dụng tiu đề (title) v snippets từ cc danh bạ Web - Open Directory Project cho trang được chỉ định. khng sử dụng ODP - Open Directory Project, tiu đề v phần m tả snippets trong kết quả tm kiếm cho trang ny. Cc qui ước trn được p dụng cho cc loại ti nguyn khc nhau trn Website. Chng c thể được đặt trong một trang HTMK hay với HTTP header cho cc trang khng c nội dung l HTML, v dụ cc tệp tin PDF, Video, ect. (X-Robots-Tag).
Một số qui ước REP khc

Cc qui ước trn đều được sử dụng cho Microsofts, Google v Yahoo. Tuy nhin chng khng được p dụng cho tất cả cc my tm kiếm khc. Ngoi ra, cn c một số qui ước được Google sử dụng nhưng lại khng được cc my tm khc hỗ trợ :
UNAVAILABLE_AFTER Meta TagThng bo cho bọ tm kiếm thời hạn của trang. V dụ ngy m trang đ khng cn c hiệu lực v sẽ khng xuất hiện trong kết quả tm kiếm.NOIMAGEINDEX Meta TagYu cầu bọ tm kiếm khng qut cc files ảnh trong trang được chỉ định v hiển thị trong kết quả tm kiếm.NOTRANSLATE Meta TagYu cầu bọ tm kiếm khng được dịch nối dung của trang sang một ngn ngữ khc trong kết quả tm kiếm. Robots v Search Engine Optimization

Ngoi những ứng dụng đ nhắc ở phần trn th lợi ch của robots trong quảng b web rất l lớn. Đặc biệt phải kể đến ứng dụng của REP trong việc tối ưu ha Website cho cng cụ tm kiếm (Search Engine Optimization).
Lấy v dụ một Blog, th việc thng tin c thể được truy cập v hiển thị qua nhiều đường dẫn khc nhau lm pht sinh nhiều nội dung trng lặp (Duplicate Content) (qua category, tags, archive, RSS). Bạn c thể loại trừ cc nội dung trong phần tags, archive hay RSS bằng cch ứng dụng Robots. Nếu sử dụng robots.txt, bạn c thể sử dụng lệnh sau trong blog WordPress của bạn.
User-agent: *
Disallow: */trackback*
Disallow: /wp-*
Disallow: */feed*
Disallow: /20*
Disallow: /page/
Allow: / Ngoi ra bạn c thể dng thẻ META tag. Vấn đề ứng dụng REP cho Blog, Forum mnh sẽ quay trở lại sau trong một chủ đề lin quan.
Ngoải ra, bạn c thể sử dụng dng lệch sitemap để gip bọ tm kiếm tiếp cận với cấu trc, nội dung mới của trang Web bằng việc thm đường dẫn Sitemap XML v Feed RSS trong file robots.txt. V dụ :
Sitemap: http://aevn.fr/indexsitemap_invm.xml.gz
Sitemap: AEVN - Sinh Vien du hoc
Sitemap: Sinh vien Viet Nam - Hoc tap - Giai tri
__________________
cho mừng đến với site của tớ
www.get2you.com
Reply With Quote
  #3 (permalink)  
Old 14-08-2008
get2you's Avatar
Advanced Member
 
Join Date: Jul 2008
Posts: 115
Thanks: 7
Thanked 3 Times in 3 Posts
Default Phỏng vấn Matt Cutts về trng lặp nội dung - Duplicate Content


Hội nghị PubCon

Trong hội nghị PubCon (một diễn đn lớn cho những chuyn gia về SEO) , Matt Cutts - sếp, nhn vin nổi tiếng của Google, chi nhnh chống thư rc, spam đ đồng trả lời phỏng vấn Stephan Spencer - một chuyn gia quảng co trực tuyến theo blog c nhn của tc giả.
Xung quanh cuộc phỏng vấn ny, c rất nhiều thng tin th vị v c ch cho giới SEO, nn tớ xin php tm lược lại vi điểm chnh sau :

Matt Cutts trả lời về Duplicate Content

  • Stephan Spencer : Xin cho, ti c vi cu hỏi mong muốn được anh trả lời Matt. Trước tin khi một bi viết hay một thng tin của tc giả no đ được pht đi (lường tin RSS) hoặc đăng tải bằng cch khc. Liệu c tốt hơn khng khi bản cp py trỏ tới địa chỉ của bi viết gốc trn trang của chnh tc giả hay cũng như nhau khi chỉ trỏ lin kết tới trang chủ của tc giả thi ?
  • Matt Cutts :
    • Ti khuyn cc bạn nn trỏ lin kết tới địa chỉ của bi viết gốc trn chnh trang của tc giả. L do l : Thừ hnh dung xem nếu anh viết một bi hay, rồi lại quyết định đăng lại ở chỗ khc. Tất nhin t c khả năng l bi viết ny nhn được nhiều link trỏ đến v c thm PageRank. V như vậy khi bọ tm kiếm Google hoặc hệ thống Google định vị v đnh chỉ số những trang ny, sẽ thấy hai bản cp py của cng một bi viết. Trong phần lớn cc trường hợp, việc trỏ link như trn sẽ gip người ta biết được đu l bi viết nguyn bản (được đăng tải đầu tin); bi viết m c PageRank cao hơn.
    • Bời vậy, khi một bi viết được đăng tải lại đu đ nn c lin kết trỏ tới bản gốc, d rất kh c thể đảm bo rằng lin kết nguyn bản c thứ hạng PageRank cao hơn khi so snh với tất cả cc chế bản khc. Việc ny cũng tạo thuận lợi cho chng ti xc định nội dung kp (Duplicate Content) để kết lun rằng Bạn biết khng ? Đy l bản gốc đấy; Bản tốt đ, hy xem bản đ đi !.
Nhận xt c nhn

Điều lm tớ ngạc nhin nhất trong đoạn phỏng vấn trn đ l khi Matt Cutts ni rằng kết quả phụ thược vo thứ hạng PageRank. Mnh đ khng nghĩ rằng PageRank lại đng vai tr quan trọng đến khi thế; V c rất nhiều trang c vị tr trong trang kết quả cao hơn d PageRank thấp hơn cc trang khc cho cng một từ kha tm kiếm.
Nhưng kiểu g th mnh cũng rt ra kết luận (sẽ viết một bi về nội dung kp thủ thuật WordPress chi tiết hơn ): phải đặt kha MORE cao hơn nữa trong cc bi viết, nhất l khi kch hoạt cc chức năng lung tin RSS Feed
Bi viết tổng hợp của Hoi Nam - vietSEO
[tags]blog, Duplicate Content, Google, Matt Cutts,PubCon, SEO, Stephan, trng lặp nội dung, Spencer,wordpress,vietnam, webmaster,hoai nam[/tags]
Bi viết cng chủ đề lin quan

  1. Thảo luận Webmaster sau phỏng vấn Matt Cutts về trng lặp nội dung
    Sau cuộc phỏng vấn Matt Cutts về trng lặp nội dung ko di khoảng nửa tiếng đồng hồ, rất nhiều kiến đ được nu ra cng nhiều tranh luận,...
  2. Chỉ mục bổ sung v nội dung trng lặp
    Nhiều webmaster nghĩ rằng nội dung cuối cng cũng chẳng c gi trị g trong chỉ mục bổ sung (supplemental index) nhưng giảm số lượng trang trong chỉ mục...
  3. Google cập nhật PageRank Toolbar thng 7 2008
    Trn một số diễn đn ((Digital Forum : Google PageRank Update : july 2008?)) v Website của nhn vin Google ((Blog Matt Cutts : New Toolbar PageRanks coming)) thng bo...
  4. Nội dung kp v phương php pht hiện mới của Google
    Google khng thch cc nội dung kp. L do l Google muốn trong trang kết quả tm kiếm, mười kết quả đầu tin sẽ l mười trang khc nhau với...
__________________
cho mừng đến với site của tớ
www.get2you.com
Reply With Quote
  #4 (permalink)  
Old 14-08-2008
get2you's Avatar
Advanced Member
 
Join Date: Jul 2008
Posts: 115
Thanks: 7
Thanked 3 Times in 3 Posts
Default Robots.txt disallows Web Robot, User-agent

Như cc bạn đ biết, để đnh chỉ số một trang Web th cc my tm kiếm thường gửi cc bọ tm kiếm tới viếng thăm trang Web cần được chỉ số ha. Ngoi việc sử dụng thẻ Meta Tag Robots, th bạn c thể ứng dụng một file text đặc biệt đặt tại thư mục gốc của tn miền để điều chỉnh ứng xử của bọ tm kiếm (trường hợp ứng dụng cho Google xem Google Robots). Bi viết ny vietSEO v cc bạn sẽ cng phn tch ứng dụng của file robots.txt ny.

Giới thiệu Robots.txt

Như đ viết ở trn, khi đnh chỉ số một trang Web th cc bọ tm kiếm sẽ kiểm tra nội dung một tệp tin đặc biệt đặt tại thư mục gốc tn l robots.txt. Tệp tin ny chứa hon ton nội dung văn bản text (khng phải HTML). Robots.txt được hiểu với nghĩa l Robots Exclusion Protocol; n cho php người quản trị Web (Webmaster) định ra cc thnh phần với quyền hạn ring biệt cho từng bọ tm kiếm. Ni cch khc thng qua tệp tin ny, Webmaster sẽ giao tiếp với bọ tm kiếm để điều khiển tc vụ của cc bọ tm kiếm ni trn.
C php trong Robots.txt

C php dng trong tệp tin ny thường dng để cấm robots (bọ tm kiếm) qut cc trang m đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm c tn của bọ tm kiếm (user agent hay robot) v đường dẫn m n khng được qut. V thường l bạn khng thể chỉ định ra thư mục nhất định hay l cc loại tệp tin m bọ tm kiếm c thể đnh chỉ số. Nn nhớ rằng, ngầm định, cc robots c thể truy cập bất kể thư mục no theo đường dẫn URL khng được cấm trong tệp tin robots.txt. Tất cả mọi ti nguyn khng bị cấm th đều c thể được truy cập.
Bạn c thể hiển thị file robots.txt chỉ đơn giản bằng trnh duyệt ( http://vietseo.net/robots.txt ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu.
Xin ni thm rằng Google gần đy c hỗ trợ c php Sitemap trong robots.txt cho php chỉ định sơ đồ Web (Sitemap XML) trong robots.txt
V dụ phần c php Sitemap được chỉ định trong fie robots.txt trn vietSEO như sau :
[source:html]
#BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.vietseo.net/sitemaps.xml.gz
#END XML-SITEMAP-PLUGIN
[/source]
Ứng dụng robots.txt

Đy l ton bộ ti liệu lin quan tới chuẩn loại trừ Robot, m theo l thuyết th tất cả cc robots đề phải tun theo cc chỉ định trong file robots.txt.
Sử dụng file robots.txt C php Ghi ch cho Webmaster User-agent: *
Disallow: Dấu (*) c nghĩa l p dụng cho mọi robots. Nhưng v khng c ti nguyn no bị cấm nn thnh ra tất cả mọi thư mục đề được cho php. User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/ Tất cả mọi robots đều c quyền truy cập tất cả cc thư mục trừ ba thư mục được trch dẫn pha sau. User-agent: SpamBot
Disallow: / Trường hợp ny robot SpamBot bị cấm truy cập tất cả thư mục. Dấu gạch cho / c nghĩa l tất cả cc thư mục.User-Agent c thể l k tự đơn v cc robots khng phần biệt chữ hoa v chữ thường. User-agent: SpamBot
Disallow: /

User-agent: *
Disallow: /private/
Để bắt đầu chỉ định mới th bạn hy đặt một dng trắng. SpamBot bị cấm truy cập tất cả ti nguyn. Trong khi cc robots khc được được truy cập tất cả trừ thư mục private. User-agent: SpamBot
Disallow: /tmp/
Disallow: /private/
Disallow: /tailieu/canhan.html

User-agent: *
Disallow: /tmp/
Disallow: /private/
Khng cho php SpamBot d cc thư mục được liệt k pha sau : thư mục tmp, private v tệp tin canhan.html trong thư mục tailieu.
Cc bọ tm kiếm cc được d mọi thứ trừ hai thư mục tmp v private. Sử dụng sai - Phản v dụ Cc cch dng sai syntax v file robots.txt
User-agent: *
Disallow /
KHNG ! Đy l cch dng sai v thiếu dấu hai chấm : sau disallow. User-agent: *
Disallow: *
KHNG ! Nếu muốn cấm ton bộ mọi thứ th hy sử dụng k tự gạch ngang / (chỉ định thư mục gốc) User-agent: sidewiner
Disallow: /tmp/
KHNG ! Robots sẽ bỏ qua cc tn sai của User Agent. Hy xem file logs trn server hoặc xem thm danh sch User Agent names. User-agent: *
Disallow: /tmp/

User-agent: SpamBot
Disallow: /tailieu/canhan.html
Disallow: /tmp/
KHNG ! Robots đọc theo thứ tự từ trn xuống dưới v n sẽ dng lại khi tm thấy phần văn bản lin quan tới n. Bởi vậy SpamBot sẽ dừng ngay tại bảng ghi đầu tin với dấu sao * m khng cần đến bảng ghi tiếp theo dnh ring cho n. Ngoi ra, bạn c thể ưng dụng file robots.txt trong việc ngăn ngừa phần no cc robots c hại, mang tnh chất spam, email extractor hay nhằm giảm nội dung trng lặp, loại bỏ đường dẫn URL đ bị đnh chỉ số. Chng ta sẽ trở lại vấn đề ny trong cc bi viết với từng chủ đề lin quan.
Danh sch User Agent Names

Cc User Agent của Google

Google thường sử dụng vi User Agent cho từng dịch vụ ring của mnh. Bạn c thể chỉ định từng dng User Agent ring rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn tất cả cc User Agent bắt đầu bằng Goooglebot
  • Googlebot: Đnh chỉ số cc trang Web v cập nhật cc trang mới trong cơ sở dữ liệ của Google
  • Googlebot-Mobile: Đnh chỉ số cc trang cho dịch vụ mobile (cc thiết bị di động, cầm tay)
  • Googlebot-Image: Đnh chỉ số cc trang cho tm kiếm file ảnh.
  • Mediapartners-Google: Đnh chỉ số trang để xc định nội dung cho Google Adsense. Bọ tm kiếm ny chỉ xuất hiện trn cc trang sử dụng dịch vụ quảng co trực tuysn Google Adsense.
  • Adsbot-Google: Đnh chỉ số cc trang để xc định chất lượng của cc trang AdWords. Bọ ny chỉ được sử dụng nếu trang của bạn sử dụng dịch vụ quảng co Adwords dnh cho cc nh quảng co sản phẩm dịch vụ của họ..
Cc User Agent khc

Đy l một số danh sch cc User-Agent m bạn c thể tham khảo như đ viết ở trn :
  1. Web Robots Database : Chứa tan bộ cc robots active;
  2. Search Engine Robots : Danh sch chứa tt cả my tm kiếm, bọ tm kiếm v thng tin về đường dẫn, cập nhập.
__________________
cho mừng đến với site của tớ
www.get2you.com
Reply With Quote
Reply

Thread Tools
Display Modes

Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is On
HTML code is Off
Trackbacks are On
Pingbacks are On
Refbacks are On

LinkBacks (?)
LinkBack to this Thread: http://hackingart.com/quang_ba_thuong_hieu/270-googlebot_va_robots_txt_allow_disallow.html
Posted By For Type Date
Vi?t l?i ???ng d?n URL (mod_rewrite, .htaccess, Apache) This thread Refback 14-08-2008 11:32 AM


All times are GMT +1. The time now is 11:37 PM.


Diễn đn HackingArt (HA) được xy dựng v pht triển bởi cc thnh vin.
+ Diễn đn HackingArt l nơi trao đổi của cc webmaster chuyn nghiệp.