如何禁止别人爬虫小程序代码

如题所述

推荐答案 2017-12-09

Robots.txt - 禁止爬虫
robots.txt用于禁止网络爬虫访问网站指定目录。robots.txt的格式采用面向行的语法：空行、注释行（以#打头）、规则行。规则行的格式为：Field: value。常见的规则行：User-Agent、Disallow、Allow行。
User-Agent行
User-Agent: robot-name
User-Agent: *
Disallow和Allow行
Disallow: /path
Disallow:           # 空字符串，起通配符效果，全禁止
Allow: /path
Allow:              # 空字符串，起通配符效果，全允许
搜索引擎的User-Agent对应名称

搜索引擎
User-Agent值
Google googlebot
百度 baiduspider
雅虎 slurp
MSN msnbot
Alexa is_archiver
我在Linux上抓包观察到的一些搜索引擎访问记录：
# tcpdump -n -nn -A -l -s1024 'tcp port 80'|grep User-Agent
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
User-Agent: Googlebot-Image/1.0
User-Agent: Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 5 subscribers; feed-id=4619555564728728616)
User-Agent: Mozilla/5.0(compatible; Sosospider/2.0; +http://help.soso.com/webspider.htm)
User-Agent: Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )
User-Agent: Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)
JikeSpider是即刻搜索（人民搜索）。
robots.txt的补充
如果你没有对网站根目录的写入权限（无法建立robots.txt文件），或你想要某个指定的网页不被搜索引擎收录，可以使用元标签阻止爬虫访问：
<meta name="robots" content="noindex">              
<meta name="googlerobot" content="noindex">         
robots元标记的默认值为"index,follow"，它的取值可以是（来自Google站长帮助）：
noindex防止网页被编入索引。nofollow防止googlebot从此页面中跟踪链接。noarchive防止Google显示网页的快照链接。noimageindex不被Google图片搜索索引。
现实中的robots.txt
淘宝屏蔽百度
淘宝屏蔽了百度抓取（2008年9月），http://www.taobao.com/robots.txt的内容：
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
百度与360的搜索引擎之争
2012年8月，360推出搜索引擎，并与百度发生正面冲突。百度工程师跑出来说360违反robots协议，偷窃百度内容。以百度知道为例，http://zhidao.baidu.com/robots.txt的内容大致是这样：
User-agent: Baiduspider
Disallow: /w?
Allow: /
User-agent: Googlebot
User-agent: MSNBot
User-agent: Baiduspider-image
User-agent: YoudaoBot
User-agent: Sogou web spider
User-agent: Sogou inst spider
User-agent: Sogou spider2
User-agent: Sogou blog
User-agent: Sogou News Spider
User-agent: Sogou Orion spider
User-agent: JikeSpider
User-agent: Sosospider
Allow: /
User-agent: *
Disallow: /
也就是说对360爬虫而言，应该走最后一条规则，也就是禁止抓取百度知道所有内容。但从360搜索看，有百度知道的内容。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://88.wendadaohang.com/zd/MMKagBVgScSgBtMVgMB.html

相似回答

爬虫小程序是什么答：爬取网络信息的程序。爬虫是用户自行编辑的拥有网络信息爬取功能的小程序。所以爬虫小程序就是爬取网络信息的程序。在互联网领域，爬虫一般指抓取众多公开网站网页上数据的相关技术。

如何自动检测微信小程序是否有余票答：有以下步骤：1、使用编程语言中的网络爬虫库，来模拟访问微信小程序并获取页面内容。2、找到微信小程序的请求接口或API，通过发送HTTP请求获取小程序的相关数据。3、解析接口返回的数据，提取出余票信息以及其他相关的数据字段。4、根据需求，判断余票信息是否满足条件。可以设置规则，例如判断某个关键词是否...

微信小程序爬虫和网页爬虫的区别答：微信小程序爬虫和网页爬虫的抓包工具不同。根据查询相关资料信息，网页版可以使用浏览器F12抓包，微信小程序需要采用抓包工具如charles抓包。

4种Python爬虫(3. 微信小程序,如,超级猩猩)答：4. 手机APP爬虫爬取超级猩猩的课表，该平台仅提供了微信小程序这一个途径，前面两种针对html网页的爬取方式都不再适用。采用抓包分析是我们制定方案的第一步。我用的Mac电脑，fiddler只有一个简化版，所以另找了Charles这个类似的软件。启动Charles的代理，在手机WIFI中设置好对应的代理就可以开抓了。

用URL类写了一个网页爬虫的小程序,中间并没有多大的问题,只是有点瑕疵...答：我觉得楼上的效果应该有限，直接在所有的＞符号后面加/n效果可能会更好

已知wx小程序用js开发,能不能在小程序加入Python写的一些功能,比如说爬 ...答：可以的，有些网盘资源搜索的小程序，就是这样做的。比如python-django,小程序输入关键字，发送请求给你的服务器， views.py 中可以接收到你发送的关键字，然后就可以调用爬虫程序，最后把爬虫结果符合给小程序。

小程序云函数能写爬虫吗答：可以。相当于云端的接口，云函数语言是JavaScript，云函数的运行环境，目前是nodejs8.9，可以写爬虫或者写其他需要服务端才能写的功能。云函数就是一段运行在云端的代码，相当于小程序服务端的后台代码，不需要管理服务器，小程序端写代码，一键上传部署运行这些代码。

怎样将PC端网络爬虫抓取的内容发送到用户手机微信上?答：如果您希望将采集到的数据发送到用户手机微信上，可以通过以下步骤实现：1. 将采集到的数据保存为Excel、CSV或JSON文件。2. 使用微信开发者工具或第三方开发工具，开发一个微信小程序或公众号应用。3. 在小程序或公众号应用中，编写代码实现读取保存的数据文件，并将数据展示在小程序或公众号页面上。4....