如何采集post分页的数据？

如题所述

推荐答案 2011-06-15

# -*- coding: utf-8 -*-
from pyquery import PyQuery as pq
import urllib
import urllib2
import threading

class Spider(threading.Thread):
"""
A Python Spider
"""
def __init__(self, ad=''):
threading.Thread.__init__(self)
self.__viewstate = ''
self.__Url = '' #要访问的地址
self.__Total =0
def run(self):
self.firstCollect()

def firstCollect(self):
"""

"""
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Referer": "",#有些加入了来路判断，那这个就是必需要加的了
"Accept-Language": "zh-cn",
"Content-Type": "application/x-www-form-urlencoded",
"Accept-Encoding": "gzip, deflate",
"User-Agent": "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)",
"Connection": "Keep-Alive",
"Cache-Control": "no-cache"
}
body = {
'__EVENTTARGET':'SearchResult',#请根据具体参数来设置
'__EVENTARGUMENT':1,#
'__VIEWSTATE':self.__viewstate,
#如果有其它条件请在这里添加，这个用httpfox或者其它工具一下就能看出来了
}
opener = urllib2.build_opener()
urllib2.install_opener(opener)
request = urllib2.Request(
url=self.__Url,
data=urllib.urlencode(body),
headers=headers
)
response = urllib2.urlopen(request)
content = response.read()
dom = pq(content)
self.__viewstate = dom('#__VIEWSTATE').val()
self.__Total = dom('#TotalNum').html()
print self.__Total
for taga in dom('.Result'):
print "WorkThread %s Get Data %s" %( self.getName(),pq(taga)('a:first').attr('id'))
#这里请根据具体要抓取的dom路径来写

一般来讲 asp.net中的postback的分页都要提供 __EVENTTARGET、__EVENTARGUMENT、__VIEWSTATE这三个参数，前两个一般都是有规律的，后面这个就比较麻烦，每次的提交得到的都不同，所以要在每次提交分页前把当前页的__VIEWSTATE取到！
这里以线程的方式实现spider主要是考虑到多线程采集，每个采集任务一个线程！
前段时间写的使用C#实现的POST分页的总不能实现，而已效率也是一大问题。这个效率明显比C#的要好的多，接下来还想学习下python的GUI编程，以便更方便的设置采集计划。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://88.wendadaohang.com/zd/gcBc1BBcB.html

其他回答

第1个回答 2011-06-15

我最近买了一套数据抓取软件powercap，加密网站数据也能抓，也是别人推荐的，有试用版本的，你可以先试试。火车头采集器---最好用的采集器，网上

相似回答

请教分页查询post方式如何完成答：你可以把查询到的所有数据放入table、list等数据结构中，然后，新建变量如：pageNum=20（每页的记录数），然后根据这个数目将n条数据分割，得到分页号。然后根据分页号，浏览每页数据。

分页用POST应该怎么处理答：解决方案：使用$_REQUEST代替$_POST，$_REQUEST既可用于POST方法传递来的参数也可用于GET方法传递的参数 step2 对form的post参数在换页时要重新传递

...mdb 数据库带分页,挺简单的,就是分页用post实现的,师兄们帮我看看...答：1、改html部分的代码,把form表单post方式提交改成get方式提交他的代码里有两个form表单,快速找到这两处代码的方法是搜method 把post改成get就可以了 2、改asp部分的代码,asp专门获取get参数是用Request.QueryString ，专门获取post参数值是用Request.Form ，get参数和post参数都能获取的是用Request ...

网页如何分页显示网页如何分页显示内容答：返回顶部”按钮。网络爬虫如何爬取分页的页面数据？一般简单的网页通过get参数进行分页这种情况就通过构造url来进行分页，有些网站是通过post参数来进行分页，那就用代码post的相应的参数给网站，比较复杂的ajax的分页需要通过抓包来实现。可以找某宝中的楚江数据，可以代写爬虫，也可以直接让他们爬取数据。

分页时get与post提交答：一般表单提交用post提交方式。分页一般用get方式足够了。post提交方式安全些一般提交数据量大的时候用post提交方式

django分页后查询丢失答：一般分页查询用GET方法，在查询URL里面把查询参数除Page参数以外的保留，然后对page参数做相应+1，-1处理即可，然后处理完的page参数再和URL的其它部分构成分页的下一页，上一页链接URL。

如何实现分页如何实现ajax分页.使用ajax实现页面分页答：javascript实现json页面分页实例代码？用jqueryajax异步技术（$.post））提交页面显示记录的条数（pageSize）以及要显示的是第几页（pageNo）到服务器，服务器根据这条数进数据库去查询数据（MySQL数据库用limit，Oracle用rownum伪列来实现分页查询），前台pageNo每次加一。分页所需要的页数等于数据库中查询到...

透彻掌握ASP分页技术答：接下来以实例的方式告诉大家怎么一步步的做出这种分页效果首先数据库中字段record_info存在于info表中（实例下载中有数据库）先链接数据库并将一个记录集打开以下代码 <%Set conn=Server CreateObject( Adodb Connection )connstr= provider=Microsoft JET OLEDB ;Data Source= &Server MapPath( data...

大家正在搜

autopost采集 auto post 重新采集 auto post 自动采集 mysql大数据分页优化数据库分页 java大数据表分页大数据分页查询慢 excel数据透视表分页怎么弄数据透视表分页在哪