您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

Python爬蟲多線程抓取代理服務器

Python作為一門功能強大的腳本語言來說，經常被用來寫爬蟲程序，下面是Python爬蟲多線程抓取代理服務器

首先通過谷歌把包含代理服務器地址的網頁查出來，我選擇從 http://www.88181.com/ 這個網站上去抓，在它上面了爬了800個代理（選擇的8個頁面）
#!/usr/bin/env python
#coding:utf-8

import urllib2
import re
import threading
import time

rawProxyList = []
checkedProxyList = []

#抓取代理網站
portdicts ={'v':"3",'m':"4",'a':"2",'l':"9",'q':"0",'b':"5",'i':"7",'w':"6",'r':"8",'c':"1"}
targets = []
for i in xrange(1,9):
target = r"http://www.88181.com/proxy%d.html" % i
targets.append(target)
#print targets

#正則
p = re.compile(r'''<tr><td>(.+?)<SCRIPT type=text/javascript>document.write\(":"\+(.+?)\)</SCRIPT></td><td>(.+?)</td><td>.+?</td><td>(.+?)</td></tr>''')

#獲取代理的類
class ProxyGet(threading.Thread):
def __init__(self,target):
threading.Thread.__init__(self)
self.target = target

def getProxy(self):
print "目標網站： " + self.target
req = urllib2.urlopen(self.target)
result = req.read()
#print chardet.detect(result)
matchs = p.findall(result)
for row in matchs:
ip=row[0]
port =row[1]
port = map(lambda x:portdicts[x],port.split('+'))
port = ''.join(port)
agent = row[2]
addr = row[3].decode("cp936").encode("utf-8")
proxy = [ip,port,addr]
#print proxy
rawProxyList.append(proxy)

def run(self):
self.getProxy()

#檢驗代理的類
class ProxyCheck(threading.Thread):
def __init__(self,proxyList):
threading.Thread.__init__(self)
self.proxyList = proxyList
self.timeout = 5
self.testUrl = "http://www.baidu.com/"
self.testStr = "030173"

def checkProxy(self):
cookies = urllib2.HTTPCookieProcessor()
for proxy in self.proxyList:
proxyHandler = urllib2.ProxyHandler({"http" : r'http://%s:%s' %(proxy[0],proxy[1])})
#print r'http://%s:%s' %(proxy[0],proxy[1])
opener = urllib2.build_opener(cookies,proxyHandler)
opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0')]
#urllib2.install_opener(opener)
t1 = time.time()

try:
#req = urllib2.urlopen("http://www.baidu.com", timeout=self.timeout)
req = opener.open(self.testUrl, timeout=self.timeout)
#print "urlopen is ok...."
result = req.read()
#print "read html...."
timeused = time.time() - t1
pos = result.find(self.testStr)
#print "pos is %s" %pos

if pos > 1:
checkedProxyList.append((proxy[0],proxy[1],proxy[2],timeused))
#print "ok ip: %s %s %s %s" %(proxy[0],proxy[1],proxy[2],timeused)
else:
continue
except Exception,e:
#print e.message
continue

def run(self):
self.checkProxy()

if __name__ == "__main__":
getThreads = []
checkThreads = []

#對每個目標網站開啟一個線程負責抓取代理
for i in range(len(targets)):
t = ProxyGet(targets[i])
getThreads.append(t)

for i in range(len(getThreads)):
getThreads[i].start()

for i in range(len(getThreads)):
getThreads[i].join()

print '.'*10+"總共抓取了%s個代理" %len(rawProxyList) +'.'*10

#開啟20個線程負責校驗，將抓取到的代理分成20份，每個線程校驗一份
for i in range(20):
t = ProxyCheck(rawProxyList[((len(rawProxyList)+19)/20) * i:((len(rawProxyList)+19)/20) * (i+1)])
checkThreads.append(t)

for i in range(len(checkThreads)):
checkThreads[i].start()

for i in range(len(checkThreads)):
checkThreads[i].join()

print '.'*10+"總共有%s個代理通過校驗" %len(checkedProxyList) +'.'*10

#持久化
f= open("proxy_list.txt",'w+')
for proxy in sorted(checkedProxyList,cmp=lambda x,y:cmp(x[3],y[3])):
print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])
f.write("%s:%s\t%s\t%s\n"%(proxy[0],proxy[1],proxy[2],proxy[3]))
f.close()部分log：目標網站： http://www.88181.com/proxy1.html
目標網站： http://www.88181.com/proxy2.html
目標網站： http://www.88181.com/proxy3.html
目標網站： http://www.88181.com/proxy4.html
目標網站： http://www.88181.com/proxy5.html
目標網站： http://www.88181.com/proxy6.html
目標網站： http://www.88181.com/proxy7.html
目標網站： http://www.88181.com/proxy8.html
..........總共抓取了800個代理..........
..........總共有478個代理通過校驗.........
173.213.113.111:8089 United States 0.341555833817
173.213.113.111:3128 United States 0.347477912903
210.101.131.232:8080 韓國首爾 0.418715000153
.....

上一篇文章： Python通過代理多線程抓取圖片
下一篇文章： C++模板函數聲明定義分離編譯錯誤詳解

Linux編程

代理服務器的問題

高性能、多線程的高速Web代理服務器--OOPS!