博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
使用python进行web抓取 Web Scraping with Python
阅读量:6091 次
发布时间:2019-06-20

本文共 14901 字,大约阅读时间需要 49 分钟。

hot3.png

前言

网页抓取适合收集和处理大量的数据。超越搜索引擎,比如能找到最便宜的机票。

API能提供很好的格式化的数据。但是很多站点不提供API,无统一的API。即便有API,数据类型和格式未必完全符合你的要求,且速度也可能太慢。

应用场景:市场预测、机器语言翻译、医疗诊断等。甚至时艺术,比如

本文基于python3,需要python基础。

代码下载:

第一个网页抓取 

连接

from urllib.request import urlopenhtml = urlopen("http://www.pythonscraping.com/exercises/exercise1.html")print(html.read())

执行结果:

$ python3 1-basicExample.py b'\n\nA Useful Page\n\n\n

An Interesting Title

\n
\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n
\n\n\n'

BeautifulSoup简介

from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/page1.html")bsObj = BeautifulSoup(html.read(), 'lxml');print(bsObj.h1)

执行结果:

$ python3 2-beautifulSoup.py 

An Interesting Title

HTML代码层次如下:

• html → ......    — head → A Useful Page<title></head>        — title → <title>A Useful Page    — body → 

An Int...

Lorem ip...
        — h1 → 

An Interesting Title

        — div → 
Lorem Ipsum dolor...

注意这里bsObj.h1和下面的效果相同:

bsObj.html.body.h1bsObj.body.h1bsObj.html.h1

urlopen容易发生的错误为:

•在服务器上找不到该页面(或获取错误), 404或者500

•找不到服务器

都体现为HTTPError。可以如下方式处理:

try:    html = urlopen("http://www.pythonscraping.com/pages/page1.html")except HTTPError as e:    print(e)    #return null, break, or do some other "Plan B"else:    #program continues. Note: If you return or break in the    #exception catch, you do not need to use the "else" statement

 

 

 

 

 

说明

本文摘要自Web Scraping with Python - 2015

书籍下载地址:

源码地址:

演示站点:

演示站点代码:

推荐的python基础教程: 

HTML和JavaScript基础: 

本文博客:

本文网址:

 交流:python开发自动化测试群291184506 PythonJava单元白盒测试群144081101

web抓取简介

  • 为什么要进行web抓取?

网购的时候想比较下各个网站的价格,也就是实现惠惠购物助手的功能。有API自然方便,但是通常是没有API,此时就需要web抓取。

  • web抓取是否合法?

抓取的数据,个人使用不违法,商业用途或重新发布则需要考虑授权,另外需要注意礼节。根据国外已经判决的案例,一般来说位置和电话可以重新发布,但是原创数据不允许重新发布。

更多参考:

  • 背景研究

    robots.txt和Sitemap可以帮助了解站点的规模和结构,还可以使用谷歌搜索和WHOIS等工具。

比如:http://example.webscraping.com/robots.txt
 

# section 1User-agent: BadCrawlerDisallow: /# section 2User-agent: *Crawl-delay: 5Disallow: /trap # section 3Sitemap: http://example.webscraping.com/sitemap.xml

更多关于web机器人的介绍参见 。

Sitemap的协议: ,比如:
 

http://example.webscraping.com/view/Afghanistan-1
http://example.webscraping.com/view/Aland-Islands-2
http://example.webscraping.com/view/Albania-3
...

站点地图经常不完整。

站点大小评估:

通过google的site查询 比如:site:automationtesting.sinaapp.com
站点技术评估:

# pip install builtwith# ipythonIn [1]: import builtwithIn [2]: builtwith.parse('http://automationtesting.sinaapp.com/')Out[2]: {u'issue-trackers': [u'Trac'], u'javascript-frameworks': [u'jQuery'], u'programming-languages': [u'Python'], u'web-servers': [u'Nginx']}

 

分析网站所有者:

# pip install python-whois# ipythonIn [1]: import whoisIn [2]: print whois.whois('http://automationtesting.sinaapp.com'){  "updated_date": "2016-01-07 00:00:00",   "status": [    "serverDeleteProhibited https://www.icann.org/epp#serverDeleteProhibited",     "serverTransferProhibited https://www.icann.org/epp#serverTransferProhibited",     "serverUpdateProhibited https://www.icann.org/epp#serverUpdateProhibited"  ],   "name": null,   "dnssec": null,   "city": null,   "expiration_date": "2021-06-29 00:00:00",   "zipcode": null,   "domain_name": "SINAAPP.COM",   "country": null,   "whois_server": "whois.paycenter.com.cn",   "state": null,   "registrar": "XIN NET TECHNOLOGY CORPORATION",   "referral_url": "http://www.xinnet.com",   "address": null,   "name_servers": [    "NS1.SINAAPP.COM",     "NS2.SINAAPP.COM",     "NS3.SINAAPP.COM",     "NS4.SINAAPP.COM"  ],   "org": null,   "creation_date": "2009-06-29 00:00:00",   "emails": null}

 

  • 抓取第一个站点

简单的爬虫(crawling)代码如下:

import urllib2def download(url):    print 'Downloading:', url    try:        html = urllib2.urlopen(url).read()    except urllib2.URLError as e:        print 'Download error:', e.reason        html = None    return html

可以基于错误码重试。HTTP状态码:。4**没必要重试,5**可以重试下。

import urllib2def download(url, num_retries=2):    print 'Downloading:', url    try:        html = urllib2.urlopen(url).read()    except urllib2.URLError as e:        print 'Download error:', e.reason        html = None        if num_retries > 0:            if hasattr(e, 'code') and 500 <= e.code < 600:                # recursively retry 5xx HTTP errors                return download(url, num_retries-1)    return html

  会返回500,可以用它来测试下:

>>> download('http://httpstat.us/500')Downloading: http://httpstat.us/500Download error: Internal Server ErrorDownloading: http://httpstat.us/500Download error: Internal Server ErrorDownloading: http://httpstat.us/500Download error: Internal Server Error

设置 user agent:

urllib2默认的user agent是“Python-urllib/2.7”,很多网站会对此进行拦截, 推荐使用接近真实的agent,比如

Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0

为此我们增加user agent设置:

import urllib2def download(url, user_agent='Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0', num_retries=2):    print 'Downloading:', url    headers = {'User-agent': user_agent}    request = urllib2.Request(url, headers=headers)        try:        html = urllib2.urlopen(request).read()    except urllib2.URLError as e:        print 'Download error:', e.reason        html = None        if num_retries > 0:            if hasattr(e, 'code') and 500 <= e.code < 600:                # recursively retry 5xx HTTP errors                return download(url, num_retries-1)    return html

 

爬行站点地图:

def crawl_sitemap(url):    # download the sitemap file    sitemap = download(url)    # extract the sitemap links    links = re.findall('
(.*?)
', sitemap)    # download each link    for link in links:        html = download(link)        # scrape html here        # ...

ID循环爬行:

•  http://example.webscraping.com/view/Afghanistan-1
•  http://example.webscraping.com/view/Australia-2
•  http://example.webscraping.com/view/Brazil-3
上面几个网址仅仅是最后面部分不同,通常程序员喜欢用数据库的id,比如:
http://example.webscraping.com/view/1 ,这样我们就可以数据库的id抓取网页。

for page in itertools.count(1):    url = 'http://example.webscraping.com/view/-%d' % page    html = download(url)    if html is None:        break    else:        # success - can scrape the result        pass

        
当然数据库有可能删除了一条记录,为此我们改进成如下:

# maximum number of consecutive download errors allowedmax_errors = 5# current number of consecutive download errorsnum_errors = 0for page in itertools.count(1):    url = 'http://example.webscraping.com/view/-%d' % page    html = download(url)    if html is None:        # received an error trying to download this webpage        num_errors += 1        if num_errors == max_errors:            # reached maximum number of            # consecutive errors so exit            break    else:        # success - can scrape the result        # ...        num_errors = 0

有些网站不存在的时候会返回404,有些网站的ID不是这么有规则的,比如亚马逊使用ISBN。       
 

分析网页

一般的浏览器都有"查看页面源码"的功能,在Firefox,Firebug尤其方便。以上工具都可以邮件点击网页调出。
抓取网页数据主要有3种方法:正则表达式、BeautifulSoup和lxml。
正则表达式示例:

In [1]: import reIn [2]: import commonIn [3]: url = 'http://example.webscraping.com/view/UnitedKingdom-239'In [4]: html = common.download(url)Downloading: http://example.webscraping.com/view/UnitedKingdom-239In [5]: re.findall('
(.*?)', html)Out[5]: ['
', '244,820 square kilometres', '62,348,447', 'GB', 'United Kingdom', 'London', '
EU', '.uk', 'GBP', 'Pound', '44', '@# #@@|@## #@@|@@# #@@|@@## #@@|@#@ #@@|@@#@ #@@|GIR0AA', '^(([A-Z]\\d{2}[A-Z]{2})|([A-Z]\\d{3}[A-Z]{2})|([A-Z]{2}\\d{2}[A-Z]{2})|([A-Z]{2}\\d{3}[A-Z]{2})|([A-Z]\\d[A-Z]\\d[A-Z]{2})|([A-Z]{2}\\d[A-Z]\\d[A-Z]{2})|(GIR0AA))$', 'en-GB,cy-GB,gd', '
IE 
']In [6]: re.findall('
(.*?)', html)[1]Out[6]: '244,820 square kilometres'

维护成本比较高。
Beautiful Soup:

In [7]: from bs4 import BeautifulSoupIn [8]: broken_html = '
  • Area
  • Population'In [9]: # parse the HTMLIn [10]: soup = BeautifulSoup(broken_html, 'html.parser')In [11]: fixed_html = soup.prettify()In [12]: print fixed_html
     
  •   Area  
  •    Population  
  •  In [13]: ul = soup.find('ul', attrs={'class':'country'})In [14]: ul.find('li') # returns just the first matchOut[14]: 
  • Area
  • Population
  • In [15]: ul.find_all('li') # returns all matchesOut[15]: [
  • Area
  • Population
  • Population
  • ]

    完整的例子:

    In [1]: from bs4 import BeautifulSoupIn [2]: url = 'http://example.webscraping.com/places/view/United-Kingdom-239'In [3]: import commonIn [5]: html = common.download(url)Downloading: http://example.webscraping.com/places/view/United-Kingdom-239In [6]: soup = BeautifulSoup(html)/usr/lib/python2.7/site-packages/bs4/__init__.py:166: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.To get rid of this warning, change this: BeautifulSoup([your markup])to this: BeautifulSoup([your markup], "lxml")  markup_type=markup_type))In [7]: # locate the area rowIn [8]: tr = soup.find(attrs={'id':'places_area__row'})In [9]: td = tr.find(attrs={'class':'w2p_fw'}) # locate the area tagIn [10]: area = td.text # extract the text from this tagIn [11]: print area244,820 square kilometres

    Lxml基于 libxml2(c语言实现),更快速,但是有时更难安装。网址:http://lxml.de/installation.html。
     

    In [1]: import lxml.htmlIn [2]: broken_html = '
  • Area
  • Population'In [3]: tree = lxml.html.fromstring(broken_html) # parse the HTMLIn [4]: fixed_html = lxml.html.tostring(tree, pretty_print=True)In [5]: print fixed_html
  • Area
  • Population
  • lxml的容错能力也比较强,少半边标签通常没事。

    下面使用css选择器,注意安装cssselect。

    In [1]: import commonIn [2]: import lxml.htmlIn [3]: url = 'http://example.webscraping.com/places/view/United-Kingdom-239'In [4]: html = common.download(url)Downloading: http://example.webscraping.com/places/view/United-Kingdom-239In [5]: tree = lxml.html.fromstring(html)In [6]: td = tree.cssselect('tr#places_area__row > td.w2p_fw')[0]In [7]: area = td.text_content()In [8]: print area244,820 square kilometres

    在 CSS 中,选择器是一种模式,用于选择需要添加样式的元素。

    "CSS" 列指示该属性是在哪个 CSS 版本中定义的。(CSS1、CSS2 还是 CSS3。)

    选择器 例子 例子描述 CSS
    .intro 选择 class="intro" 的所有元素。 1
    #firstname 选择 id="firstname" 的所有元素。 1
    * 选择所有元素。 2
    p 选择所有 <p> 元素。 1
    div,p 选择所有 <div> 元素和所有 <p> 元素。 1
    div p 选择 <div> 元素内部的所有 <p> 元素。 1
    div>p 选择父元素为 <div> 元素的所有 <p> 元素。 2
    div+p 选择紧接在 <div> 元素之后的所有 <p> 元素。 2
    [target] 选择带有 target 属性所有元素。 2
    [target=_blank] 选择 target="_blank" 的所有元素。 2
    [title~=flower] 选择 title 属性包含单词 "flower" 的所有元素。 2
    [lang|=en] 选择 lang 属性值以 "en" 开头的所有元素。 2
    a:link 选择所有未被访问的链接。 1
    a:visited 选择所有已被访问的链接。 1
    a:active 选择活动链接。 1
    a:hover 选择鼠标指针位于其上的链接。 1
    input:focus 选择获得焦点的 input 元素。 2
    p:first-letter 选择每个 <p> 元素的首字母。 1
    p:first-line 选择每个 <p> 元素的首行。 1
    p:first-child 选择属于父元素的第一个子元素的每个 <p> 元素。 2
    p:before 在每个 <p> 元素的内容之前插入内容。 2
    p:after 在每个 <p> 元素的内容之后插入内容。 2
    p:lang(it) 选择带有以 "it" 开头的 lang 属性值的每个 <p> 元素。 2
    p~ul 选择前面有 <p> 元素的每个 <ul> 元素。 3
    a[src^="https"] 选择其 src 属性值以 "https" 开头的每个 <a> 元素。 3
    a[src$=".pdf"] 选择其 src 属性以 ".pdf" 结尾的所有 <a> 元素。 3
    a[src*="abc"] 选择其 src 属性中包含 "abc" 子串的每个 <a> 元素。 3
    p:first-of-type 选择属于其父元素的首个 <p> 元素的每个 <p> 元素。 3
    p:last-of-type 选择属于其父元素的最后 <p> 元素的每个 <p> 元素。 3
    p:only-of-type 选择属于其父元素唯一的 <p> 元素的每个 <p> 元素。 3
    p:only-child 选择属于其父元素的唯一子元素的每个 <p> 元素。 3
    p:nth-child(2) 选择属于其父元素的第二个子元素的每个 <p> 元素。 3
    p:nth-last-child(2) 同上,从最后一个子元素开始计数。 3
    p:nth-of-type(2) 选择属于其父元素第二个 <p> 元素的每个 <p> 元素。 3
    p:nth-last-of-type(2) 同上,但是从最后一个子元素开始计数。 3
    p:last-child 选择属于其父元素最后一个子元素每个 <p> 元素。 3
    :root 选择文档的根元素。 3
    p:empty 选择没有子元素的每个 <p> 元素(包括文本节点)。 3
    #news:target 选择当前活动的 #news 元素。 3
    input:enabled 选择每个启用的 <input> 元素。 3
    input:disabled 选择每个禁用的 <input> 元素 3
    input:checked 选择每个被选中的 <input> 元素。 3
    :not(p) 选择非 <p> 元素的每个元素。 3
    ::selection 选择被用户选取的元素部分。 3

    CSS 选择器参见:http://www.w3school.com.cn/cssref/css_selectors.ASP 和 https://pythonhosted.org/cssselect/#supported-selectors。
    下面通过提取如下页面的国家数据来比较性能:

    163628_IGyI_1433482.jpg

     

    比较代码:

    import urllib2import itertoolsimport refrom bs4 import BeautifulSoupimport lxml.htmlimport timeFIELDS = ('area', 'population', 'iso', 'country', 'capital','continent', 'tld', 'currency_code', 'currency_name', 'phone','postal_code_format', 'postal_code_regex', 'languages','neighbours')def download(url, user_agent='Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0', num_retries=2):    print 'Downloading:', url    headers = {'User-agent': user_agent}    request = urllib2.Request(url, headers=headers)        try:        html = urllib2.urlopen(request).read()    except urllib2.URLError as e:        print 'Download error:', e.reason        html = None        if num_retries > 0:            if hasattr(e, 'code') and 500 <= e.code < 600:                # recursively retry 5xx HTTP errors                return download(url, num_retries-1)    return htmldef re_scraper(html):    results = {}    for field in FIELDS:        results[field] = re.search(r'places_%s__row.*?w2p_fw">(.*?)' % field, html.replace('\n','')).groups()[0]    return resultsdef bs_scraper(html):    soup = BeautifulSoup(html, 'html.parser')    results = {}    for field in FIELDS:        results[field] = soup.find('table').find('tr',id='places_%s__row' % field).find('td',class_='w2p_fw').text    return resultsdef lxml_scraper(html):    tree = lxml.html.fromstring(html)    results = {}    for field in FIELDS:        results[field] = tree.cssselect('table > tr#places_%s__row> td.w2p_fw' % field)[0].text_content()    return resultsNUM_ITERATIONS = 1000 # number of times to test each scraperhtml = download('http://example.webscraping.com/places/view/United-Kingdom-239')for name, scraper in [('Regular expressions', re_scraper),('BeautifulSoup', bs_scraper),('Lxml', lxml_scraper)]:    # record start time of scrape    start = time.time()    for i in range(NUM_ITERATIONS):        if scraper == re_scraper:            re.purge()        result = scraper(html)        # check scraped result is as expected        assert(result['area'] == '244,820 square kilometres')            # record end time of scrape and output the total    end = time.time()    print '%s: %.2f seconds' % (name, end - start)

    Windows执行结果:

    Downloading: http://example.webscraping.com/places/view/United-Kingdom-239Regular expressions: 11.63 secondsBeautifulSoup: 92.80 secondsLxml: 7.25 seconds

    Linux执行结果:

    Downloading: http://example.webscraping.com/places/view/United-Kingdom-239Regular expressions: 3.09 secondsBeautifulSoup: 29.40 secondsLxml: 4.25 seconds

    其中 re.purge() 用户清正则表达式的缓存。

    推荐使用基于Linux的lxml,在同一网页多次分析的情况优势更为明显。

     

    转载于:https://my.oschina.net/u/1433482/blog/620858

    你可能感兴趣的文章
    实例讲解遗传算法——基于遗传算法的自动组卷系统【理论篇】
    查看>>
    无法在web服务器上启动调试。调试失败,因为没有启用集成windows身份验证
    查看>>
    Bat相关的项目应用
    查看>>
    Django为数据库的ORM写测试例(TestCase)
    查看>>
    NYOJ-107 A Famous ICPC Team
    查看>>
    与众不同 windows phone (44) - 8.0 位置和地图
    查看>>
    Visual Studio Code 使用 ESLint 增强代码风格检查
    查看>>
    iOS设备中的推送(二):证书
    查看>>
    敏捷 - #3 原则:经常提供工作软件 ( #3 Agile - Principle)
    查看>>
    数据结构与算法:二分查找
    查看>>
    使用思科模拟器Packet Tracer与GNS3配置IPv6隧道
    查看>>
    iOS开发-NSPredicate
    查看>>
    Exchange Server 2003 SP2 数据存储大小限制修改
    查看>>
    expr命令用法-实例讲解
    查看>>
    酷派8705救砖
    查看>>
    iOS10里的通知与推送
    查看>>
    # C 语言编写二进制/十六进制编辑器
    查看>>
    EMS SQL Management Studio for MySQL
    查看>>
    我的友情链接
    查看>>
    做母亲不容易
    查看>>