您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

Python檢查xpath和csspath表達式是否合法

在做一個可視化配置爬蟲項目時，需要配置爬蟲的用戶自己輸入xpath和csspath路徑以提取數據或做浏覽器操作。考慮到用戶的有時會輸入錯誤的xpath或csspath路徑，後台需要對其做合法性校驗。

xpath有效性校驗

對於xpath的有效性檢驗，使用第三方lxml模塊中的etree.XPathEvalError進行校驗。不得不說lxml是一個解析爬蟲數據的利器，當etree.xpath()遇到不合法的xpath路徑時會拋出XPathEvalError錯誤。

代碼如下：

from lxml import etree
from StringIO import StringIO

def _validXpathExpression(xpath):
    """
    檢查xpath合法性
    :param xpath:
    :return:
    """
    tree = etree.parse(StringIO('<foo><bar></bar></foo>'))
    try:
        tree.xpath(xpath)
        return True
    except etree.XPathEvalError, e:
        return False

只有當輸入的xpath路徑合法時返回True。
驗證：

>>>print _validXpathExpression('./div[@class="name"]/a/text()')
>>>True
>>>
>>>print _validXpathExpression('./div(@class="name")')
>>>False

csspath有效性檢驗

對於csspath檢驗的思路時，借助python標准庫cssselect的css_to_xpath()方法。當輸入的csspath不合法時會拋出SelectorError錯誤。

代碼如下:

from cssselect.parser import SelectorError
from cssselect.xpath import HTMLTranslator

def _validCssExpression(css):
    """
    檢查css合法性
    :param css:
    :return:
    """
    try:
        HTMLTranslator().css_to_xpath(css)
        return True
    except SelectorError, e:
        return False

只有當輸入的csspath路徑合法時返回True。
驗證：

>>>print _validCssExpression('.content>a')
>>>True
>>>
>>>print _validCssExpression('.content>a[123]')
>>>False

上一篇文章： Python魔術方法-Magic Method
下一篇文章： Java Queue 使用總結

Linux編程

Python中的Lambda表達式

Python正則表達式：最短匹配

Python運算符與表達式

Python 正則表達式基礎

Python的正則表達式

【JavaScript】利用正則表達式檢查輸入框輸入的是否為網址

Python正則表達式指南

Python 正則表達式

相關文章

Python入門(一)----什麼是python?python及模塊的安裝

正則表達式及Linux文本檢查工具

Python模塊之re正則表達式

ARM的常數表達式

Lambda表達式之進化

Lambda表達式和表達式樹

Python 正則表達式re模塊使用

Python正則表達式介紹及使用方法

Python中re(正則表達式)模塊詳解

Lua基礎表達式

Python正則表達式測試

Struts2標簽中使用三元表達式

Linux編程

SHELL編程

PERL編程