python 正则如何抓取 <a></a> 中 href 属性和标签里的内容?

需求是这样的 href 中的内容作为第一个分组要求被得到 <a>中的内容作为第二个分组被得到

import re
pattern = '<a.*?href="(.+)".*?>(.*?)</a>'
with open("test.html", "r") as fp:
    for line in fp:
        ret = re.search(pattern, line)
        if ret:
            for x in ret.groups(): print x

不知道具体格式是怎样的,我这里也就简单举个例子。

groups获取到的就是正则pattern里面( )中的内容,以元组形式返回。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2014-08-13
<a.*?href="([^"]*)".*?>([\S\s]*?)</a>

相似回答