python 怎么提取html内容啊？（正则）

如题所述

举报该问题

推荐答案 2020-04-15

python提取html内容的方法。如下参考：

1.首先，打开Python来定义字符串，在定义的字符串后面加上中括号，然后在要提取的字符位置输入zhidao。

2.点击运行程序，可以看到系统打印出的第一个字符在我们定义的字符串中，因为字符串是空格，空格占据了位置。

3.这里可以看到字符显示在程序运行界面的底部，根据我们指定的内容输出，这里写的版本是0输出的第一个字符。

4.还可以一次打印多个字符。如图所示，用冒号分隔字符串的开头，并将其写入方括号中以显示多个字符。

5.这里的输入位置是0到5，你可以发现，与我们的字符串内容相比，字符的相应位置被打印出来，而字符的另一个位置则完全不显示。

6.如果字符串比较大，大于内容的权重，从下面的数字比较方便，也可以直接输出倒数的字符。

7.这时直接用负号来表示这是倒数的位置，它使用起来也特别方便。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://88.wendadaohang.com/zd/MStVcVKtcSgVSgcVaMB.html

其他回答

第1个回答 2017-08-14

我一般使用BeautifulSoup，还是比较简单的
soup=BeaitifulSoup(html,'html.parser')
要找到某各元素使用find_all方法就行
for div in soup.find_all('div'):

但是经常会遇到网站有反爬的设置，比如子结点中含有换行符，只要写个函数去掉子结点间的换行符就行本回答被网友采纳

相似回答

如何用Python提取网页标签中的文本信息?答：一、使用内置的正则表达式 Python代码 import reregex1 = r"<a[^>]+?>(.+?)</a>"regex2 = r"/span>([\s\S]+?)<"html = ("<div class=\"question\">\n""<span><a class=\"normal\" name=\"question-2c26d7bd-90c1-415a-b881-2c560414340b\">1、</a></span> 以下...

python 怎么提取html内容啊?(正则)答：soup=BeaitifulSoup(html,'html.parser')要找到某各元素使用find_all方法就行 for div in soup.find_all('div'):但是经常会遇到网站有反爬的设置，比如子结点中含有换行符，只要写个函数去掉子结点间的换行符就行

python正则表达式提取文本答：python正则表达式提取文本有两种方法：方法一：eight_date = re.compile(r正则式)str1 = re.search(eight_date, 文本内容).group(0)方法二：str1 = re.search(r正则式,文本内容).group(0)

python语言,怎么用正则表达式提取HTML标签<h3答：import retext = '''<br><h3 align="center" class="STYLE3">姓名：张三</h3> <h3 align="center" class="STYLE3">2013/6/9</h3>'''htm = re.findall(r"<h3.*?>.*?</h3>", text)for t in htm: k = re.sub("<h3.*?>", "", t) k = re.sub("</h3>",...

如何用python把返回的html提取相应的内容到excel答：解决方法：正则提取出多个列表，然后利用 Pandas 的 DataFrame 数据类型写入 excel，具体格式你自己安排，这里给出个基本示例：text = """<td height="20" align="center">1</td><td align="center">产品</td><td align="center">red</td><td align="center">单价</td><td align="center"...

怎样在python中提取html源文件中的内容(去掉标签后的纯网页的内容)?求...答：用正则把尖括号的标记都替换为""\<\w*\>[\s\S]*\<\/\w*\>

Python怎样抓取当前页面HTML内容?答：当然这样子也是可以的，不过通用点的方法是用beautifulsoup库去定位id=phoneCodestatus

用python如何得到HTML标签外面的文本?答：正则的话 import rehtml = "<a href='xxx.xxx' title='xxx.xxx.xxx'>sample text1</a>abcdef<a href='xxx.xxx' title='xxx.xxx.xxx'>sample text2</a>"result = map(lambda name: re.sub("<a href=.*?>","",name.strip().replace("</a>","")), re.findall("<a href=...

大家正在搜

python 正则findall 正则提取html python正则匹配 python enumerate python xpath python opencv python findall函数 python正则匹配空格 python lambda