python 怎么提取html内容啊?(正则)

如题所述

python提取html内容的方法。如下参考:

1.首先,打开Python来定义字符串,在定义的字符串后面加上中括号,然后在要提取的字符位置输入zhidao。

2.点击运行程序,可以看到系统打印出的第一个字符在我们定义的字符串中,因为字符串是空格,空格占据了位置。

3.这里可以看到字符显示在程序运行界面的底部,根据我们指定的内容输出,这里写的版本是0输出的第一个字符。

4.还可以一次打印多个字符。如图所示,用冒号分隔字符串的开头,并将其写入方括号中以显示多个字符。

5.这里的输入位置是0到5,你可以发现,与我们的字符串内容相比,字符的相应位置被打印出来,而字符的另一个位置则完全不显示。

6.如果字符串比较大,大于内容的权重,从下面的数字比较方便,也可以直接输出倒数的字符。

7.这时直接用负号来表示这是倒数的位置,它使用起来也特别方便。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2017-08-14
我一般使用BeautifulSoup,还是比较简单的
soup=BeaitifulSoup(html,'html.parser')
要找到某各元素使用find_all方法就行
for div in soup.find_all('div'):

但是经常会遇到网站有反爬的设置,比如子结点中含有换行符,只要写个函数去掉子结点间的换行符就行本回答被网友采纳
相似回答