如何用python抓取某个网址的源代码并且打开显示在文本文档中?

用python做爬虫是最方便的。

用python做爬虫首选requests

本文简单的介绍了如何使用requests抓取某个网址的源代码并且将源代码存入文本文档中,打开查看。

代码如下:

import requests
url=”http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html”
r=requests.get(url)
#设置编码的格式
r.encoding=’gbk’
#读取网页源代码
result=r.text
import os
#定位文本文件所在的目录
Path=r’d:’
os.chdir(Path)
#打开文本文件
file1=open(‘test1.txt’,’w’)
#写入内容
file1.write(result)
#关闭文本文件,这个是关键,close要加括号
file1.close()
#打开文件夹查看结果
os.system(‘notepad.exe ‘ + Path+’test1.txt’)

如果要把html源代码解析并显示成树状形式,可以再加BeautifulSoup解析。

代码如下:

import requests
from bs4 import BeautifulSoup
url=”http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html”
r=requests.get(url)
#设置编码的格式
r.encoding=’gbk’
#读取网页源代码
result=r.text
soup = BeautifulSoup(result, ‘html.parser’)
result=soup.prettify()
import os
#定位文本文件所在的目录
Path=r’d:’
os.chdir(Path)
#打开文本文件
file1=open(‘test1.txt’,’w’)
#写入内容
file1.write(result)
#关闭文本文件,这个是关键,close要加括号
file1.close()
#打开文件夹查看结果
os.system(‘notepad.exe ‘ + Path+’test1.txt’)

 

       

发表评论