Python编程软件官方电脑版是一款免费的,易学的电脑应用工具软件,软件自带简单的说明文档 ,规则易懂,简单易学,用户完全可以凭借自学轻松掌握这款应用,软件具有强大的可移植性,能够被移植到许多常见的平台上运行,Python编程软件官方电脑版支持面向过程的编程,也支持面向对象的编程,适用面更广,软件拥有资源丰富的Python标准库和其他高质量的库供用户免费下载使用,有需要的用户可以来系统族下载站免费下载体验。
使用技巧
用Python写简单爬虫:
Python提供了许多Module,通过这些Module,可以很简单的做一些工作。比如,要获得cloga这个词在百度搜索结果页中的排名结果(排名结果+URL),这就是一个很简单的爬虫需求。
1、首先,要通过urllib2这个Module获得对应的HTML源码。(PS:在python3.3之后urllib2已经不能再用,代之以urllib)
通过上面这三句就可以将URL的源码存在content变量中,其类型为字符型。
2、接下来是要从这堆HTML源码中提取我们需要的内容。用Chrome查看一下对应的内容的代码(也可以用Firefox的Firebug)。
3、可以看到url的信息存储在span标签中,要获取其中的信息可以用正则式。
import re
urls_pat=re.compile(r'(。*?)')
siteUrls=re.findall(results_pat,content)
4、用正则式获得内容还需要进一步处理,因为其中包含html标签。类似,hi.baidu.com/cloga 2010-8-29或者hi.baidu.com/cloga 2010-8-29 ,同样可以用正则式的sub方法替换掉这些标签。
strip_tag_pat=re.compile(r'<.*?>')
file=open('results000.csv','w')
for i in results:
i0=re.sub(strip_tag_pat,'',i)
i0=i0.strip()
i1=i0.split(' ')
date=i1[-1]
siteUrl=''.join(i1[:-1])
rank+=1
file.write(date+','+siteUrl+','+str(rank)+'n')
file.close()
5、再来就是把对应的结果输出到文件中,比如,排名、URL、收入日期这样的形式。OK,这样就用Python实现了一个简单的爬虫需求。
特别说明
Python在设计上坚持了清晰划一的风格,这使得Python成为一门易读、易维护,并且被大量用户所欢迎的、用途广泛的语言。