小问题

昨天跟着视频学了点儿python爬虫的基本知识,并跟着样本写了类似脚本。
对于没有反爬虫机制网页,很容易get到了网页源码,对于带判断是否浏览器浏览的网页,也可以很容易以headers定义浏览器模式解决。
后来还简单地进行了部分网页内容的截取,先试了试按文字#666666截取,成功,但是按原样抄过来的程序,对于截取#039,却一直不成功,也找不到原因,但是视频中确能成功截取,先不管了。
今天,继续查找昨天未解决问题原因的可能性。
于是,打开源码,仔细比对#039的特征,原来,在#039前面有一个空格,在脚本中更改后,成功截取了相应的信息。
但是,在浏览器中,有无空格实际是显示都是一样的,我还专门在浏览器中针对有无空格进行了比对,没有区别。
这说明python是对空格敏感的,严格的,以后在学习过程中和实际应用中一定要注意。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注