回答了问题2018-02-02
现在必须用MAXTHON啊
提出了问题2018-02-01
提出了问题2017-06-04
回答了问题2017-05-06
其实还是很有简单的,你看这个还是有规律的,规律在于有分隔符|,我写了个DEMO {代码...} 通过get_text()得到内在所有内容,然后去除空格。后面你就用split进行分割吧,后面的不写了。如果有问题再交流。
提出了问题2017-04-26
回答了问题2017-04-26
我看你里面已经使用了lxml你的选择器,应该采用css selector,css selector比bs 内置或者正则效率更高。
回答了问题2017-04-24
我估摸着同JS加载有关系,不过这种类型一般你试验下selenium + PhantomJS()进行浏览器模拟,这组合的好处非常多,比如延迟加载的js,比如需要点击后产生的数据内容,总之模拟浏览器操作,坏处就是处理速度慢,哈哈。我是MAC 安装办法如下,windows 自己百度吧,先安装se...
回答了问题2017-04-05
@FreeLoop 写的极是!具体dcap的加法,请参看下面的链接设置PHANTOMJS的USER-AGENT
回答了问题2017-01-20
其实你应该使用pycharm IDE,我之前用过sublime 同你一样崩溃的不行不行的,调试了一堆东西发现结果有限。所以建议你IDE使用pycharm
关注了问题2017-01-20
回答了问题2017-01-13
建议采用 selenium + PhantomJS 进行
关注了问题2017-01-13
回答了问题2016-03-21
请问下,我写入csv都是乱码,你这个中文怎么都是正确的?
赞了文章2016-03-18
0x07 中介绍了 Python 中的字符串类型,字符串类型是对人类友好的符号,但计算机只认识一种符号,那就是二进制(binary)数,或者说是数字:
赞了回答2016-03-17
你导入的好几个模块我都没用过....不过能看出来是跳进了python2的encoding大坑了-_-总之,研究了近百篇文章后我才意识到,破解encoding问题不用那么复杂.不用''.encode().decode(),也不用sys.setdefaultencode之类只要你在全文里除了最后输出部分,保证其余每一个字符串...
赞了回答2016-03-17
另外,urllib在Python 3.x 中已经全部改由Bytes 类型传输数据,所以在Python 3.x 中,如果doc已经解码,后面程序的encode是不需要的。
赞了回答2016-03-17
从你截图可以看出 csv 里面存储的是 b'\x00' 这样的是 Python 字节类型,应该进行 decode() 才会变成字符串类型。可以参考我昨天写的:Python 字节与字节数组
关注了问题2016-03-16
提出了问题2016-03-16
回答了问题2016-03-14
print的问题 直接给出方案不解释了 {代码...}