python - 怎么删除300+有用数据以外的数据?
伊谢尔伦
伊谢尔伦 2017-04-17 13:08:22
[Python讨论组]

爬虫爬了5000+条书名,我以前没写代码前就手动筛选出300+条有用的书。现在写代码,爬虫程序爬书网页里面的东西。
怎么可以已经已经有的300+数据,把其余的4700+删除。
菜鸟学生一名,sql也只是会做网页的水平,触发器等高级的略懂,python最近自学的,也不会用爬虫框架,只是用urllib+re,数据库是sqlite
望解答,谢谢。第一问也不怎么懂规矩。

伊谢尔伦
伊谢尔伦

小伙看你根骨奇佳,潜力无限,来学PHP伐。

全部回复(1)
高洛峰

其实好办。

5000+和300+全部读出来,遍历一遍5000+,验证每个是否在300+里,是就留下。

Python的list查询是自动hash高效查询的,并没有性能问题。(哪怕不高效,5000*300个单元操作也并不是问题)

这个问题的麻烦反倒是:你整理的书名可能做了删改、排版等操作,或许不是和原书名完全一致的。如果有这种情况存在,请小心处理,不要生硬比较。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号