最新公告
  • 欢迎您光临IO源码网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 网络数据采集技术:Java网络爬虫实战 PDF 下载

    失效链接处理 网络数据采集技术:Java网络爬虫实战 PDF 下载


    本站整理下载:
    版权归出版社和原作者所有,链接已删除,请购买正版
    用户下载说明:
    电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍:
    http://product.dangdang.com/28484856.html
    相关截图:



    资料简介:
    本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的大学生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。


    资料目录:

    第1 章 网络爬虫概述与原理 …………………………………………………………………. 1
    1.1 网络爬虫简介 ………………………………………………………………………………… 1
    1.2 网络爬虫分类 ………………………………………………………………………………… 2
    1.3 网络爬虫流程 ………………………………………………………………………………… 4
    1.4 网络爬虫的采集策略 ……………………………………………………………………… 5
    1.5 学习网络爬虫的建议 ……………………………………………………………………… 5
    1.6 本章小结 ……………………………………………………………………………………….. 6
    第2 章 网络爬虫涉及的Java 基础知识 ………………………………………………….. 7
    2.1 开发环境的搭建 …………………………………………………………………………….. 7
    2.1.1 JDK 的安装及环境变量配置 …………………………………………………. 7
    2.1.2 Eclipse 的下载 ………………………………………………………………………. 9
    2.2 基本数据类型 ………………………………………………………………………………. 10
    2.3 数组 …………………………………………………………………………………………….. 11
    2.4 条件判断与循环 …………………………………………………………………………… 12
    2.5 集合 …………………………………………………………………………………………….. 15
    2.5.1 List 和Set 集合 …………………………………………………………………… 15
    2.5.2 Map 集合 ……………………………………………………………………………. 16
    2.5.3 Queue 集合 …………………………………………………………………………. 17
    2.6 对象与类 ……………………………………………………………………………………… 19
    2.7 String 类 ……………………………………………………………………………………….. 21
    2.8 日期和时间处理 …………………………………………………………………………… 23
    2.9 正则表达式 ………………………………………………………………………………….. 26
    2.10 Maven 工程的创建 ……………………………………………………………………… 29
    2.11 log4j 的使用 ……………………………………………………………………………….. 33
    2.12 本章小结 ……………………………………………………………………………………. 40
    第3 章 HTTP 协议基础与网络抓包 ……………………………………………………… 41
    3.1 HTTP 协议简介 ……………………………………………………………………………. 41
    3.2 URL …………………………………………………………………………………………….. 42
    3.3 报文 …………………………………………………………………………………………….. 44
    3.4 HTTP 请求方法 ……………………………………………………………………………. 46
    3.5 HTTP 状态码 ……………………………………………………………………………….. 46
    3.5.1 状态码2XX ………………………………………………………………………… 47
    3.5.2 状态码3XX ………………………………………………………………………… 47
    3.5.3 状态码4XX ………………………………………………………………………… 48
    3.5.4 状态码5XX ………………………………………………………………………… 48
    3.6 HTTP 信息头 ……………………………………………………………………………….. 48
    3.6.1 通用头 ……………………………………………………………………………….. 49
    3.6.2 请求头 ……………………………………………………………………………….. 52
    3.6.3 响应头 ……………………………………………………………………………….. 55
    3.6.4 实体头 ……………………………………………………………………………….. 56
    3.7 HTTP 响应正文 ……………………………………………………………………………. 57
    3.7.1 HTML ………………………………………………………………………………… 58
    3.7.2 XML ………………………………………………………………………………….. 60
    3.7.3 JSON ………………………………………………………………………………….. 61
    3.8 网络抓包 ……………………………………………………………………………………… 64
    3.8.1 简介 …………………………………………………………………………………… 64
    3.8.2 使用情境 ……………………………………………………………………………. 65
    3.8.3 浏览器实现网络抓包 …………………………………………………………… 65
    3.8.4 其他网络抓包工具推荐 ……………………………………………………….. 70
    3.9 本章小结 ……………………………………………………………………………………… 70
    第4 章 网页内容获取 ………………………………………………………………………… 71
    4.1 Jsoup 的使用 ………………………………………………………………………………… 71
    4.1.1 jar 包的下载 ……………………………………………………………………….. 71
    4.1.2 请求URL …………………………………………………………………………… 72
    4.1.3 设置头信息 ………………………………………………………………………… 75
    4.1.4 提交请求参数 …………………………………………………………………….. 78
    4.1.5 超时设置 ……………………………………………………………………………. 80
    4.1.6 代理服务器的使用 ………………………………………………………………. 81
    4.1.7 响应转输出流(图片、PDF 等的下载)………………………………. 83
    4.1.8 HTTPS 请求认证 ………………………………………………………………… 85
    4.1.9 大文件内容获取问题 …………………………………………………………… 89
    4.2 HttpClient 的使用 ………………………………………………………………………….. 91
    4.2.1 jar 包的下载 ……………………………………………………………………….. 91
    4.2.2 请求URL …………………………………………………………………………… 92
    4.2.3 EntityUtils 类 ………………………………………………………………………. 97
    4.2.4 设置头信息 ………………………………………………………………………… 98
    4.2.5 POST 提交表单 …………………………………………………………………. 100
    4.2.6 超时设置 ………………………………………………………………………….. 103
    4.2.7 代理服务器的使用 …………………………………………………………….. 105
    4.2.8 文件下载 ………………………………………………………………………….. 106
    4.2.9 HTTPS 请求认证 ………………………………………………………………. 108
    4.2.10 请求重试 ………………………………………….


    *** 次数:10600 已用完,请联系开发者***
    1. 本站所有资源来源于用户上传和网络,因此不包含技术服务请大家谅解!如有侵权请邮件联系客服!384324621@qq.com
    2. 本站不保证所提供下载的资源的准确性、安全性和完整性,资源仅供下载学习之用!如有链接无法下载、失效或广告,请联系客服处理,有奖励!
    3. 您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容资源!如用于商业或者非法用途,与本站无关,一切后果请用户自负!
    4. 如果您也有好的资源或教程,您可以投稿发布,成功分享后有★币奖励和额外收入!

    IO 源码网 » 网络数据采集技术:Java网络爬虫实战 PDF 下载

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    IO源码吧
    一个高级程序员模板开发平台

    发表评论

    • 177会员总数(位)
    • 12338资源总数(个)
    • 55本周发布(个)
    • 8 今日发布(个)
    • 563稳定运行(天)

    提供最优质的资源集合

    立即查看 了解详情