松盛号

松盛号

【头歌】旅游网站大数据分析 携程旅游网

【头歌】旅游网站大数据分析

第1关:利用Jsoup抓取携程旅游网的数据任务描述

本关任务:使用Jsoup获取携程旅游网的数据。相关知识

现在我们目标是获取携程旅游网的数据,然后将获取到的数据清洗,清洗一些无意义的数据,最后在存入到Hadoop中,这样我们就完成了数据获取、数据清洗、数据存储。

现在我们要来一起完成第一步,数据获取,在我们知道一个网站地址的前提下,如何提取该网站的数据为我们所用呢?

需要一些工具,比如Jsoup。Jsoup的使用

jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

从一个URL件或字符串中解析HTML;

使用DOM或CSS选择器来查找、取出数据;

可操作HTML元素、属性、文本;

携程集团(Trip.comGroup)是全球领先的一站式旅行平台,公司旗下的平台可面向全球用户提供一套完整的旅行产品、服务及差异化的旅行内容。集团能够提供超过120万种全球住宿服务,480多家国际航空公司,以及超过31万项目的地内活动。并与超过3万家其他合作伙伴一起满足客户不断变化的需求。

对于中国游客而言,以及对于越来越多的世界各地的游客而言,携程是其可值得信赖的旅行平台,用户可以通过携程的平台进行任何类型的旅行预订,包括从目的地内活动、周末短假及短途旅行,到跨境旅游及商务旅游等。携程多样化的产品及服务组合涵盖经济、高端、定制化、精品等选择,吸引了携程国内以及全球日益增长的用户群体。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。