松盛号

松盛号

Python 网络爬虫实战:爬取《去哪儿》网数千篇旅游攻略数据,再也不愁旅游去哪儿玩了 旅游攻略有哪些内容

Python 网络爬虫实战:爬取去哪儿网数千篇旅游攻略数据,再也不愁旅游去哪儿玩了

今天我们来爬取去哪儿网站 的 旅游攻略 数据。 0x00 找一个合理的作案动机

作为一名立志成为技术宅的普通肥宅,每次一到周末就会面临一个人生难题:这周末怎么过?

本来是没有这些问题的,该吃吃该睡睡,打打游戏敲敲代码,也挺自在。

只是后来毕业,来到一个新的城市,赚的钱除了吃住还有富余,总觉得如果不趁着周末和假期出去好好逛逛这个城市,就等于白来一趟,那就太亏了。

话虽如此,旅游岂是说走就走的。好几次我下定决心出门,结果在小区门口的十字路口,看着车来车往陷入沉思:我特么去哪儿玩啊!思索半天,最后去超市买了一提肥宅快乐水,回家躺床上打开了王者荣耀。。。

都怪没有一份完整的旅游攻略,导致我想出去玩都不知道去哪儿玩!

为了防止我以后再找这种自欺欺人的借口,我决定爬取去哪儿 2023最新游记有什么好玩的地方-适合年轻人的旅游攻略-去哪儿攻略 网站的旅游攻略库。0x01分析目标网站

 分析流程主要有以下几步:

1.打开网站,看看网页上展示一些什么数据。

2.通过F12开发者工具,找到数据的获取接口数据是html还是json,翻页是url控制还是ajax

3.编写简单的代码,发起网络请求,试探对方网站的反爬机制。

4.完成以上三步之后,就可以完善代码,正式爬取数据了。

1.我们可以获取哪些数据

如图,通过观察,我们可以发现网站上展示了以下数据:文章标题:走入松江,不一样的上海郊野风情作者昵称:麻小薯出发日期:出发游玩天数:共21天照片数量:126张照片人均消费:人均1000元同行人数:三五好友旅游类型:深度游 环游 短途周末由于篇幅原因网页中隐藏显示此项,但是在开发者工具中可以看到旅游途经:途经:上海旅游行程:行程:外白渡桥>武康路>外滩>思南路>豫园阅读量:246点赞数:0评论数:0

而且,多翻阅不同的文章,可以发现

【文章标题】【作者昵称】【出发日期】【游玩天数】【阅读量】【点赞数】【评论数】【途经】【行程】这些数据项是每一篇游记文章中共有的数据。

【照片数量】【人均消费】【同行人数】【旅游类型】这四项,会根据作者的设置,显示全部,显示部分,或者全部隐藏。

一般情况下,网站的数据加载方式有两种,一种是直接存放在静态的HTML网页中,另一种是通过Ajax动态的加载到网页中。

那怎么判断我们要爬取的网站,到底采用的是哪一种数据加载方式呢?这里教大家几个小办法。

①通过翻页如果翻页的时候,网址中出现类似于“p=2”"p=3"或者"page=2""page=3"的字样,并且后面的数字在翻页的时候跟着页码在变化,那么,这个网站大概率就是静态的HTML网页。如果在翻页的时候,网页中的数据变化了,但是地址栏中的URL没有出现与页码相关的参数,甚至全程没有变化,那么这个网站数据大概率是通过Ajax动态加载的。有的网站没有翻页按钮,也不知道是第几页,当滑动条滚动到底部时会自动加载后面的数据。这种毫无疑问是Ajax动态加载的。

通过上面翻页的方式大致确定了数据加载方式之后,我们可以在浏览器中按 F12,调用开发者工具进行抓包,验证我们的想法,并找到数据的接口。

Ⅰ. 打开开发者工具,切换到Network项,然后在网页中进行翻页操作这一步主要是是网站出现“加载新数据”这一过程,方便我们抓包分析。

Ⅱ.开发者工具会为我们抓取整个过程中网站与服务器通信的所有数据包。如截图所示,这些数据包类型有XHR,JS,CSS,Img等等,这里我们主要关注XHR和Doc这两类一般情况下,XHR中的数据是json格式的,Doc中的数据是Html格式的。如果在翻页过程中,XHR中抓取到了新的请求,而且json中含有新加载的数据,那么这个网页就是动态加载数据的,且这个请求就是获取数据的接口。如果在翻页的过程中,XHR中没有捕获到数据,而在Doc中有,那么这个网页就是静态加载在html中的,这个请求就是获取数据的接口。

通过测试,我们在Doc中找到了去哪儿网旅游攻略数据的接口。 

3.试探网站的反爬机制

找到网站的数据接口之后,我们还不能大意,需要简单地编写代码,调用这个接口,来试探网站的反爬机制。只有绕过了反爬机制,用代码获取到了数据,才算是成功了。

这是我们上一步找到的接口,在Headers选项卡中可以看到这个接口的基本参数,我们主要关注以下几个:RequestUrl:请求的URLRequestMethod:请求方式RequestHeaders:请求头通常包含user-agent和accept即可,有些网站可能需要cookieQueryStringParameters:请求参数

执行代码,很幸运,这个网站没有太多的反爬机制,直接就获取到了数据。

上述的操作一步步做下来,我们基本上已经攻克了整个爬虫中最困难的一步了。接下来,只需要对爬取到的内容进行解析,提取出我们需要的数据即可。

由于爬到的数据是HTML格式,我们选用BeautifulSoup库进行解析。bsObj=BeautifulSoup(html,"html.parser")

我们对照网页源码来简单分析有条件的可以去旅游攻略库 网站,打开开发者工具对照着分析。攻略列表存放在一个class="b_strategy_list"的ul标签下,每一个li标签对应一篇旅游攻略。bookList=bsObj.find("ul",attrs={"class":"b_strategy_list"})li_List=bookList.find_all("li")文章

2023杭州西溪湿地游玩攻略(开放时间+景点介绍+游玩推荐)

【导语】:西溪湿地一直都是杭州市民以及广大旅游爱好者心中的向往之地,两个园区目前已经合并,非常适合一日游,风光特别好。欢迎广大游客朋友前来踏春赏花、饱览美景

杭州西溪湿地公园·游玩攻略

景区地址:浙江省杭州市西湖区天目山路518号

开放时间:夏令时7:30-18:30;冬令时8:00-18:00

西溪国家湿地公园位于杭州城市西部,离杭州主城区武林门只有6公里,距西湖仅5公里。西溪起始于汉晋,发展于唐宋,兴盛于明清,衰落于民国,再兴于当代。杭州历史上曾有“西湖、西溪、西泠”并称“三西”之说。历史上的西溪占地约60平方公里,现实施保护的西溪湿地总面积约为11.5平方公里

门票价格:成人票80元、儿童老人半价门票40元、免费票70周岁以上免费票、杭州市公园卡、绿堤(含莲花滩)免费票、政策类门票(需换票);以上票种皆不含船票

门票购买:微信搜索“西溪湿地”或“西湖旅游”微信公众号,点击菜单栏的【门票购买】进行预约购票

门票政策:杭州西溪湿地公园门票优惠政策

购票须知:可预约七日内的门票,单次预约不超过9人,每张身份证每天仅限预约一次

相关内容>>预约购票教程(图解)、门票查询教程(附图)、退票操作教程(附图)

杭州西溪湿地公园船票价格+游船路线

1.全价门票可刷身份证或者二维码入园

2.公园IC卡可刷本人身份证、市民卡、公园IC卡入园

3.政策类门票凭预约信息及有效证件至就近售票处换票后方可入园

温馨提示:为了您与其他游客的游览安全,请勿将您的平衡车、滑板车等代步工具携带入园;请勿携带宠物入园

景区出入口:天目山路周家村出入口、五常大道龙舌嘴出入口、访溪路邬家湾出入口、紫金港路西溪天堂出入口、文二西路北门出入口、文三西路东门出入口

免费区域&景区出入口图

洪氏宗祠——洪氏宗祠洪氏家族祭祀先祖的地方,宋明两代,洪氏曾出过三宰相、五尚书,人才辈出,是八百年“钱塘望族”,诗礼传家,久盛不衰。重建的洪氏宗祠占地1200余平方米,由门屋、享堂和寝殿等组成,记录了整个洪氏家族发展历史。

洪府——洪府中槿篱茅舍,小桥流水,花木扶疏。洪钟在西溪筑书楼,课子弟,倡文风,成为西溪隐逸文化的代表。园内建有洪昇纪念馆,藏书楼,蕉园琴韵,请平山堂等景点,园内乱石崩云,奇花异草任意生长,体现了西溪湿地宁静致远,淡泊明志的归隐文化。

荆源访古——西溪洪园邬家湾入口的荆源访古区域免费对外开放!由近50幢江南古建筑组成,“荆源”是一个乡土地名,“访古”即寻找原生态的西溪。看这些古建筑,我们

西安大唐不夜城旅游攻略

【导语】:西安大唐不夜城以盛唐文化为背景,以唐风元素为主线,以体验消费为特征,着力打造集购物、餐饮、娱乐、休闲、旅游、商务为一体的一站式消费天堂。

大唐不夜城项目位于西安曲江新区举世闻名的大雁塔脚下,是陕西省、西安市重点建设项目。该项目以盛唐文化为背景,以唐风元素为主线,以体验消费为特征,着力打造集购物、餐饮、娱乐、休闲、旅游、商务为一体的一站式消费天堂。

该项目以大雁塔为依托,北起玄奘广场、南至唐城墙遗址公园、东起慈恩东路、西至慈恩西路,贯穿玄奘广场、贞观文化广场、开元庆典广场三个主题广场,六个仿唐街区和西安音乐厅、西安大剧院、曲江电影城、陕西艺术家展廊四大文化建筑。

一、常规演出时间表以实际演出为准

点击查看:大唐不夜城五一演出时间表

地址:西安市碑林区慈恩路大雁塔南广场

5路;19路;21路;27路;30路;34路;41路;271路;400路;401路;408路;521路;601路;606路;游6路;游8/610路公交车到大雁塔南广场站下。

特别推荐:唐城墙遗址公园、唐慈恩寺遗址公园与曲江池遗址公园相邻不远,可一同体验。

千岛湖自驾两日游攻略有哪些(千岛湖游玩2天攻略)

内容导航:千岛湖自驾两日游攻略有哪些千岛湖游玩2天攻略求苏州出发到千岛湖自驾游三天的旅游攻略一、千岛湖自驾两日游攻略有哪些

7:30,开车从上海出发去千岛湖。

12:30,航空小镇温泉中心内设冰火池、咖啡池、三花养颜池、四味养生池、浮力按摩池、鱼疗池、香薰池、泡泡池等特色泡池。

15:30,前往酒店:千岛湖绿城度假酒店。

20:00,欣赏水之灵水舞台演出。

8:30,在酒店内享用早餐。

9:30,游览千岛湖中心湖区、梅峰岛。

14:00,开车返回上海。

位于浙江省杭州市淳安县境内,小部分连接建德县西北。

是为建新安江水电站拦蓄新安江下游而成的人工湖,1955年始建,1960年建成。

水库坝高105米,长462米;水库长约150千米,最宽处达10余千米;最深处达100余米。

在正常水位情况下,面积约580平方千米,蓄水量可达178亿立方。

2001年,千岛湖风景区被评为首批中国AAAAA级旅游区。

2010年4月18日,国家旅游局授予千岛湖风景区为国家5A级旅游景区殊荣。二、千岛湖游玩2天攻略

第一种是游览千岛湖五龙湖区(锁岛观鱼、鸟岛、真趣园、奇石苑),龙山岛。

上午乘船游梅峰景区:梅峰观岛、鸵鸟岛、神龙岛和东南湖区,16:00新安江乘车返杭州。

第二种是早晨6:30-7:00左右杭州发车抵千岛湖游船码头,乘船游五龙岛景区(锁世界、鸟岛、真趣园、奇石苑、渔乐桥、幸运桥)及温馨岛或龙山岛。

晚上住大江南酒店或同级。

上午乘船游梅峰景区:梅峰观岛、鸵鸟岛、神龙岛和东南湖区,16:00新安江乘车返杭州。

票价:成人:380元/人,五一黄金周价格上浮140元。

小孩:1.2米以上全票。扩展资料:

千岛湖(新安江水库),位于浙江省杭州市淳安县境内,小部分连接建德市西北,是为建新安江水电站拦蓄新安江下游而成的人工湖,1955年始建,1960年建成。

水库坝高105米,长462米;水库长约150千米,最宽处达10余千米;最深处达100余米,平均水深30.44米,在正常水位情况下,面积约580平方千米,蓄水量可达178亿立方米,在最高水位时拥有1078座大于0.25平方千米的陆桥岛屿,并以2平方千米以下的小岛为主,岛屿面积共409平方千米。

千岛湖水在中国大江大湖中位居优质水之首,为国家一级水体,不经任何处理即达饮用水标准,被誉为"天下第一秀水"。

1984年12月15日浙江省地名委员会正式将新安江水库命名为"千岛湖"。

2001年,千岛湖风景区被评为首批国家AAAAA级旅游景区。

2010年4月18日,国家旅游局授予千岛湖风景区为国家5A级旅游景区殊荣。三、求苏州出发到千岛湖自驾游三天的旅游攻略

首先欢迎你们来千岛湖旅游,我是千岛湖山湾湾农庄余老板,我农庄提供吃住游一条龙服务,希望你们能选择我农庄,我农庄现提升为民宿,农庄就在千岛湖边环境非常好,房间设备按酒店设置,独立卫生间干湿分离,根据你的旅游思路,我现在给你大至规划下旅程,千岛湖两日游也就是住一晚玩两天,一般来说第一天到千岛湖基本上是中午了,所以第一天中午先到我农庄住下,吃个中饭,下午在我家附近有条环湖公路,开着车环湖自驾,沿途风光很美,有红叶湾、龙川湾水下古城遗址、芹川古民居等免费的开放景点,还有很多个观光平台可供拍摄千岛湖风景,晚上返回我农庄品尝我家老板娘亲自下厨的特色农家菜,这里和你悄悄说一下:我家老板娘曾在2012年度千岛湖酒店宾馆烹饪比赛中荣获第一名,餐饮还是有点小名气的喔。

第二天早上开车到千岛湖中心湖区码头坐第一班8点到9点的船去上岛游千岛湖,中午饭在岛上吃,有35元——55元一个人的自助餐供你挑选的,下午14.30分左右返回码头,整个行程结束,祝你们旅途愉快。

标签:千岛湖风景区   

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。