Python和Perl绘制中国北京跑步地图的方法-Python教程-PHP中文网

首页

后端开发

Python教程

Python和Perl绘制中国北京跑步地图的方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 10, 2016 pm 03:05 PM

当你在一个城市，穿越大街小巷，跑步跑了几千公里之后，一个显而易见的想法是，我到底和之前比快了多少，跑量有何变化，如果能把在这个城市的所有路线全部画出来，会是怎样的景象呢？

1.数据来源：益动GPS

文章代码比较多，为了不吊人胃口，先看看最终效果：

[/code]

首先需要有原始数据信息，手机上众多跑步软件提供了详细的记录，但它们共同的问题是不允许自由导入导出（可能是为了用户粘性吧）。因此有一块智能运动手表应该是不二之选。我的是Garmin Fenix3，推荐一下：

益动GPS算是业界良心了，能够同步咕咚，Garmin手表，悦跑圈的数据，因此我将其作为一个入口，抓取所有的GPS数据。

至于如何同步，可参考网站上的相关介绍，下面是我登录该网站后的截图：

http://edooon.com/user/5699607196/record/15414378

随便点进去以后，就可以看到导出路线的按钮：

无比坑爹的是，它不提供批量导出的按钮，几百条记录，依次导出都累死了。于是考虑用代码来编辑吧。

2. 获取益动网站上的数据

登录之后，可以看出它是动态加载，当滚轮滚到最下时，自动加载后面的内容。本来是应该嗅探和分析http请求的，后来懒惰了。当拖到底，全部加载完毕后，保存了当前的html文件。

接下来就是解析这个Html,基本上是通过XPath的来做的。有经验的同学看了下图就都明白了：

图中高亮的部分，就是要下载gpx文件的实际地址。我们将其保存在urllist中。同时，元数据被保存在json文件里。

folder = u'D:/buptzym的同步盘/百度云/我的文档/数据分析/datasets/rungps/';
cookie='JSESSIONID=69DF607B71B1F14AFEC090F520B14B55; logincookie=5699607196$6098898D08E533587E82B33DD9D02196; persistent_cookie=5699607196$42C885AD38F59DCA407E09C95BE1A60B; uname_forloginform="buptzym@qq.com"; __utma=54733311.82935663.1447906150.1447937410.1456907433.7; __utmb=54733311.5.10.1456907433; __utmc=54733311; __utmz=54733311.1456907433.7.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; cookie_site=auto'
userid='5699607196';
f = codecs.open(folder + 'desert.htm', 'r', 'utf-8');
html = f.read();
f.close();
root = etree.HTML(html)
tree = etree.ElementTree(root);
listnode=tree.xpath('//*[@id="feedList"]');
numre=re.compile(u'骑行|跑步|公里|，|耗时|消耗|大卡');
urllists=[]
records=[];
for child in listnode[0].iterchildren():
record={};
temp=child.xpath('div[2]/div[1]/a[2]')
if len(temp)==0:
continue;
source= temp[0].attrib['href'];
record['id']=source.split('/')[-1];
info=temp[0].text;
numinfo= numre.split(info);
if len(numinfo)<6:
continue;
record['type']= info[0:2];
record['distance']= numinfo[1];
record['hot']=numinfo[6];
urllists.append('http://edooon.com/user/%s/record/export&#63;type=gpx&id=%s' % (userid, record['id']));

登录后复制

值得注意的是，因为下载时需要cookie，因此读者需要将自己在益动GPS的userid和登录的cookie都替换掉。

接下来就是下载的过程，获取导出数据按钮的URL的XPath，构造一个带cookie的请求，然后保存文件即可，非常容易。

opener = urllib.request.build_opener()
opener.addheaders.append(('Cookie', cookie));
path='//*[@id="exportList"]/li[1]/a';
for everyURL in urllists:
id = everyURL.split('=')[-1];
print(id);
url='http://edooon.com/user/%s/record/%s' % (userid, id);
f = opener.open(url);
html = f.read();
f.close();
root = etree.HTML(html)
tree = etree.ElementTree(root);
fs = str(tree.xpath(path)[0]);
if fs is None:
continue;
furl = 'http://edooon.com/user/%s/record/%s' % (userid, fs);
f = opener.open(furl);
html = f.read();
f.close();
filename=folder+'id'+'.gpx';
xmlfile = codecs.open(filename, 'wb');
xmlfile.write(html);
xmlfile.close();

登录后复制

之后，我们便保存了大约300多个gpx文件

3. 解析gpx数据

所谓gpx数据，是一种通用规范的GPS数据格式，详细的资料可自行搜索。

我们需要使用python的gpx解析器, gpxpy是个好选择，使用

pip3 install gpxpy 即可安装。

gpxpy提供了丰富的接口，当然为了统计，我们只需要提取一部分数据：

def readgpx(x):
file= open(dir+x+'.gpx','r')
txt=file.read()
gpx=gpxpy.parse(txt)
mv=gpx.get_moving_data()
dat= {'移动时间':mv.moving_time,'静止时间':mv.stopped_time,'移动距离':mv.moving_distance,'暂停距离':mv.stopped_distance,'最大速度':mv.max_speed};
dat['总时间']=(gpx.get_duration())
dat['id']=str(x)
updown=gpx.get_uphill_downhill()
dat['上山']=(updown.uphill);
dat['下山']=(updown.downhill)
timebound=gpx.get_time_bounds();
dat['开始时间']=(timebound.start_time)
dat['结束时间']=(timebound.end_time)
p=gpx.get_points_data()[0]
dat['lat']=p.point.latitude
dat['lng']=p.point.longitude
file.close()
return dat

登录后复制

readgpx函数会读取文件名x，并将一个字典返回。并得到类似下面的一张表：

因为我们只需要绘制北京的区域，因此需要一个坐标表达式筛掉北京之外的地区。筛选代码使用了pandas,在附件里有更详细的代码。

exceptids=详细[(详细.lng<116.1)|(详细.lng>116.7)|(详细.lat<39.9)|(详细.lat>40.1)].id

def filtercity(r):
sp=r.split('/')[-1].split('.')
if sp[1]!='gpx':
return False;
if sp[0] in exceptids.values:
return False;
return True; 
bjids= [r for r in gpxs if filtercity(r)]

登录后复制

这样，我们就将所有在北京完成的运动数据筛选了出来。

4.绘制GPS数据

反复造轮子是不好玩的，绘制gpx已经有比较强大的库，地址在http://avtanski.net/projects/gps/

很不幸，这个库使用Perl作为开发语言，并使用了GD作为视觉渲染库。我花费了大量的时间，在安装GD上面。

Ubuntu默认安装Perl, GD是需要libgd的，libgd却在官网上极难下载，下载后却又发现版本不对，这让我在国外互联网上遨游了好几个小时，都要死掉了。。。到最后，我才发现，安装libgd库只要下面这一步就可以了：

apt-get install libgd-gd2-perl

我觉得这就是apt-get方式坑爹的地方，apt get gd 或者libgd根本找不到，如果不去查，谁知道这么写啊！至于Perl的CPan管理工具，哎，不说了都是泪。

接下来下载gd 2.56，算是非常新的版本。找了各种中文版的安装步骤，发现都有问题。这种事情，最好的办法还是看README.MD啊！

解压之后，perl ./Makefile.PL

之后make

make install

然后就可以了。。。。。。

这份gpx绘制库是这么介绍自己的：

This folder contains several Perl scripts for processing and plotting

GPS track data in .GPX format. 它的readme有不少使用上的说明，当然我们不废话，把所有的gpx数据拷贝到sample_gpx文件夹下，然后华丽丽的运行 ./runme.sh 如果没有问题的话，应该是下面这样：

[/code

我假设各位读者对bash都已经很熟悉了，修改runme.sh文件，可查看更多的选项。最后得到的结果如下图：

当时看到这个结果，我都惊呆了！这是自己跑了2000公里左右的结果，北京三环内（主要集中在长安街以北）主要的道路都遍了。尤其北三环和北土城路（10号线北段）被我各种虐。每一段白线都是一段故事，每一个点都是我的一个脚印啊！

5.总结

这文章写得显然不够详细，远远没有hand by hand。而且并没有提供更多的数据分析（显然这些工作我都做了）不过相信跑步的程序员一定都很厉害，我这就权作抛砖引玉了。

其实完全可以做成一个web服务，跑友们上传自己的跑步软件的id，就可以自动渲染出各种漂亮的跑步路径和分析图，应该会很有意义吧！

这件事情花费了我七八个小时，简直吐血，大量的时间用在了如何安装GD上，而不是下载数据上。教训告诉我，一定要读安装包里自带的说明文档，因为库和库之间的版本不同，因此可能造成版本地狱，到时候新版本卸载不了，老版本没法用的时候可别说我没提醒啊！

值得一提的是，益动gps下载的gpx文件不带换行符，这导致gpx_disualization库无法解析它（这货正则表达式写错了），我懒得再去动perl正则，于是通过替换增加了换行符。

以上是小编给大家介绍的Python和Perl绘制中国北京跑步地图的方法，希望对大家有所帮助！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7333

Java教程

1627

CakePHP 教程

1351

Laravel 教程

1262

PHP教程

1209

显示更多

Related knowledge

如何使用Python查找文本文件的ZIPF分布 Mar 05, 2025 am 09:58 AM

本教程演示如何使用Python处理Zipf定律这一统计概念，并展示Python在处理该定律时读取和排序大型文本文件的效率。您可能想知道Zipf分布这个术语是什么意思。要理解这个术语，我们首先需要定义Zipf定律。别担心，我会尽量简化说明。 Zipf定律 Zipf定律简单来说就是：在一个大型自然语言语料库中，最频繁出现的词的出现频率大约是第二频繁词的两倍，是第三频繁词的三倍，是第四频繁词的四倍，以此类推。让我们来看一个例子。如果您查看美国英语的Brown语料库，您会注意到最频繁出现的词是“th

我如何使用美丽的汤来解析HTML？ Mar 10, 2025 pm 06:54 PM

本文解释了如何使用美丽的汤库来解析html。它详细介绍了常见方法，例如find（），find_all（），select（）和get_text（），以用于数据提取，处理不同的HTML结构和错误以及替代方案（SEL）

python中的图像过滤 Mar 03, 2025 am 09:44 AM

处理嘈杂的图像是一个常见的问题，尤其是手机或低分辨率摄像头照片。本教程使用OpenCV探索Python中的图像过滤技术来解决此问题。图像过滤：功能强大的工具图像过滤器

如何使用Python使用PDF文档 Mar 02, 2025 am 09:54 AM

PDF 文件因其跨平台兼容性而广受欢迎，内容和布局在不同操作系统、阅读设备和软件上保持一致。然而，与 Python 处理纯文本文件不同，PDF 文件是二进制文件，结构更复杂，包含字体、颜色和图像等元素。幸运的是，借助 Python 的外部模块，处理 PDF 文件并非难事。本文将使用 PyPDF2 模块演示如何打开 PDF 文件、打印页面和提取文本。关于 PDF 文件的创建和编辑，请参考我的另一篇教程。准备工作核心在于使用外部模块 PyPDF2。首先，使用 pip 安装它： pip 是 P