赵渺希：基于数据挖掘的建设用地承载效率研究

2015-07-09 16:47 来源：中国城市规划网

分享到:

编者按：

2015年5月23日至24日，由中国城市规划学会承办的中国科协年会分会场“大数据与城乡治理”研讨会于广州举行。华南理工大学建筑学院城市规划系副教授赵渺希作了题为《基于数据挖掘的建设用地承载效率研究--以广佛都市区为例》的报告。赵渺希副教授针对提高土地利用质量的要求，通过大数据和数据挖掘的方法手段进行用地承载效率的研究。他还特别指出，在大数据研究中，方法探索比数据获取更重要，面对大数据，应做到“以我为主”。

赵渺希小图.jpg

一、研究背景

图1.jpg

图1

图1是根据网络购物和电视购物的收获地址做的中国人口的分布，把中国的城镇化的格局很清晰地描绘出来，在这个图里可以看到城市和乡村在宏观的尺度已经比较明显了。另外我们也做了一些很好的数据背景的铺垫，我们拿了中国的统计年鉴，算了一下人均的建设用地指标，可以看到现在的人均建设用地的指标已经超过了120，这个趋势还会往上爬，到2020年可以达到130左右，之后会逐渐地下降，这是人均建设用地的背景。

把城镇化率与人口匹配起来做进一步的计算，加上前面的人均建设用地指标，可以看到人均建设用地在2020年达到顶峰，但是总量在2030年比较稳定。逐步下降的趋势可能在2030年之后，这个跟人口和城镇化的进程是密切相关的。

另外一个方面，我们的建设用地承载效率也存在着比较大的问题，比如鄂尔多斯等存在鬼城的情况，包括广东的一些城市，我觉得作为一个研究者应该有必要予以呼应。

具体在用地效率上，从研究层面，国内的研究基本上还是在县市区的层面，难以精确到中观尺度的用地。我这边因为是采用了一些点数据，我们是借鉴Harsay的思路，以土地使用强度为切入点，探讨土地的使用效率。因为用地效率没办法评判，但不同土地的居住活动、就业活动、游憩活动的强度各有强弱。而对于建设用地的使用强度的分析，我的一个观点必须考虑综合性的活动强度。

二、数据与方法

接下来就是数据与方法。这是一个研究方向，这个是申请的专利，我们从数据的挖掘到分项活动，包括居住、企业和游憩的活动，在此基础上进行分项的承载效率的赋权，最后把低值效率的区域识别出来，看看在实践的案例的区域是否存在着鬼城的现象。这是我们做的一个基本的方法。关于数据的获取有几个来源：一是居住活动数据，我们采用了对网络购物和电视购物地址的信息进行地址解析；二是企业活动数据，在深圳有一家企业数据购买的公司，我们是采用了企业名录的数据，企业的数据包括就业人口数据、产出信息；三是游憩活动数据，对微博数据进行了提取，对图片数据也进行了抓取，图片信息包括地理坐标的信息、上传时间、标题、作者等。

图2.jpg

图2

图2是我们对网络购物和企业的数据进行了地址解析，在百度的开放平台都可以做出来。在此基础上把单向的数据进行解析了之后划成一公里乘以一公里的栅格，把它转入到通常GIS可以使用的平台，在这个里面去计算单向的建设用地使用的强度，因为每个栅格的点的密度可以算出来，把人口普查的数据进行叠合，总共有5类数据，通过5类数据进行计算，形成建设用地承载效率的综合评定。

三、实证案例

图3

实践的案例选择的是广佛的都市区，我们这里有四张图，第一张图是居住活动承载效率，可以看到企业的营业收入聚集的特征更加明显，产业有一个集聚需求，跟居住的空间分布是不一样的，微博数据的集聚的特征比较明显，它跟企业的营业额的空间分布是比较相似的，谷歌的图片比较明显，这个就是出来的最终的广佛都市区的建设用地综合效率的评价，这个住得越高，承载的强度越高，在这个图里可以看到整个的建设用地是在蔓延的，具有一定的多中心特征，可以看到北部的从化，包括增城的荔城街，在东边接近东莞的是新塘，建设用地的效率都发展起来了。除了广州比较高以外，整个的南海用地的效率不是特别高，在顺德区和容桂比较高一些，用多元的数据可以实现建设用地综合的判断。我们用谷歌地图进行进一步的识别，把建设用地效率识别出来，可能有一些比较明显的土地的洼地，我们可以很直观地把建设用地效率比较低的用地识别出来。对珠三角进行了模拟，如果是按照这个低强度，排的最低的是肇庆，其次是惠州，最高的是深圳和广州。

回到传统规划的思考，传统的单中心模式土地的利用效率是逐渐递减的，珠三角的中心是有的，但是更多是在顺德和东莞，低效的土地建设用地是在蔓延的。我们调研时有一个感觉，比如原来珠三角的一些企业，因为大的经济环境比较好，以前很多外资和港资进来，很多企业赚快钱，到现在为止，这种土地低效蔓延和城乡不分的格局比较明显，对于这种多中心的格局，从规划的范式来说，我们还是要把它收紧。从我个人的偏好来说，我希望我们的这种“三旧改造”也好，工业园也好，按照比较理想的模式推进的话是可以实现中间（如图4）这个情景，但是现实情况是比较难的。比如城中村的土地是不是愿意释放出来，把它放到工业园区里获取利益，还是有很多问题的。

图4.jpg

图4

四、反思：研究的不足

多维数据可以揭示空间现象，但是各类大数据背后的BUG我们了解多少？以电视购物数据中的购物地址为例，用户的地址在空间上没有办法落位。一个比较好的办法是在百度的平台上去做，但是百度作为一个商务企业会受到制约，比如国家要求这个地理的坐标系下不能打得这么准确，与国家的地理信息的设立有一定的关联。微博的数据也是如此，比如发一个微博，你当时感受的场景跟你发的场所也是存在着偏差的，我们必须要很客观、很坦然地去面对前辈对我们的一些要求，这是我们必须要去做的。同时回到这个研究，建设用地是不是还有其他的维度可以去测度，比如交通拥堵的情况，现在还没有办法纳入进去，还有科技产出的一些因素等等。这样的话，从自我批判的角度，现在的研究是被数据牵着鼻子在走，我们的主动性是非常弱的。

五、展望：研究的拓展

我们还有很多的事情可以去做，我们结合前面提到的一些数据做了一些关联研究。方法的探索比数据的获取更加重要，我一直在做定量研究，每天跟数据打交道，对我来说这个数据的重要性并不是这么重要，这个数据的真实性、可靠性，对我们的影响会更大。所以说，大数据研究的关键是方法，一个有效的方法才有可能更好地推广，比如手机的数据如果拿不到的话，这个研究没有办法做，但是有没有可能有一些替代的方法做。有一句俗话说得好，方法总比困难多，七八十年代没有什么大数据，也需要做规划。

微博有很详细的属性，商务企业、餐饮这些设施可以分门别类地做进去，这些跟用地属性是可以完全匹配的，还有一些电视购物，是一些居住的数据，我们做了一些定义，去计算，比如第一类是商业，第二类是公用的服务设施的功能的强度，第三类就是居住功能的强度。通过各种各样的功能的强度可以快速对这个地方的用地的现状图，但是前提是边界是确定的。我们拿到这个图再跟原来现状的建设用地图进行校合，发现准确率是可以超过80%，这个就已经可以了，它是不需要去现场的，就坐在电脑旁前以很短的时间完成，这个工作的效率是多大，我想对于这个城市的发展战略，或者是快速的规划来说是非常好的。

图5：余荫山房.jpg

图5：余荫山房

另外就是前面讲到的图片数据，比如选择了广州的古典园林（如图5），在百度里搜索有很多的图片，这张图片的站点和视点，如果要一张效果图的话，要定一个相机的焦点和视点，这个照片人是站在什么地方，把原来靠经验值的做的这种园林分析，用现在的分析方法做出来，可以把互联网空间里众筹的照片进行小空间的分析。当然这个可能也是大数据的一个盲区，大数据对于小空间没有办法去做，对于照片的视点和焦点的还原，大数据是没有办法去做的，特别是一个小的园林里，绿化、假山这么多没有办法做，所以对于大数据来说，应该是以我为主，我们规划还是从设计本身，我们需要做什么设计，不能被大数据牵着鼻子走，不然的话永远没有办法达到我们所需要的效果。我们规划必须要走到前面，向大数据提出需求。

（根据速记整理，未经专家审阅）

分享到:

凡本网注明“来源：中国城市规划网”的所有作品，均为本网合法拥有版权或有权使用的作品，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：中国城市规划网”。违反上述声明者，本网将追究其相关法律责任。授权事宜请邮件至www@planning.org.cn，中国城市规划网保留最终解释权。

凡本网注明“来源：XXX（非中国城市规划网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。其他媒体如需转载，请与稿件来源方联系，如产生任何问题与本网无关。