让交通领域发展成今天这般模样的技术究竟是什么呢?本期清华大数据技术·前沿系列讲座请到了著名交通网络建模和灾害管理专家——普度大学的Ukkusuri教授,为大家解开“数据驱动下的智能交通建模”背后的奥秘。
嘉宾简介
Ukkusuri博士2005年8月- 2009年8月在伦斯勒理工学院土木与环境工程系任职,2009年至2014年在普度大学担任副教授,2014年6月至今在普度大学教授交通系统和货运和物流规划课程,目前是交通和基础设施组的成员,领导跨学科交通建模和分析实验室,专注于为参杂其它网络的交通系统复杂网络问题找到解决方案来改善其性能,弹性以及可持续性。Ukkusuri博士也是公认交通网络建模和灾害管理专家。
一、数据革新下的交通模型
“无数据,不建模":model to data 到 data to model
传统的可用于交通建模的数据来源主要是交通基础设施(如地埋式感应线圈、超声波和激光检测器、视频等)。但是,这些数据往往数量较少,以致无法很好的反映真实情况。这种传统的建模方法被称为model to data,是考虑到数据现实状况之下的无奈之举。
令人欣喜的是,过去十年间收集和存储数据实现了技术革新,不仅增加了交通数据来源,也使数据量陡增,数据形式更加丰富。这些变化悄无声息地改变着居民们的出行行为,也使交通建模方法相应地发生了变化——data to model,让数据本身提供建模方向。这其中,最重要也是最明显的一个例子就是智能手机的出现以及智能传感器的大量应用。据估计到2019年智能机的拥有量将达到19亿,而这些智能机提供了无处不在的基于位置的登记服务。同时,实时传感设备早已不是什么新鲜事物。
“大数据”是什么:三点注意
尽管智能机、智能传感器等的大量应用使得我们可以挖掘到了很多实时信息,从而让大数据成为了必然的趋势,然而“大数据”这个概念究竟该如何理解,学界至今依旧争论不休。
Ukkusuri教授在业界对大数据概念公共认识的基础上提出以下几点看法:
大数据并不一定是“新”数据,它也可能是传统数据
大数据并不等于好数据,大数据中夹杂着噪声,应用大数据之前需要谨慎地处理;
大数据并不一定比“小”数据更优,更可靠,缘由同上。
由此可见,处理大数据是一项很复杂的工程。既然如此困难,为什么我们依旧一定要做呢?
这是因为,大数据相对于传统数据来说更具有代表性。据统计,美国每年有1670万手机用户使用“登记”服务,这其中又1270万(约为综述的76.3%)的用户使用智能手机设备;就在此刻,有3.8亿辆配备GPS设备的出租车在美国街头穿行。而过去几年中,Ukkusuri教授在进行交通建模时所用的数据大多就是来源于这些智能机和出租车轨迹数据。
二、大数据与交通领域融合案例
在有了大数据之后,下一步就是进行大数据建模,以求更深入地认识实际问题。这就要求我们不仅要会收集数据,还要学会选择适当的处理大数据的方法、选择合适的建模方法(如做可视化、机器学习、仿真、图像处理等)。其中,常见的机器学习算法就有分类(classification)、回归(regression)、聚类(clustering)、规则抽取(rule extraction)等四种具体手段。模型众多,如何从中选择合适的模型?Ukkusuri教授提出了6点建议。
地理定位数据与应用出租车旅行数据做链路行程时间估计
定义:地理定位数据(geo-location data)一般是指一段时间内的包含地理位置和时间的大样本数据。
特点:
(1)收集成本低;
(2)事件发生的具体时间点没有详细描述;
(3)考虑到隐私问题没有关于社会经济相关信息;
(4)在一些情况中,可能会缺失一些事件,如社交媒介的check-in数据。
应用:给出大规模出租车旅行数据,估算城市链路行程时间。要估算链路行程时间要解决以下三个子问题:
(1)数据映射到网络;
(2)路径推理;
(3)基于OD估计链路行程时间。
整体解决方案如下图所示:
模型如下图所示:
算法如下图:
社交媒体数据分析与城市活动模式分类
社交媒体数据形式多样。在Hasan, S., Zhan, X., & Ukkusuri, S. V. (2013, August). Understanding urban human activity and mobility patterns using large-scale location-based data from online social media. In Proceedings of the 2nd ACM SIGKDD international workshop on urban computing (p. 6). ACM.一文中,Ukkusuri教授使用了纽约check-in数据来对城市模式进行分类。
在这篇文章中使用的check-in数据如下图所示:
应用e-hailing数据来对出租车市场建模
Uber、滴滴等打车软件的出现对传统出租车市场影响很大,在给消费者带来切身利益的同时,我们也要考虑在这些打车软件出现后如何对出租车市场建模,以便提出适应当前状况的政策规范来出租车市场。针对这一问题,Ukkusuri教授建立了几个模型来尝试解决:
(1)传统出租车服务模型(traditional taxi service,TTS)
(2)基于app的第三方出租车服务平台模型(app-based third-party taxi service,ATTS)
(3)三方博弈模型(如下图所示)
(4)多重领导者-追随者模型(multiple-leader-follower game)
社交媒体数据分析与紧急疏散
在Ukkusuri, S. V., Zhan, X., Sadri, A. M., & Ye, Q. (2014). Exploring Crisis Informatics Using SocialMedia Data: A Study on 2013 Oklahoma 2 Tornado 3. Transportation Research Record, 44(45), 46.文章中应用社交媒体数据来应对紧急事件发生后人员疏散问题。
社交媒体数据分析与土地应用
在文章Zhan, X., Ukkusuri, S. V., & Zhu, F. (2014). Inferring Urban Land Use Using Large-Scale Social Media Check-in Data. Networks and Spatial Economics,14(3-4), 647-667.中应用社交媒体数据分析土地的合理应用。
在演讲后的问答环节,Ukkusuri教授回答了同学们关切的问题。整场活动干货满满,嘉宾精彩的分享使参与活动的学生和业界人士反应很强烈。
大数据潜力无穷,要想在交通大数据领域有所成就,同学们一定要在优化、统计、机器学习、复杂网络方面有多加学习,同时不断提高编程(c++、Python)能力,同时积极参与国际合作。
微信扫描二维码,关注公众号。