全球数据资源开发者大赛
报名参赛
赛事:
赛题:
赛题:

一、初赛

1、 中国移动专题赛初赛要求提交《方案说明文档》,具体要求如下:

《方案说明文档》要求对整体方案进行说明,包括参赛者对数据分析、算法原理、方案设计及模型效果等方面做相关说明,提交的标准格式为PPT/PDF格式

2、初赛评选规则

初赛根据选手提交的《方案说明文档》材料完整度、方案设计和预期效果进行综合评估指标,择优进入封闭式路演复赛。

 

二、封闭式路演

1、封闭式路演参赛方式

封闭式路演由各参赛团队代表演示及说明《方案说明文档》,分为现场参赛和远程参赛两种形式,由专家评委对各团队演示进行打分,两种参赛形式按照同一评分标准进行。

2、复赛评选规则

复赛根据封闭式路演评分排名,最终每道赛题前5名的团队进入决赛。

 

三、决赛

1、进入决赛的团队将使用浙江移动大数据开放平台所提供的移动海量真实数据,进行模型调优,提交最终测试结果。

2、进入决赛的团队需要在浙江移动大数据开放平台提交csv格式的测试结果和可执行源代码,根据评测指标得分排名。


近年来,大数据技术及其应用在推进政府各项工作高效开展方面取得了一定成绩,推出了包括“最多跑一次”、“政务大数据”等多种综合应用服务,极大便利了政府工作开展,提升了普通百姓的办政体验。随着大数据技术的不断深化,政府政务中的应用领域也在不断被细分及拓深。浙江省政府为加快工程建设和电子不停车收费系统(ETC)发展,确保2019年底前全面取消全省高速公路省界收费站,实施不停车快捷收费,于2019年6月印发了《浙江省深化收费公路制度改革取消高速公路省界收费站实施方案》,目标新发展ETC用户750万户以上,在籍汽车ETC安装率达80%,高速公路入口车辆ETC使用率达到90%以上。

 

      本赛题通过算法评估,建立高契合度目标用户模型,服务政府便民办政,优化用户体验,提高办事效率,使ETC潜在用户快捷便利了解如何安装及合理使用ETC,减少政府告知教育成本,同时,最大程度避免对不必要接受此类信息的目标用户的打扰。顺利推进浙江省政府关于ETC相关工作的开展。

 

 


1、数据说明

本赛题除了可使用公共数据集外,还提供用户个人属性、通勤特征和消费行为数据。

用户个人属性表名为DataTech_ETC_Train_Attr,包括如下字段:

USER_ID

用户唯一标记

抽样&字段脱敏

ORIGIN

籍贯

用户籍贯

SEX

性别

1:男 ,0:女

AGE

年龄

用户年龄

CITY_ID

归属地市

归属地市

COUNTY_ID

归属区县

归属区县

INNET_DUR

入网时长

单位:月

VPMN_FLAG

是否虚拟网用户

1:是,0:否

GPR_MEMB_FLAG

是否集团网用户

1:是,0:否

COMM_NUM

交往圈大小

用户交往圈大小

COMM_VLD_NUM

有效交往圈大小

用户有效交往圈大小

IMEI

用户imei

当前所用终端imei

TERM_MDL

终端机型

当前作用终端机型

 

 

通勤特征数据表名为DataTech_ETC_Train_Travel,包括如下字段:

USER_ID

用户编码

抽样&字段脱敏

WORK_LACCI_NAME

工作地基站名称

工作地基站名称

STAY_LACCI_NAME

居住地基站名称

居住地基站名称

OUT_STIME_AVG

上班出门时间

上班出门时间

BACK_STIME_AVG

上班到达时间

上班到达时间

SPEED_AVG_AVG

平均速度

单位:米/秒

FLUX_TOT_AVG

途中平均流量

途中平均流量

APP_CNT_AVG

途中APP使用个数

途中APP使用个数

LACCI_CNT_AVG

途经基站个数

途经基站个数

 

 

消费行为数据表名为DataTech_ETC_Train_Upay,包括如下字段:

USER_ID

用户唯一标记

抽样&字段脱敏

FACT_FEE

本月出账费

单位:分

L1M_FACT_FEE

上月出账费

单位:分

L2M_FACT_FEE

上上月出账费

单位:分

CALL_FEE

本月通话费

单位:分

L1M_CALL_FEE

上月通话费

单位:分

L2M_CALL_FEE

上上月通话费

单位:分

GPRS_FEE

本月数据流量费

单位:分

L1M_GPRS_FEE

上月数据流量费

单位:分

L2M_GPRS_FEE

上上月数据流量费

单位:分

 

  

用户办理ETC数据,表名为DataTech_ETC_Intention_Train,包括如下字段:

USER_ID

用户唯一标记

抽样&字段脱敏

USER_FLAG

是否办理ETC标识

1:办理    0:未办理

 

  

2、任务描述

训练数据部分:

本赛题提供用户在一个月时间之内的个人属性、通勤特征、消费行为信息(2019.5.1~2019.5.31),以及部分用户在未来一个月(2019.6.1~2019.6.30)的办理ETC行为数据。

公共数据集提供用户3个月的基础信息,以及在一个月时间之内(4.1~5.31)的通话、轨迹和上网行为数据。

预测数据部分:

2019.6.1到2019.6.30日用户是否会办理ETC。

为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

数据中部分列存在空值或NULL,请参赛者自行处理。

 

评分数据格式:

参赛者完成对ETC便民服务群体预测之后,需要将结果放入指定格式的数据表中,要求结果表名为:DataTech_ETC_Intention_Test,格式同DataTech_ETC_Intention_Train,要求去除重复,并提交可执行源代码。

 

3、数据文件

初赛数据

初赛阶段提供1个用户的完整行为数据,选手从数据中自行组成特征和数据格式,自由组合训练测试数据比例。

此阶段数据可下载使用。


决赛数据

决赛阶段提供20万个用户的完整行为数据,预测DataTech_ETC_Intention_Test表中指定用户的办理ETC行为。

此阶段数据不可下载,决赛入围选手完成浙江移动大数据开放平台赋权后,需使用平台完成数据处理、建模、算法调试、产出结果等所有环节。

 


本赛题采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:

image.png


其中PredictionSet为算法预测的办理ETC数据集合,ReferenceSet为真实的办理ETC数据集合。我们以F1值作为最终的唯一评测标准。

 

 


请至个人中心赛题下载处下载

一、初赛

1、 中国移动专题赛初赛要求提交《方案说明文档》,具体要求如下:

《方案说明文档》要求对整体方案进行说明,包括参赛者对数据分析、算法原理、方案设计及模型效果等方面做相关说明,提交的标准格式为PPT/PDF格式

2、初赛评选规则

初赛根据选手提交的《方案说明文档》材料完整度、方案设计和预期效果进行综合评估指标,择优进入封闭式路演复赛。

 

二、封闭式路演

1、封闭式路演参赛方式

封闭式路演由各参赛团队代表演示及说明《方案说明文档》,分为现场参赛和远程参赛两种形式,由专家评委对各团队演示进行打分,两种参赛形式按照同一评分标准进行。

2、复赛评选规则

复赛根据封闭式路演评分排名,最终每道赛题前5名的团队进入决赛。

 

三、决赛

1、进入决赛的团队将使用浙江移动大数据开放平台所提供的移动海量真实数据,进行模型调优,提交最终测试结果。

2、进入决赛的团队需要在浙江移动大数据开放平台提交csv格式的测试结果和可执行源代码,根据评测指标得分排名。

      保障中国经济的稳步健康发展,应对外部世界的激烈竞争,最根本的是对人才体系的规划及建设。当今社会的人才群体可分为干才、将才、帅才、通才,他们分别活跃于基层、一线或各类管理岗位上,要保证人才结构的健康可持续发展,既要关注各群体新员工的招纳和培养,也要保证经验员工的发展空间和激励机制,避免优秀人才流失。人力资源社会保障部印发的《“互联网+人社”2020行动计划》指出,推动人社工作智慧化发展,利用互联网技术及思维实现决策科学化、管理精准化、服务人本化,通过新技术实现“聪明的服务”才能为人社工作提供可持续发展的未来,才能真正保障各类型公司、企业、单位人才结构的不断优化,从根源上推动中国经济的稳步健康发展。


      本赛题结合浙江移动精准位置能力,以各公司员工工作地位置数据变化情况进行算法评估,建立意向离职用户模型,通过模型找到有离职意向的各类型价值用户,并可辅助用人单位给出有针对性的人才慰留策略。


1、数据说明

本赛题除了可使用公共数据集外,还提供用户个人属性、业务使用和消费行为数据。

用户个人属性表名为DataTech_Resign_Train_Attr,包括如下字段:

USER_ID

用户唯一标记

抽样&字段脱敏

ORIGIN

籍贯

用户籍贯

SEX_NEW

性别

1:男 ,0:女

CITY_ID

归属地市

归属地市

COUNTY_ID

归属区县

归属区县

USER_CREDIT_ID

用户星级

用户星级

INNET_DUR

入网时长

单位:月

VPMN_FLAG

是否虚拟网用户

1:是,0:否

GPR_MEMB_FLAG

是否集团网用户

1:是,0:否

COMM_NUM

交往圈大小

用户交往圈大小

COMM_VLD_NUM

有效交往圈大小

用户有效交往圈大小

ISMARR

是否已婚

1:是,0:否

HAVEOLD

是否有老人

1:是,0:否

FERTILE

是否已育

1:是,0:否

OCCU

职业

用户职业

EDU_LEVEL

教育程度

用户教育程度

IF_EXECUTIVE

是否企业高管

1:是,0:否

IF_BUSINESS

是否商务人士

1:是,0:否

IF_SALARIAT

是否外来务工人员

1:是,0:否

INCOME_LEVEL_ID

收入水平

用户收入水平

HAS_CAR

是否有车

1:是,0:否

 

 


业务使用数据表名为DataTech_Resign_Train_Busi,包括如下字段:

USER_ID

用户唯一标记

抽样&字段脱敏

TOT_CALL_CNT

当月通话总次数

用户当月通话总次数

TOT_CALL_DUR

当月通话总时长

单位:分

LM_TOT_CALL_CNT

上月通话总次数

用户上月通话总次数

LM_TOT_CALL_DUR

上月通话总时长

单位:分

L2M_TOT_CALL_CNT

上上月通话总次数

用户上上月通话总次数

L2M_TOT_CALL_DUR

上上月通话总时长

单位:分

NET_FLUX

当月手机上网流量

单位:B

LM_NET_FLUX

上月手机上网流量

单位:B

L2M_NET_FLUX

上上月手机上网流量

单位:B

 

 

 

消费行为数据表名为DataTech_Resign_Train_Upay,包括如下字段:

USER_ID

用户唯一标记

抽样&字段脱敏

FACT_FEE

本月出账费

单位:分

L1M_FACT_FEE

上月出账费

单位:分

L2M_FACT_FEE

上上月出账费

单位:分

CALL_FEE

本月通话费

单位:分

L1M_CALL_FEE

上月通话费

单位:分

L2M_CALL_FEE

上上月通话费

单位:分

GPRS_FEE

本月数据流量费

单位:分

L1M_GPRS_FEE

上月数据流量费

单位:分

L2M_GPRS_FEE

上上月数据流量费

单位:分

 

 

 

用户离职数据,表名为DataTech_Resign_Train_Extra,包括如下字段:

USER_ID

用户唯一标记

抽样&字段脱敏

flag

是否离职标识

1:离职    0:未离职

 

  

2、任务描述

训练数据部分:

本赛题提供用户在一个月时间之内的个人属性、业务使用、消费行为信息(2019.4.1~2019.4.30),以及部分用户在未来一个月(2019.5.1~2019.5.31)的离职行为数据。

公共数据集提供用户3个月的基础信息,以及在一个月时间之内(4.1~5.31)的通话、轨迹和上网行为数据。

预测数据部分:

2019.5.1到2019.5.31日用户是否会离职。

为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

数据中部分列存在空值或NULL,请参赛者自行处理。

 

评分数据格式:

参赛者完成对用户离职行为预测之后,需要将结果放入指定格式的数据表中,要求结果表名为:DataTech_Resign_Test_Extra,格式同DataTech_Resign_Train_Extra,要求去除重复,并提交可执行源代码。

 

3、数据文件

初赛数据

初赛阶段提供1个用户的完整行为数据,选手从数据中自行组成特征和数据格式,自由组合训练测试数据比例。

此阶段数据可下载使用。


决赛数据

决赛阶段提供50万个用户的完整行为数据,预测DataTech_Resign_Test_Extra表中指定用户的离职行为。

此阶段数据不可下载,决赛入围选手完成浙江移动大数据开放平台赋权后,需使用平台完成数据处理、建模、算法调试、产出结果等所有环节。


本赛题采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:

image.png

其中PredictionSet为算法预测的离职数据集合,ReferenceSet为真实的离职数据集合。我们以F1值作为最终的唯一评测标准。

 


请至个人中心赛题下载处下载

一:关于初赛

 

行业算法赛的初赛提交测试结果、《方案说明文档》和完整的程序代码:

 

1)测试结果命名按赛题说明中的要求提交,格式为csv;

 

2)《方案说明文档》是对整体方案的说明,包括参赛者对数据分析,算法原理,方案设计及模型效果等各个环节的相关说明。提交的标准格式为PPT或PDF格式;

 

3)程序代码支持python和Java,具体要求见第三点规则;

 

4)三份材料放至同一文件夹并压缩,命名方式为“赛题序号+团队名称”,例如“模型挑战赛赛题一+团队名称”,提交作品方式为在网站上传提交压缩文件。

 

根据评测指标得分排名,前10名团队队伍进入决赛。

 

 

 

二:关于决赛

 

行业算法赛的决赛阶段,选手将使用权限更大的各题目大量数据,进行模型调优提交最终测试结果、《调参文档》和完整的程序代码:

 

1)测试结果命名按赛题说明中的要求提交,格式为csv;

 

2)《调参文档》是由于数据量增大,针对模型的一些调参内容,提交的标准格式为PPT或PDF格式;

 

3)程序代码支持python和Java,具体要求见第三点规则;

 

4)三份材料放至同一文件夹并压缩,命名为“赛题+团队名称”,例如“模型挑战赛赛题一+团队1”,提交压缩文件。

 

 

 

三:评估环境要求

 

操作系统:Ubuntu16

 

内存:128GB

 

GPU:Nvidia Quadro M4000 8G

 

 

 

Python 环境

 

Python2(Python2.7版本以上)

 

支持numpy, scipy, pandas, tensorflow1.4, tflearn, keras

 

 

 

Python3(Python3.6版本以上)

 

支持numpy, scipy, pandas, tensorflow1.4, tflearn, keras

 

备注:请自行将项目依赖包通过requirements.txt形式导出。

 

 

 

Java环境

 

JDK1.8

 

操作系统:Ubuntu16

 

内存:128GB

 

GPU:Nvidia Quadro M4000 8G

 


       随着信息技术和互联网技术的发展,人们从信息匮乏时代步入了信息过载时代,在这种时代背景下,人们越来越难从大量的信息中找到自身感兴趣的信息,信息也越来越难展示给可能对它感兴趣的用户,而推荐系统的任务就是连接用户和信息,创造价值。

 

        透明售房网,作为权威、即时、准确的商品房、二手房交易数据网站,为杭州百姓买房、卖房提供了重要参考。杭州中房信息科技有限公司为了鼓励大数据技术应用于传统行业,赋能行业发展,特设定本题。本题针对透明网访问用户,,通过用户在透明网留下的轨迹,预测用户未来可能访问的楼盘,用于楼盘精准推荐。

 


1. 数据说明

本赛题提供用户行为表,包括如下字段:

 

visitUserId

访问用户ID

匿名的访问用户ID

sessionId

访问ID


domain

域名

访问的域名

page

当前页面

网站页面

href

标签内的跳转链接

标签内的跳转链接(如果没有则为null)

requestValue

请求值

该消息的值,例如标签的value

pageRequestId

页面请求id

页面唯一的id,用于与页面数据join

actionRequestId

行为请求id

事件唯一id

Time

事件产生时间

事件产生时间

 

用户页面表,包括如下字段:

 

visitUserId

访问用户ID

匿名的访问用户ID

sessionId

访问ID


platform

平台

访问所属平台,可能值为 iOS / Android / Web 等

domain

域名

访问的域名

page

当前页面

网站页面

queryParameters

查询参数

当前网站页面URL中的查询参数

referrer

页面来源

当前页面浏览的引荐来源

title

页面Title

页面Title

loginUserId

登录用户ID

登录用户ID

pageRequestId

页面请求id

页面唯一的id,用于与行为数据join

vstRequestId

访问请求id

页面唯一的id,用于与访问属性数据join

Time

事件产生时间

事件产生时间

 

 

用户访问属性表,包括如下字段:

 

visitUserId

访问用户ID

匿名的访问用户ID

sessionId

访问ID


platform

平台

访问所属平台,可能值为 iOS / Android / Web 等

domain

域名

访问的域名

page

当前页面

网站页面

queryParameters

查询参数

当前网站页面URL中的查询参数

referrer

页面来源

当前页面浏览的引荐来源

language

系统语言


screenHeight

屏幕高度


screenWidth

屏幕宽度


ip

IP地址


userAgent

User Agent

例如浏览器信息或者移动设备信息

operatingSystem

操作系统


operatingSystemVersion

操作系统版本


deviceBrand

设备品牌


deviceType

设备类型

设备类型:1为手机,2为平板

deviceOrientation

设备方向

请求产生时设备方向

longitude

地理位置经度

地理位置经度(longitude)

latitude

地理位置维度

地理位置维度(latitude)

vstRequestId

访问请求id

页面唯一的id,用于与页面数据join

Time

事件产生时间

事件产生时间

 

以及部分楼盘基础数据,参赛选手可自行扩充楼盘基础信息。

 

2. 任务描述

        本赛题提供2019年4月1日-2019年5月15日购房者的透明网用户访问数据。

 

        选手结合房地产行业知识通过对数据的清洗,处理加工,预测目标用户在2019年5月16日-2019年5月31日时间段内可能访问的楼盘列表(至多不超过5个,且楼盘id包含在已提供的楼盘信息表中),产生任意行为则记为预测准确。

 

         数据中部分列存在空值或NULL,请参赛者自行处理。为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

 


评分数据格式:

参赛者完成预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:User_Prediction,格式同如下,要求去除重复,prediction中的楼盘字段以英文逗号分隔(由于选手提交格式导致结果无法验证情况,选手自行承担责任)。

visitUserId

Prediction

如10001

20003,20004,20005

 

初赛阶段

初赛阶段提供部分用户抽样数据。

初赛阶段选手需提供方案文档说明书(pdf),包含完整的数据处理过程,完整的程序代码(支持python和Java,下同)以及User_prediction结果表。

 

决赛数据

决赛阶段提供该时间段完整用户数据。

决赛阶段选手需提供数据量增大,针对模型的一些调参内容(pdf),完整的程序代码以及User_prediction结果表。

 

评估指标

本赛题采用MAP@5计算得分

先计算用户ap@5,再对所有用户的ap@5求平均

P(k)是前k 个推荐结果中,用户产生行为的楼盘数占比

注意1:如果第k个推荐结果用户没有行为,则P(k)=0

注意2:ap@5的分母是5.16-5.31阶段用户有行为的楼盘数量与5的最小值

 

 1.png

      后对最终结果通过专家组对数据处理方案进行评价,评定后给出成绩。 

 


 

      


请至个人中心赛题下载处下载

一:关于初赛

 

行业算法赛的初赛提交测试结果、《方案说明文档》和完整的程序代码:

 

1)测试结果命名按赛题说明中的要求提交,格式为csv;

2)《方案说明文档》是对整体方案的说明,包括参赛者对数据分析,算法原理,方案设计及模型效果等各个环节的相关说明,。提交的标准格式为PPT或PDF格式;

3)程序代码支持python和Java,具体要求见第三点规则;

4)三份材料放至同一文件夹并压缩,命名方式为“赛题序号+团队名称”,例如“模型挑战赛赛题一+团队名称”,提交作品方式为在网站上传提交压缩文件。

 

对提交结果进行筛选,剔除文档思路不清晰、代码无法复现、程序流程中有试凑结果嫌疑的团队,根据评测指标得分排名,前50名团队队伍进入复赛。

 

 

二:关于复赛

 

行业算法赛的复赛阶段,选手将使用权限更大的各题目大量数据,进行模型调优提交最终测试结果、《调参文档》和完整的程序代码:

 

1)测试结果命名按赛题说明中的要求提交,格式为csv;

2)《调参文档》是由于数据量增大,针对模型的一些调参内容,提交的标准格式为PPT或PDF格式;

3)程序代码支持python和Java,具体要求见第三点规则;

4)三份材料放至同一文件夹并压缩,命名为“赛题+团队名称”,例如“模型挑战赛赛题一+团队1”,提交压缩文件。

 

对提交结果进行筛选,剔除文档思路不清晰、代码无法复现、程序流程中有试凑结果嫌疑的团队,再根据评测指标得分排名,前5名团队队伍进入决赛进行现场答辩。

 

三:关于决赛答辩

 

行业算法赛的决赛阶段,选手将使用的算法制作成PPT进行现场汇报,并回答专业评委提问,由专业评委对算法的有效性、实用性、创新性进行评价,以复赛成绩为基础决定最后名次。

 


        随着人口老龄化趋势加快,对老年人的照顾服务工作已经成为社会民生的重点关注问题,“智慧养老”已成为未来的发展趋势。而电力数据除了蕴藏着巨大的能量和商业价值,同样也可以挖掘重大的社会价值,服务于社会民生。本次竞赛将居民用电数据与社区关爱独居老人工作相结合,基于杭州市某社区委员会通过上门排查确定的70岁以上独居老人标签,参赛者利用机器学习和深度学习等人工智能模型来创新性的构建独居老人识别模型,实现对未排查小区中独居老人用户的预测。进一步对所有用户的用能数据进行可视化分析和挖掘,开发各类居民数据分析产品,支撑社会民生服务。

 


一、数据说明

给出某小区用户一个月的电表用电数据;以及通过排查确定的用户是否为70岁以上独居老人的分类标签数据。

预赛:给出Train_Aged、Label_Aged、Test1_Aged。

决赛:给出Train_Aged、Label_Aged、Test2_Aged。

训练数据:

1. 训练用电数据集Train_Aged:

每户用户电表提供以下实时运行数据,采样频率为每15分钟1次,部分旧表用户为每天1次。

序号

字段名称

1

用户编号

2

数据时间

3

A相电压

4

A相电流

5

有功功率

6

正向有功总电能

7

N相电流

8

功率因数


2. 用户标签数据集:Label_Aged

序号

字段名称

说明

1

用户编号


2

是否70周岁以上独居老人

布尔变量(是1/否0)

3. 参赛选手不得使用参赛数据集以外的数据;

4. 进入决赛阶段的参赛队伍需进行代码审核。

预测数据:

1. 预测数据集:Test1_Aged/Test2_Aged

序号

字段名称

1

用户编号

2

数据时间

3

A相电压/V

4

A相电流/A

5

有功功率/kW

6

正向有功总电能/kWh

7

N相电流/A

8

功率因数


二、任务描述

(一)独居老人识别

参赛选手从数据中自行组成特征和数据格式训练数据,建立识别算法模型(如有部分数据质量问题,请参赛者自行处理)。完成识别之后,需要同时提交算法模型及结果数据。数据提交格式及字段要求如下:

预赛:选手根据Train_Aged、Label_Aged训练识别模型,判别Test1_Aged中的用户是否为独居老人,提交DIS_Aged;

决赛:选手根据Train_Aged、Label_Aged训练识别模型,判别Test2_Aged中的用户是否为独居老人,提交DIS_Aged;

预赛/决赛提交表名为:DIS_Aged

序号

字段名称

说明

1

用户编号


2

是否70周岁以上独居老人

布尔变量(是1/否0)

将各参赛选手通过算法模型计算得出的结果与该区域实际独居老人数据比较,根据偏差情况排名。

实际用电数据由国网杭州供电公司提供。

 

(二)居民用能数据可视化分析

通过对居民用能数据进行可视化分析,以优化社会民生为目的,对社区服务提供决策支撑。参赛者以提供的用电数据为基础,可以结合各类外部数据,开展各类用户用能数据分析,但须注明数据来源。

分析内容包括但不限于:1)独居老人的进一步识别及可能发生的异常情况识别;2)社区居民用能行为规律探索;3)不同类型居住人群聚类分析等方面。

参赛者需提交作品包括但不限于:1)可视化分析报告;2)若作品是编程实现,则须提交源代码和可执行程序;3)若作品是交互式设计,则须提交视频或交互式网页、APP等。

 

 

 


三:评估环境要求

 

Python 环境

 

Python2.7.12

 

支持numpy, scipy, pandas, tensorflow1.4, tflearn, keras

 

 

 

操作系统:Ubuntu16

 

内存:128GB

 

GPU:Nvidia Quadro M4000 8G

 

 

 

Java环境

 

JDK1.8

 

操作系统:Ubuntu16

 

内存:128GB

 

GPU:Nvidia Quadro M4000 8G

 

四、可视化竞赛

 

可视化竞赛参赛者需提交作品包括但不限于:1)可视化分析报告;2)若作品是编程实现,则须提交源代码和可执行程序;3)若作品是交互式设计,则须提交视频或交互式网页、APP等。

评委将综合作品的质量、社会价值、创新性等因素评定进行打分(百分制),筛选出前五的作品进入现场答辩。

评价项目

分值

作品质量

美观性

10

交互性

10

简洁性

10

社会价值

50

创新性

20

 

现场答辩时,评委根据选手答辩效果、回答问题的质量进行打分(百分制)。

 

 

评价项目

分值

展示环节

演讲水平

25

展示文档质量

25

回答质量

50

最后的按照0.8*作品分数+0.2*答辩分数计算总得分,按照总得分排序。

 


请至个人中心赛题下载处下载

. 关于初赛

行业算法赛的初赛阶段,选手需提交的内容包括:测试结果、《方案说明文档》和完整的程序代码。

1)测试结果命名按赛题说明中的要求,提交格式为.csv文件;

2)《方案说明文档》是对整体方案的说明,包括参赛者对数据分析,算法原理,方案设计及模型效果等各个环节的相关说明,提交的标准格式为PPT或PDF格式;

3)程序代码支持python和Java,具体要求见第三点规则;

4)三份材料放至同一文件夹并压缩,命名方式为“赛题序号+团队名称”,例如“行业算法赛赛题三+团队名称”,提交作品方式为在网站上传提交压缩文件。

根据评测指标得分排名,前10名团队队伍进入决赛。

 

. 关于决赛

行业算法赛的决赛阶段,选手将使用权限更大的各题目大量数据,进行模型调优。需提交的内容包括:最终测试结果、《调参文档》和完整的程序代码。

1)测试结果命名按赛题说明中的要求,提交格式为.csv文件;

2)《调参文档》是由于数据量增大,针对模型的一些调参内容,提交的标准格式为PPT或PDF格式;

3)程序代码支持python和Java,具体要求见第三点规则;

4)三份材料放至同一文件夹并压缩,命名方式为“赛题序号+团队名称”,例如“行业算法赛赛题三+团队名称”,并提交压缩文件。

对提交结果进行筛选,剔除文档思路不清晰、代码无法复现、程序流程中有试凑结果嫌疑的团队,再根据评测指标得分排名,前5名团队队伍进入决赛进行现场答辩。现场答辩阶段,选手将使用的算法制作成PPT进行现场汇报,并回答专业评委提问,由专业评委对算法的有效性、实用性、创新性进行评价,以复赛成绩为基础决定最后名次。

 

. 评估环境要求

操作系统:Ubuntu16

内存:128GB

GPU:Nvidia Quadro M4000 8G

Python 环境

Python2(Python2.7版本以上)

支持numpy, scipy, pandas, tensorflow1.4, tflearn, keras等基础工具包

 

Python3(Python3.6版本以上)

支持numpy, scipy, pandas, tensorflow1.4, tflearn, keras等基础工具包

备注:请自行将项目依赖包通过requirements.txt形式导出。

 

Java环境

JDK1.8

操作系统:Ubuntu16

内存:128GB

GPU:Nvidia Quadro M4000 8G

 


      当下,大数据正在改变我们的生活,杭州移动办事服务APP是信用、大数据融合赋能重要场景,移动办事服务APP是移动办事之城的重要承载者,是“最多跑一次”的升级版。移动办事APP涉及领域广,民众感受度高,APP叠加政务、公共、社会等大量基础服务,与百姓关联度高。利用大数据提升移动办事服务APP的用户体验,使之能够更好服务人民群众是本赛题的初衷。

 

     依据个人主体信息和行为信息预测用户需求是互联网应用常用的技术手段,但政务、公共及社会服务与电商等应用场景存在差异,我们希望找到更有效的模型和算法,为杭州移动办事服务的用户体验的提升提供数据支撑。

 

     本赛题要求依据个人主体信息,以及3-5三个月的个人办事服务行为数据,预测个人在6月份的办事服务行为。

 


数据说明

本赛题提供训练数据集和待标注的测试集,数据集格式为.csv文件。

 

1. 训练集

 

user_train.csv文件中包含10000个用户的基本信息,detail_train.csv文件中包括用户3-6月份共四个月的应用访问行为日志信息,表字段说明如下。

 

用户基本信息

 

用户编号,性别,年龄,注册时间等

 

用户行为日志

 

用户编号,登录ip,应用ID, 登录时间,手机品牌、系统版本、系统版本号,入口,手机型号等

 

2. 测试集

 

User_test.csv文件包含10000个用户的用户基本信息,detail_test.csv文件包含用户3、4、5共3个月的应用访问行为日志信息,表及字段说明如上。

 

3. 数据来源

 

本赛题的数据主要来自杭州移动办事服务APP已脱敏的真实业务数据。参赛选手也可参考“杭州办事服务APP”的其他有关公开数据,但需要对数据进行说明。

 

4.任务描述

 

参赛选手从训练数据中自行组成特征和数据格式,建立预测算法模型(如有部分数据质量问题,请参赛者自行处理),预测测试集中10000个用户6月份最可能会访问的10个办事服务应用及排序情况。完成预测之后,需要同时提交算法模型及结果数据。数据提交格式为.csv文件,文件名为user_search_predict.csv,具体字段要求参考sample_submission.csv文件。

 



1. 对参赛选手提交的M个测试用户在6月份的应用序列排序,拟采用MAP(Mean Average Precision)值作为评估指标。


2. MAP计算公式如下:

L@2E(F[`FQ9EYVDA0(TD7R6.png

1567068929(9).jpg1567068929(7).jpg1567068929(6).jpg



其中,G9(22@Y(A_EG`5PL{IR$625.png是 J 用户6月份实际访问应用的个数(T(_0N~{0B5P3YG6S`HNL]1J.png), 1567068929(3).jpg 为应用的排序位置,1567068929(4).jpg 为排序前1567068929(3).jpg个应用中预测正确的个数所占的比例(1567068929(6).jpg), 1567068929(7).jpg为第1567068929(3).jpg个位置预测的应用是否被用户实际访问,1567068929(9).jpg表示被实际访问,1U[_P2A(I8]%KD`K]S83KFU.png表示没有被实际访问。那么,求所有M个用户的C3966DCF41E6499BBC5127AA19AE4798.jpg平均值得到


9CB1609CADE74B6483046BFA563BF64D.jpg


3. 举例:假设a用户在6月份实际访问3个应用,参赛选手对3个应用的排序是1,5,9,则F8541DFE21F64BC3A20DABB9B5AA9C1D.jpg。b用户在6月份实际访问1个应用,参赛选手对1个应用的排序是5,则95E735DD9E9B414F8FAEA6749B59B0C0.jpg。最终,B60408A57F8A459E8470FA4D1E55D916.jpg

 



请至个人中心赛题下载处下载

一、关于初赛

行业算法赛的初赛提交测试结果、《方案说明文档》和完整的程序代码:

1)测试结果命名按赛题说明中的要求提交,格式为csv;

2)《方案说明文档》是对整体方案的说明,包括参赛者对数据分析,算法原理,方案设计及模型效果等各个环节的相关说明。提交的标准格式PDF格式;

3)程序代码支持python和Java,具体要求见第三点规则;

4)三份材料放至同一文件夹并压缩,命名方式为“赛题序号+团队名称”,例如“模型挑战赛赛题一+团队名称”,提交作品方式为在网站上传提交压缩文件。

 

根据评测指标得分排名,前10名团队队伍进入决赛。

 

 

二:关于决赛

行业算法赛的决赛阶段,选手将使用更完整的用户数据,进行模型调优提交最终测试结果、《调参文档》和完整的程序代码:

1)测试结果命名按赛题说明中的要求提交,格式为csv;

2)《调参文档》是由于数据量增大,针对模型的一些调参内容,提交的标准格式为PDF格式;

3)程序代码支持python和Java,具体要求见第三点规则;

4)三份材料放至同一文件夹并压缩,命名为“赛题+团队名称”,例如“模型挑战赛赛题一+团队1”,提交压缩文件。

 

三:评估环境要求

操作系统:Ubuntu16

内存:128GB

GPU:Nvidia Quadro M4000 8G

 

Python 环境

Python2(Python2.7版本以上)

支持numpy, scipy, pandas, tensorflow1.4, tflearn, keras

 

Python3(Python3.6版本以上)

支持numpy, scipy, pandas, tensorflow1.4, tflearn, keras

备注:请自行将项目依赖包通过requirements.txt形式导出。

 

Java环境

JDK1.8

操作系统:Ubuntu16

内存:128GB

GPU:Nvidia Quadro M4000 8G

市民卡致力于为市民办理个人社会事务和享受公共服务,随着市民需求的不断升级,市民卡公司需要更加精准的识别市民诉求,从而提升服务体验。


1.    数据说明

字段

字段描述

备注

user_id

用户id(已脱敏)


sex

性别


age_range

年龄段


star_sign

星座


marry_status

婚姻状态


have_child

是否有孩子


child_age_range

孩子年龄段


hang_reside

是否杭州户口


canbao_stat

参保状态


dev_brand

设备品牌


school_exercise

校园健身是否登记


school_recoder

校园健身是否有记录


soc_card_bind

是否绑定电子社保卡


orgdistrict_lst_home

家庭所在区


is_student

是否为大学生


house_click_cnt

累计房产类广告点击次数


internet_payment_his_num

线上累计支付次数


active_rate_3

app端3月活跃度


active_rate_4

app端4月活跃度


active_rate_5

app端5月活跃度


click_health_3

三月社保健康点击次数


click_health_4

四月社保健康点击次数


click_health_5

五月社保健康点击次数


click_activity_3

三月城市活动点击次数


click_activity_4

四月城市活动点击次数


click_activity_5

五月城市活动点击次数


click_saoma_3

三月扫码乘车点击次数


click_saoma_4

四月扫码乘车点击次数


click_saoma_5

五月扫码乘车点击次数


click_qinzi_3

三月亲子频道点击次数


click_qinzi_4

四月亲子频道点击次数


click_qinzi_5

五月亲子频道点击次数


click_jianshen_3

三月健身点击次数


click_jianshen_4

四月健身点击次数


click_jianshen_5

五月健身点击次数


click_qianjiangfen_3

三月钱江分点击次数


click_qianjiangfen_4

四月钱江分点击次数


click_ qianjiangfen_5

五月钱江分点击次数


is_qinzi

亲子频道是否点击或报名

只有样本数据有标签

is_jianshen

健身是否点击或报名

只有样本数据有标签

is_qianjiangfen

钱江分是否点击或开通

只有样本数据有标签

预测目标:

is_qinzi

亲子频道是否点击或报名

is_jianshen

健身是否点击或报名

is_qianjiangfen

钱江分是否点击或开通

说明:

1

点击或报名

0

未点击或报名

 

注:参赛选手也可以自行选择其他有关的公开数据,但应对数据及来源进行说明。


2.    任务描述

本赛题提供2019年3月1日-2019年5月31日用户访问数据及部分用户在6月1日-6月30日在各类活动是否会出现点击、报名的行为数据作为训练集。

选手结合相关行业知识通过对数据的清洗,处理加工,预测目标用户在2019年6月1日-2019年6月30日时间段内用户在各类活动是否会出现的点击、报名(或开通)行为。

数据中部分列存在空值或NULL,请参赛者自行处理。为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

评分数据格式:

参赛者完成对上述行为预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:DataTech_Predict,要求去除重复,预测结果以csv格式提交。

UserId

is_qinzi

is_jianshen

is_qianjiangfen

10001

1

0

1

10002

0

1

0

 

初赛阶段

初赛阶段提供部分用户抽样数据。

初赛阶段选手需提供方案文档说明书(pdf),包含完整的数据处理过程,完整的程序代码(支持python和Java,下同)以及DataTech_Predict结果表。

决赛数据

决赛阶段提供该时间段完整用户数据。

决赛阶段选手需提供数据量增大,针对模型的一些调参内容(pdf),完整的程序代码以及DataTech_Predict结果表。

 


本赛题采用精确度(precision)、召回率(recall)和F1-score作为评估指标。

具体计算公式如下:

 image.png

其中PredictionSet为算法预测的点击或报名数据集合,ReferenceSet为真实的点击或报名数据集合。我们以F1值作为最终的唯一评测标准。

由于本赛题是三个二分类的组合,因此在评判时将三个二分类F1-score的平均值作为最终的评测标准。比如:

预测目标

F1-score

is_qinzi

0.8

is_jianshen

0.7

is_qianjiangfen

0.9

final

0.8

 

 

 


 


请至个人中心赛题下载处下载

各个项目的主申报单位派出一名代表,依据融资商业计划书(PPT格式,16:9进行项目路演,路演时间为8分钟。

十城各赛区最后将选出优秀项目入围全国总决赛。

12月底将在杭州举办总决赛项目路演,资本聚焦。


5G相关项目重点推介

请至个人中心赛题下载处下载

WDD大赛官方QQ答疑群

大赛咨询:WDD大赛官方QQ答疑群(群号 870250916)

合作联系:wdd@datarda.com(大赛官方邮箱)

咨询电话:15167114970(仅工作日,9:00-12:00,14:00-17:30)