「竞赛」 津南数字制造算法挑战赛【赛场一】——异烟酸生产
津南数字制造算法挑战赛,着眼于智能制造;
竞赛主页:https://tianchi.aliyun.com/competition/entrance/231695/introduction
特征工程
介绍比赛的部分逻辑很乱,还得整理
一、 介绍
烟酰胺生产过程包含水解脱色、结晶甩滤等过程;每个步骤会受到温度、时间、压强等各方面因素的影响,造成异烟酸收率的不稳定;以往都是人工根据经验调整和优化生产过程中的参数,费时费力;
赛场一:原料企业工艺优化
赛场一以原料企业工艺优化为课题,要求选手以异烟酸生产过程中的各参数,设计精确智能的优秀算法,提升异烟酸的收率;
初赛:给定生产过程的各参数,输出最终异烟酸的收率;
复赛:给出生产过程的最优参数组合及最优参数情况下的收率;
赛场二:待发布
二、 数据
大赛包含有 2000 批次的实际生产数据;监测指标由两大工序数十个步骤构成;总生产步骤达 30 余项;
-
训练数据:jinnan_round1_train_20181227.csv
我们将工序和步骤分别用字母和数字代号表示,比如 A2,B5 分别表示A工序第二步骤和B工序第五步骤;样例数据参考训练数据; -
提交样例:jinnan_round1_submit_20181227.csv
初赛提交文件:异烟酸预测收率,第一列为异烟酸批次id,第二列为预测的异烟酸预测收率,以小数形式表示,建议保留小数点后三位;
复赛提交文件:1). 异烟酸最优参数组合及收率的 csv 文件不明白这个参数组合从哪来,难道只是从测试集中抽取
;该文件由两列组成,第一列为异烟酸生产工艺字段名称(来自于初赛训练文件的字段名);第二列给出为对应字段的参数值; 2). 提交生成1
的代码,该代码需要支持其他样本数据为输入;
注:复赛中的最优收率值:给出每一个工艺步骤的取值,使得收率值最高,要求每一个工艺步骤的取值范围必须在初赛所有数据集(含C榜,初赛结束后提供)的对应参数取值范围内(工艺步骤对应列的最小值到最大值之间);涉及到时间的工艺步骤不受限制; -
测试集 A:jinnan_round1_testA_20181227.csv
三、 评估指标
均方误差:\(f = \frac{1}{2m} \sum_{i=1}^{m}(y^{'}(i)-y(i))^2\)
其中 \(m\) 为总批次数,\(y'(i)\) 为预测的第i批次的收率值,\(y(i)\) 为第 \(i\) 批次的实际收率值;
四、 思路
Baseline,Baseline 解读,数据处理,观察 submmit,退赛 关于各参数字段意义的推测
榜单
附录
A 比赛信息
1. 赛程安排
- 初赛(2019年1月2日-2019年1月21日,UTC+8)
在线提交结果;
- 初赛一阶段(A榜):1月2日-1月20日;每天12:00 和 22:00 更新排行榜,以历史最优成绩进行排名展示;
- 初赛二阶段(B榜):1月21日20:00;1月21日12:00更换测试数据(加密),参赛队伍需再次下载数据文件,17:00公布新数据集密码;本轮仅1次评测机会,系统将在20:00进行评测,并清空排行榜进行重新排名;
- 初赛三阶段(C榜):1月22-23日 选手提交代码,主办方运行该代码来测试 C 榜数据(该代码要求能复现 B 榜答案); 初赛截止时,组委会将对参赛队伍提交结果进行审核,并抽查部分队伍提交代码接受审核,识别并剔除有作弊嫌疑的队伍,晋级空缺名额后补;
-
复赛(1月24日-1月31日,UTC+8 )
公布新的数据集,在线提交结果;并提交复赛代码;所有文件限提交一次; - 决赛(3月中旬,UTC+8 )
- 决赛将以现场答辩的形式进行;
1)晋级决赛团队需提前准备答辩材料,包括答辩 PPT、参赛总结、算法核心代码;
2)决赛将邀请每支队伍 2 位代表参加,由组委会承担差旅费用;具体安排另行通知; - 答辩现场,每支队伍面对评委有 15 分钟的陈述时间和 10 分钟的问答时间;评委将根据选手的技术思路、理论深度和现场表现进行综合评分;
- 决赛将以现场答辩的形式进行;
参赛对象:主办方外所有人,组队上限 3 人;
2. 排名规则
- 初赛:
初赛结果由 B 榜和 C 榜两次榜单最终排名序号简单相加,得到的最终值按照从小到大排序,并给出排名的序号,如序号相同,则 C 榜排名靠前的选手最终排名靠前; -
复赛
初赛前 100 的选手进入复赛,并提交复赛所需文件: 成绩:分为两个部分评测,即最优收率值和新数据预测;两个结果的简单相加,得到的最终值按照从小到大排序,并给出排名的序号,如序号相同,则最优收率值排名靠前的选手最终排名靠前;不明白这个最优收率值怎么确定的
- 决赛
初赛占比60%,复赛占比40%;例:复赛共有80组队伍提交结果,某选手在初赛排名第10,复赛排名20,则其总分数为(80-9)0.6+(80-19)0.4=67,分数越高排名越高,若分数一致,则以复赛排名高者为先;排名前 5 组队伍将晋级决赛;
算法成绩和答辩成绩加权得出;评分权重复赛公布;依据决赛分数评选出大赛奖项并举行隆重颁奖;
3. 比赛奖项
- 冠军:1支队伍,奖金4W RMB,颁发获奖证书
- 亚军:2支队伍,奖金2W RMB,颁发获奖证书
- 季军:2支队伍,奖金1W RMB,颁发获奖证书 (上述奖项以决赛答辩的最终名次决定)
4. 主办方
主办单位:天津市津南区政府,阿里云计算有限公司;
承办单位:天津津南城市建设投资有限公司;
协办单位:天津汉德威药业有限公司;
大赛数据提供方天津汉德威药业有限公司,为大赛提供真实生产数据及软硬件环境;
Comments