less than 1 minute read

竞赛主页:https://competition.aihero100.com/


长篇大论

一、 介绍

第四范式举办的验证码识别大赛,目的是模拟出按顺序(文字的意义)点击验证码中的文字;
赛程安排赛制奖项设置 ,作品提交邮箱:aihero@4paradigm.com
官方交流QQ群: 838795289

二、 数据

赛程 数据量(张) 说明
数据集 1 28116 无标注的验证码图片
数据集 2 18901 裁剪出来的文字图片及 OCR 标注信息
数据集 3 499 验证码图片检测信息标注
测试集 2000  

数据集3、数据集2中单个字的原始图片来源与数据集1、测试数据集中提供的原始图片采集来源可能不同,字体分布可能不一致,最终测试以测试数据集(测试数据集和数据集1来源相同)为准;
允许使用外部数据集;

三、 评估指标

  • 文字序列正确(文字识别正确且排列顺序正确);
  • 坐标序列中,每个字的中心坐标与真实坐标之间的绝对距离小于20个像素;

四、 思路

需要识别到图片中文字的位置及其顺序;官方建议使用现有的语言包进行排序 ngram

相关论文: 检测OCR

五、 榜单


TOP

附录

A 比赛信息

1. 赛程安排

赛程 时间(2019年) 地点 说明
初赛 10.1 - 本地调试,邮箱测评
决赛 10.15 - 评估最佳作品;

好奇怪,第四范式的研发能力应该是不需要举办比赛的呀

2. 赛制
First奖:比赛周期内最先达到基线效果 (测试准确率达到60%) 的;
Best奖:在比赛结束后,排名第一的;
优秀奖:最终成绩排名在第2-5位的;
每天的结果提交上限为 3 次;

3. 比赛奖项

奖项 数量 奖金(万/每队)
First奖 1 1
Best奖 1 1
优秀奖 4 精美礼品

B 参考资料

Comments