司法考试AI能得几分?CAIL 2020机器司考复赛即将开始
2020-08-28

微信图片_20200828174503.png

国家司法考试,从18年开始变身为国家统一法律职业资格考试。国家统一法律职业资格考试是中华人民共和国司法部依据《中华人民共和国法官法》、《中华人民共和国检察官法》、《中华人民共和国律师法》、《中华人民共和国公证法》和《国家统一法律职业资格考试实施办法》(2018)的有关规定设立的法律类职业证书考试。担任法官、检察官、律师、公证员、法律顾问、仲裁员(法律类)及政府部门中从事行政处罚决定审核、行政复议、行政裁决的人员必须通过法律职业资格考试。 因为该考试面向的受众的特殊性,司法考试的难度也是极大的。每年大约有50万人参考司法考试,但考试的通过率却一般只有10%左右。而每年的通过标准一般是达到及格线即可,即拿到60%的分数。这意味着每年只有10%的人能在司法考试中及格,也印证了司法考试的难度。 而现在,清华大学自然语言处理与社会人文计算实验室与北京幂律智能科技有限责任公司在“中国法研杯”司法人工智能挑战赛(CAIL 2020)上开启了司法考试的评测任务。该任务旨在使用人工智能来完成对司法考试问题的回答。人工智能真的能够做到理解并正确回答司法考试这种高难度的考试问题吗?

官方网站:http://cail.cipsc.org.cn

任务介绍

在本次CAIL 2020司法人工智能挑战赛司法考试的任务使用的训练集、验证集1来自于论文JEC-QA: A Legal-Domain Question Answering Dataset,包含大约26,000道司法考试的题目,均为选择题。验证集2来自于真实的司法考试题目,也是第二阶段将开放的评测的数据集。最终测试集会使用2020年的司法考试作为测试集。最终的评测采用2020年的真实考题,也能够真实反映人工智能模型的能力,也能和真实人类的水平进行比拼。 本任务采用准确率进行评估。对于每个问题,需要给定这个题的答案,即A,B,C,D中的哪几项是正确的。当且仅当给定的答案与标准答案完全一致时才认为是正确的答案。我们会额外给出选手模型在不同类型题目上的分数,包括概念理解题和情景分析题的分数。 为了更好的让大家理解司法考试这个任务,也为了展示司法考试所存在的挑战性,我们在这里展示一道来源于我们数据集中的真实考题:

王某,男,1987年2月27日出生。2003年2月27日,王某趁李某全家外出游玩,翻墙进入李某院子中,并偷偷溜进李某的卧室。在一通翻箱倒柜之后,王某共搜集到现金5000元、笔记本电脑一台(价值13000元)和其他一些小首饰。正在王某准备翻墙逃跑的时候,李某的表哥朱某来李某家串门,恰好看见王某在墙上。朱某大声呵斥王某,要求其把李某的东西全都放下。但王某不予理睬,欲从墙上跳下,朱某一把扯住王某的衣服,但王某从兜里快速取出一把匕首向朱某的心脏刺去,朱某应声倒地。后朱某被送至医院时已经死亡。那么对王某的行为应当如何处理?

A 以抢劫罪论处

B 以盗窃罪论处

C 以故意杀人罪论处

D 王某不构成犯罪

复杂的案情,冗长的文本,即使是人类想要第一时间抓住最关键的信息也十分困难,对于人工智能来讲挑战就更大了。通过阅读整个案情,我们能够注意到的是王某存在抢劫、盗窃、故意杀人三种行为,这也是现有的人工智能模型能够发现的行为。但这个题远远没有这么简单,我们注意到题干不仅描述了犯罪嫌疑人的行为,也给出了他的出生时间和犯罪时间。通过查阅资料我们可以知道,如果犯罪嫌疑人不满16岁,则不会以抢劫罪和盗窃罪论处。那么直观看来,犯罪嫌疑人在2003年犯罪1987年出生刚好16岁,我们的答案仍然是ABC。但很可惜的是,在法律上对于年龄的定义是:一个人满16周岁,从其16周岁的生日下一天开始。而在这里的犯罪日期恰好是王某的16岁生日那天,也就是说这个时候王某并没有满16岁,所以正确答案应该是C。 这种复杂场景与复杂推理的题目在司法考试中并不算少数,人工智能模型往往只能看到第一层的表象选出ABC的答案,而要使得人工智能模型能够更深入地分析、理解问题,也就是司法考试这个任务的难点所在。

报名情况及第一阶段参赛情况

目前共有369支队伍参加司法考试赛道,并贡献了445次在该赛道的提交。截止目前,前三名的参赛者均为个人参赛者。下图是截至2020年8月28日的部分排名情况。

部分排名情况.png

从图中我们也可以发现,现在最好的选手已经能够达到33.86%的准确率,相比于随机选择答案的6.67%准确率已经高了不少。但是之前我们也提到过,司法考试的及格线是60%的准确率。虽然司法考试对人来说难度也很大,只能达到10%的通过率。但是显然,虽然人工智能能在围棋、游戏上面赢过人类,在司法考试上,人工智能模型还有很长的路要走。

第二阶段参赛要求

现在,司法考试的第二阶段评测将于8月31日展开。参加第二阶段仅需在第一阶段的分数超过基线模型即可,并且第二阶段开赛后仍然可以报名比赛和参加第一阶段的评测。第二阶段预期于10月10日结束,之后将使用今年的司法考试题进行封闭评测,检验选手的模型在实战中的效果。

奖项设置

挑战赛将对司法考试任务评出一等奖1名,二等奖2名,三等奖4名。由主办方中国中文信息学会(CIPS)为获奖者提供荣誉证书认证;由北京幂律智能科技有限责任公司和中国司法大数据研究院为获奖者提供奖励和参会交流赞助。

  • 一等奖    20000元 + 证书
  • 二等奖    10000元 + 证书
  • 三等奖    5000元 + 证书

说明:

  1. 以上所有提及金额均为税前金额。
  2. 获奖算法与系统的知识产权归参赛队伍所有,仅要求获奖团队提供算法与系统报告(包括方法说明、数据处理、参考文献和使用开源工具等信息)及团队成员名单,供颁奖会技术交流。

参赛方式

登录网站主页即可报名,完善相关信息,即可报名参赛。报名参赛后即可下载司法考试赛道的数据,进行比赛。



联系方式:010-67559753

邮箱:cail@cjbdi.com

官方讨论QQ群:237633234