清华大学“挑战杯”竞赛是由清华大学教务处、科研院、研究生院、校团委和校学生科协共同主办的全校性学生课外学术科技作品竞赛。以下对THUNLP实验室获奖项目做分别介绍:
一等奖项目:基于事件抽取、判决预测的法律文书结构化
作者:肖朝军、曾国洋
指导教师:刘知远
简介:
该项目在实验室法律智能相关研究基础上开发。项目演示系统集成了判决预测、相关法学要素预测和文书推荐功能,采用的分类模型是针对训练样例较少的Few-Shot典型问题,在预测相关法学要素的基础上来对罪名进行预测。该项目是第一个参加挑战杯人文社科场的计算机系学生队伍,将自然语言处理技术应用于拥有大量文书等文本数据的法学领域,具有较强的应用价值,得到现场评委的一致好评。
挑战杯团队由THUNLP实验室两名同学和一名法学院同学组成,肖朝军和曾国洋作为计算机系同学,提供技术基础,法学院同学王华东提供法学专业的建议。
三等奖项目:多模态抑郁状态识别
作者:张正彦、朱昊
指导教师:刘知远
简介:
人类情绪的表达往往从动作、声音、语言等多个模态表达,单一模态的分类往往受限于信息过于单一,且缺乏其他模态的验证,难以提供有效的特征,而同样的句子使用不同的语气、神态表达出来其流露出的情绪差异很大。因此,使用多模态联合检测方法能够极大地利用既有的信息,过滤无效特征,突出重点特征,提高情绪识别准确率。
该项目探究在多模态背景下,识别抑郁状态。通过多模态识别,可以减少数据中的噪音对于情绪分类结果的影响,提高分类准确率。未来模型可以作为社交软件的插件实现实用化,微信、Skype、FaceTime等社交软件的视频聊天功能可以提供为项目大量的数据,借助这些社交平台,可以为用户提供抑郁症检测服务。
三等奖项目:利用图片自动生成中文诗歌的研究
作者:李文浩、杨宗瀚
指导教师:孙茂松
简介:
目前已有很多机构在进行利用人工智能技术进行诗歌生成的研究,但大多是以关键词等文字层面的方式生成,而实际上很多诗歌是作者在触景生情的情形下写出,所以通过运用多模态的认知机制,实现“看图做诗”——对于任意的图片输入,生成描述性较强同时具有文学性的诗歌,具有很高的研究价值。
该项目总体任务分成两步:首先从输入的图片中提取能够贴切概括图片的语义,将问题转化为输入输出均以文字为载体的问题,主要利用图像实体检测(Image Detection)和图像语义描述(Image Captioning)技术;然后,通过提取从图像中提取出的语义信息,生成具有文学性的诗歌,生成诗歌主要包括藏头绝句、普通绝句和现代诗三种类型。