自然语言处理创新技术研发团队招募学生成员

本技术研发团队依托于清华大学自然语言处理实验室（THUNLP）。THUNLP是国内最早开展自然语言处理（NLP）研究的科研单位，在中文信息处理、机器翻译、社会计算、知识图谱等方面开展系统深入的研究，在国内外具有较大的学术影响。近年来，实验室承担了国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务，并与腾讯、华为、搜狗等企业建立了密切的学术合作关系。

实验室每年在ACL、AAAI、EMNLP等人工智能和自然语言处理顶级学术会议/期刊发表论文数十篇，基于研究成果在GitHub上发布的开源项目累计获得3万余星标。推出的“九歌”古诗自动生成系统获得广泛关注。

实验室主页：https://nlp.csai.tsinghua.edu.cn/

GitHub主页：https://github.com/thunlp

你可以参与的项目

项目 1

文本对抗攻防评测平台

文本对抗攻防（textual adversarial attacks and defenses）是近年来一个新兴的研究热点问题，其对于暴露应用系统安全性缺陷、揭示模型学习能力等有重要的实际和理论意义。然而，现有的文本对抗攻防研究缺乏一个统一的评判标准，这限制了该领域的长期发展。

为了解决此问题，我们希望建立一个大规模文本对抗攻防评测平台，对现有的文本对抗攻击和防御方法进行公平的评测。这将是世界首个文本对抗攻防评测平台，预期将对该领域有深入而长远的影响。

项目 2

网络富文本爬取平台

预训练语言模型（Pre-trained Language Models）是2018年以来自然语言处理的研究热点问题，使用大规模数据预训练的模型在多个自然语言处理任务上取得了优异的性能。其中数据是预模型成功的关键，考虑网络中的富文本数据以极快的速度增长，持续爬取网络富文本信息将促进预训练模型学习最新的知识，推动自然语言处理模型的发展

项目 3

大规模预训练模型加速框架

预训练模型出现后，模型的规模逐年增长，多机多卡计算已经成为了超大规模模型计算的必由之路。已有一些开源工具初步对于超大规模训练和推理进行加速（例如微软的DeepSpeed），但仍有许多可以进一步探索的空间。目标是使用最新技术实现一个大规模模型加速框架，供工业界和学术界进行使用。

项目 4

民间借贷案件智审平台

随着自然语言技术的不断发展及市场对法律服务的需求地不断增长，利用自然语言技术解决法律问题已经成为了近几年的研究热点。本项目旨在探索利用自然语言技术实现民间借贷案件中的争议焦点挖掘、案件要素抽取、文书自动生成、案件判决预测等功能，为法官工作提供便利工具。

项目 5

开放域信息检索平台

随着深度学习技术在信息检索领域的广泛应用，如何更好地利用神经网络模型提升信息检索效果成为了近年的研究热点。本项目旨在更好的利用前沿技术，为用户的信息获取需求提供完整的基于深度学习的解决方案以及便利工具。

项目 6

自然语言处理工具平台

近些年来基于神经网络的人工智能技术发展迅速、成果井喷，但是技术的快速发展也为人们带来了更大的技术门槛。为了方便更多非计算机领域人员享受到先进的成果，我们希望将已有的技术针对各种不同的应用场景，包装并集成到自然语言处理工具平台上，提供统一的服务和技术支持。

希望你

具有快速学习能力，能在论文阅读的基础上较快复现模型，或者能较快学习编程技术（如前端、后端）
具有和其他人沟通、协作的能力，有多人合作完成项目的经历，甚至是作为团队leader的经历更好
有强烈的责任心和自我驱动力
熟练使用Python语言，有PyTorch框架的使用经历优先
对前端、后端有基本的了解，有相关开发经历优先
全职或兼职参与均可，但应确保有一定的时间投入

你将获得

零距离接触NLP前沿技术的机会，以及一段充实的工程锻炼经历
与一流的研究者和开发者深入交流，提高自己的研究、开发能力
有竞争力的薪酬或补助（不低于头部公司的水平）

联系方式

联系人：曾学长（清华大学计算机系2016级学长，微信：losffen），添加好友时请备注“thunlp+姓名”，可以准备一份简历，让我们更快的了解你。
如果希望在决定加入我们之前进一步了解上述项目，也欢迎联系咨询。