清华大学NLP实验室招聘数据工程师
2022-04-26

清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP)是国内开展自然语言处理研究最早、深具影响力的科研单位,也是中国中文信息学会计算语言学专业委员会及中国人工智能学会不确定性人工智能专业委员会的挂靠单位。实验室围绕以中文为核心的自然语言处理,在语言信息处理、机器翻译、社会计算、智慧教育和知识图谱等方面开展系统深入的研究,在国内外具有较大的学术影响。近年来,实验室承担了国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务,并与腾讯、华为、搜狗等企业建立密切的学术合作关系。

详细信息参见实验室主页:http://nlp.csai.tsinghua.edu.cn/

实验室现招聘1名全职数据工程师,负责自然语言数据采集和处理、数据处理平台搭建等工作,以及承担相关项目的技术任务等。

岗位职责

  1. 负责多种来源数据的处理工作(解析提取、质量识别、清洗入库);
  2. 负责不同类型网站的数据爬取工作;
  3. 负责对数据的存储和管理。

任职资格

  1. 计算机相关专业本科及以上学历,或同等学力;
  2. 熟练使用Python,掌握计算机科学相关基础知识,编程基本功扎实;
  3. 熟悉主流爬虫架构,熟悉常见反爬场景,有分布式爬取经验者优先;
  4. 有至少一种主流数据库的使用经验,例如MySQL;
  5. 细心、耐心,热爱数据分析,善于发现数据中的问题并挖掘出有价值的信息;
  6. 有良好的代码规范、测试习惯与质量意识,有良好的心理素质和沟通能力,对人工智能领域相关技术有热情;
  7. 有NLP数据处理经验者优先;
  8. 熟悉并行编程,有大数据经验者优先;
  9. 自我驱动力、学习能力强者优先;
  10. 能尽快入职者优先(2周-1月内)。

合作老师

孙茂松,清华大学计算机系教授,清华大学人工智能研究院常务副院长,欧洲科学院外籍院士,中国人工智能学会、中文信息处理学会会士。

近三年在人工智能和自然语言处理领域顶级国际期刊或会议发表论文100余篇,获得国家授权发明专利30余项。作为首席科学家主持完成国家重点基础研究发展计划(973计划)项目,国家社会科学基金重大项目。领衔研发中文诗歌自动生成系统“九歌”,累计为用户创作2000万首诗词。负责的相关开源项目在GitHub上共获数万星标。

主页:

https://nlp.csai.tsinghua.edu.cn/staff/sms/

福利待遇

  1. 与清华大学签署劳动合同,享受“五险一金”,提供有竞争力的薪资待遇,具体面议。
  2. 丰富的学术交流活动,可与科研大牛进行深度学术交流。
  3. 良好的工作氛围,实验室日常配备咖啡,零食,水果等。
  4. 可凭清华职工福利积分,申请子女就读清华幼儿园,附小,附中。
  5. 年度体检,不定时工会福利。

申请方法

应聘者请将应聘材料发送至联系人的电子信箱 thunlp@163.com ,标题为“数据工程师-姓名”。

申请材料应包括:(1)个人简历;(2)相关工作或项目经验介绍;(3)证明本人能力、水平的相关资料。

通过初选者将于收到应聘材料一个月之内通知面试,未通过初选者不再另行通知。恕不接待来电、来访,应聘材料恕不退还。