新闻|我组今年多项专利获得授权
2020-09-09

2020年,我组申请的多项专利获得授权,授权专利涉及知识计算、网络表示、机器翻译、文本生成、义原计算以及法律智能等方向。截止到今日,我组本年度授权专利达26项,累计授权专利42项。 ​


知识计算


01 结合实体描述的知识图谱表示学习方法和系统

发明人:孙茂松;谢若冰;刘知远;栾焕博;刘奕群;马少平

授权时间:2020年1月17日

专利简介:本发明提供了一种结合实体描述的知识图谱表示学习方法和系统,本发明提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息,也利用了实体描述中蕴含的文本信息,使用模型学习得到的两种实体向量表示方式,能够在知识图谱补全以及实体分类等任务中得到更高的准确率;同时基于描述的向量表示通过文本信息构建实体向量,能够很好地对新实体或训练集中不存在的实体进行表示,具有良好的实用性。

02 一种实体精细分类方法

发明人:刘知远;辛极;林衍凯;孙茂松

授权时间:2020年5月19日

专利简介:本发明提供一种实体精细分类方法,包括:基于目标实体文本中各单词对应的单词向量,计算实体表示向量;基于句子中目标实体文本两侧各单词分别对应的语境单词向量,获取目标实体文本的基础语境向量;基于目标实体文本的知识库表示向量和基础语境向量,计算所述两侧各单词分别对应的知识库相关注意力值;基于所述知识库相关注意力值及所述基础语境向量,计算目标实体文本的知识库相关语境向量;合并所述目标实体文本的实体表示向量和知识库相关语境向量,获取句子表示向量,基于该句子表示向量,利用于建的目标分类器模型,获取目标实体文本属于各给定类别的概率。本发明能够有效提高分类模型的稳定性,并有效改善实体精细分类的效果。

03
一种关系抽取方法及系统

发明人:刘知远;韩旭;于鹏飞;孙茂松;李鹏授权时间:2020年6月9日专利简介:本发明提供一种关系抽取方法及系统,该方法包括:获取包含实体对的句子,根据所述句子得到对应的实例特征向量;基于关系层次的注意力机制,根据所述实例特征向量,得到不同层的实体对潜在关系;根据所述不同层的实体对潜在关系,抽取所述实体对的关系。本发明实施例提供的关系抽取方法和系统,通过引入关系的层次结构信息构建了一套层级结构的注意力机制使得关系抽取模型能够考虑关系之间的内在关联,从而提高了关系抽取模型的稳定性,并在缺少训练数据的长尾关系上表现突出,实现关系抽取模型的性能也能够极大提升,具有良好的实用性。

04
一种LIWC词表扩展方法

发明人:刘知远;杨成;曾祥楷;涂存超;孙茂松

授权时间:2020年7月14日

专利简介:本发明提供一种LIWC词表扩展方法,包括:S1,根据目标单词的义元和目标单词的第i‑1层标签,应用注意力机制构建目标单词的第i层上下文表示;S2,将所述第i‑1层标签、第i层上下文表示与循环神经网络的第i‑1层隐状态输入循环神经网络,获取第i层隐状态;S3,应用第i层隐状态获取目标单词的第i层标签;S4,重复S1至S3,逐层获取目标单词的各层标签;其中,m≥i≥1,i为整数,m为目标单词所包含的总层数。本发明提供的一种LIWC词表扩展方法,通过基于注意力机制结合义元的循环神经网络对LIWC词表进行自动扩展,避免了人工扩展导致的误差,提高了LIWC词表标注的精确性,节省了人力成本和时间成本。

05
一种结合实体图像的知识表示学习方法及服务器

发明人:孙茂松;谢若冰;刘知远;栾焕博

授权时间:2020年7月17日

专利简介:本发明公开一种结合实体图像的知识表示学习方法及服务器。其中,所述方法包括:根据获取到的实体图像,获得每个与实体对应的实体图像在知识空间上的表示;根据各个所述与实体对应的实体图像在知识空间上的表示以及所述实体基于结构的表示,构建所述实体基于图像的表示;根据知识图谱的三元组以及预设的训练模型,联合训练所述实体基于图像的表示和所述实体基于结构的表示,获得所述实体的知识表示。本发明提供的结合实体图像的知识表示学习方法及服务器,能够将实体图像信息应用到知识表示学习中,提高了知识表示学习的准确性。

06
一种用于知识图谱中知识获取模型的构建方法及系统    

发明人:孙茂松;谢若冰;刘知远;栾焕博

授权时间:2020年7月17日

专利简介:本发明公开一种结合实体图像的知识表示学习方法及服务器。其中,所述方法包括:根据获取到的实体图像,获得每个与实体对应的实体图像在知识空间上的表示;根据各个所述与实体对应的实体图像在知识空间上的表示以及所述实体基于结构的表示,构建所述实体基于图像的表示;根据知识图谱的三元组以及预设的训练模型,联合训练所述实体基于图像的表示和所述实体基于结构的表示,获得所述实体的知识表示。本发明提供的结合实体图像的知识表示学习方法及服务器,能够将实体图像信息应用到知识表示学习中,提高了知识表示学习的准确性。

07
一种迭代的实体对齐模型

发明人:刘知远;朱昊;谢若冰;孙茂松

授权时间:2020年8月21日

专利简介:本发明提供实体对齐方法和设备用于解决传统的知识对齐方式往往需要笨重的人力劳动或者精心手动构造的问题。其中分别获得第一知识图谱KG1中实体的向量表示和第二知识图谱KG2中实体的向量表示;根据输入的对齐种子实体对集合,绑定第一知识图谱KG1和第二知识图谱KG2中表示相同含义的实体向量表示,获得第三知识图谱;根据第三知识图谱、第一知识图谱KG1中实体的向量表示和第二知识图谱中实体的向量表示,迭代计算实体向量表示之间的相似度;在迭代计算过程中,若某一对实体向量表示的距离小于阈值,则将该对实体向量表示对应的实体对加入第三知识图谱,直至第三知识图谱的实体个数不再增,本发明具有良好的实用性。

08
一种知识图谱中实体类型分类方法及系统

发明人:刘知远;辛极;朱昊;韩旭;孙茂松

办登时间:2020年8月5日

专利简介:本发明提供一种知识图谱中实体类型分类方法及系统。其中,所提供的方法包括:根据知识图谱中的目标实体在给定的句子中构成的向量特征,对所述目标实体进行分类,获得所述目标实体属于不同类型的概率向量;将所述概率向量输入到预设的语言模型中,通过所述语言模型对所述概率向量进行调整,获得所述目标实体的分类结果。本发明提供的方法,采用语言模型对知识图谱中的实体分类结果进行修正,可以降低远程监督给实体分类任务带来的噪音,从而提高了模型的稳定性,实体分类性能也能够得到极大提升,具有良好的实用性。

09
一种远程监督检索数据的降噪方法

发明人:刘知远;林衍凯;计昊哲;孙茂松

办登时间:2020年8月14日

专利简介:本发明提供一种远程监督检索数据的降噪方法,包括:对于给定问题和基于给定问题检索到的多个段落,计算给定问题的答案在各段落上的概率分布;基于给定问题和任一段落,利用段落阅读器,提取该段落中与答案对应的至少一个特定子串,并计算特定子串关于该段落为答案的概率,作为第一概率,直至遍历所有段落;基于概率分布和所有段落中特定子串对应的第一概率,选择相应的段落,对给定问题进行回答;其中,特定子串为由一个或多个单词组成的单词串。本发明能够更充分的利用检索到的相关文本中对回答问题有帮助的所有段落,从而更有效的提高开放域问答的问答效果,提高模型的稳定性,具有良好的实用性。

10
结合实体层次类别的知识图谱表示学习方法

发明人:孙茂松;谢若冰;刘知远

办登时间:2020年9月2日

专利简介:本发明涉及一种结合实体层次类别的知识图谱表示学习方法,包括:获取知识图谱的三元组关系以及实体的层次结构类别信息;根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;根据三元组关系的实体向量和关系向量以及类别映射矩阵,构建能量方程;根据能量方程构建基于边际的评价函数,通过最小化评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。本发明提出的结合实体层次类别的知识图谱表示学习方法,能够充分利用实体具有层次结构的类别信息提升表示学习的效果,在知识图谱补全和三元组关系分类等任务中得到更高的准确率,尤其是在具有长尾分布的低频三元组关系上效果提升尤为突出,具有良好的实用性。

网络表示


01 一种网络节点的增强表示方法及装置


发明人:杨成;孙茂松;刘知远;涂存超

授权时间:2020年1月17日

专利简介:本发明提供一种网络节点的增强表示方法及装置,所述方法包括:获取网络节点之间的连接关系;根据所述连接关系和已有的网络表示学习模型获取所述网络节点的表示向量;根据所述连接关系对所述网络节点的表示向量进行更新迭代计算,并用更新迭代计算后的网络节点表示矩阵增强表示所述网络节点。所述装置执行上述方法。本发明实施例提供的网络节点的增强表示方法及装置,能够用更新迭代计算后的网络节点表示矩阵表示网络节点,从而提高对网络节点的节点分类、网络节点之间链接预测的准确度。

02
一种网络表示学习方法


发明人:孙茂松;涂存超;刘知远;栾焕博;刘奕群;马少平

授权时间:2020年1月21日

专利简介:本发明提供了一种网络表示学习方法,本发明综合考虑文本信息以及网络结构进行学习,并针对文本信息部分,设计了不同类型的基于连续词袋以及基于卷积神经网络的文本编码模型,本发明不仅利用了网络中节点的网络结构信息,对当前节点的邻居节点进行预测,也利用了节点的文本信息,对当前节点文本信息的表示向量进行了预测,本发明的方法,能够有效的将节点的文本信息以及网络结构信息编码到表示向量中,同时在节点分类的任务上显著的提高了分类准确率。同时本方法充分考虑了实际网络中的有效信息,例如文本信息,在不同类型的信息网络数据上都取得了优异的效果,具有良好的实用性。

03
一种基于最面向社会关系抽取的网络表示方法

发明人:孙茂松;涂存超;刘知远

授权时间:2020年3月13日

专利简介:本发明涉及一种面向社会关系抽取的网络表示的方法,属于机器学习及网络表示学习的技术领域,所述方法包括如下步骤:为网络节点之间的边进行关系标注;利用基于平移的网络表示学习方法学习网络节点表示及关系表示;利用学习到的网络节点的表示及关系表示对未标注的边进行关系抽取。本发明能够利用平移的思想对网络节点及它们之间的关系进行建模,在关系抽取任务上取得了显著的提升。同时,这种方法能够适用于不同类型网络的表示学习和关系抽取中,具有良好的适用范围及可扩展性。

04
一种网络节点分类方法及装置

发明人:孙茂松;涂存超;刘知远

授权时间:2020年4月14日

专利简介:本发明提供一种网络节点的增强表示方法及装置,所述方法包括:获取网络节点之间的连接关系;根据所述连接关系和已有的网络表示学习模型获取所述网络节点的表示向量;根据所述连接关系对所述网络节点的表示向量进行更新迭代计算,并用更新迭代计算后的网络节点表示矩阵增强表示所述网络节点。所述装置执行上述方法。本发明实施例提供的网络节点的增强表示方法及装置,能够用更新迭代计算后的网络节点表示矩阵表示网络节点,从而提高对网络节点的节点分类、网络节点之间链接预测的准确度。

05
一种网络表示学习模型的训练方法及服务器

发明人:孙茂松;涂存超;刘知远

办登时间:2020年9月2日

专利简介:本发明提供一种网络表示学习模型的训练方法及服务器,所述方法包括:获取网络节点的文本信息和所述网络节点之间的关联信息;为每个网络节点初始化一个结构向量;根据所述网络节点的文本信息,获取每对相邻网络节点的文本向量,其中,所述每对相邻网络节点是根据所述网络节点之间的关联信息所获取的;根据所述结构向量和所述文本向量构成网络节点表示向量;将所述网络节点表示向量代入网络表示学习模型中,并对代入网络节点表示向量后的网络表示学习模型进行训练。所述服务器执行上述方法。本发明实施例提供的网络表示学习模型的训练方法及服务器,能够提高网络表示学习模型对网络节点分类和链路预测的准确性。

机器翻译


01 平行短语学习方法及装置

发明人:刘洋;孙茂松;柳春洋

授权时间:2020年1月31日

专利简介:本发明涉及一种平行短语学习方法及装置,其中,该方法包括:根据句子级的单语语料库构建短语级的单语语料库;通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;使用两个短语翻译模型,在模型一致性约束下分别从两个单语语料库中抽取平行短语对,以在模型一致性约束下进一步优化两个短语翻译模型。本发明的平行短语学习方法及装置,可以实现从非平行的单语语料中,抽取平行语料,相比于平行语料而言,单语语料的获取更廉价、覆盖语言领域更全面,能补充当前平行语料库不足的情况,并很好地解决噪音的问题,提升抽取出的平行语料的精度和质量。

02
神经网络机器翻译模型的训练方法及装置

发明人:孙茂松;米尔阿迪力江·麦麦提;刘洋;栾焕博

授权时间:2020年5月19日

专利简介:本发明提供一种神经网络机器翻译模型的训练方法和装置,包括:获取多种高资源语言对和低资源语言对;对高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作;将操作后的每种高资源语言对作为对应的父模型的训练集,将操作后的低资源语言对作为孩子模型的训练集,根据预设顺序对各父模型按照迁移学习的方法进行训练,以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型;根据最后一个训练好的父模型训练所述孩子模型,获得用于翻译低资源语言的神经网络机器翻译模型。本发明有助于在低资源的语言对上训练出来的孩子模型性能上得到明显提升。

03
机器翻译方法及装置

发明人:孙茂松;刘洋;张嘉成;栾焕博;翟飞飞;许静芳

授权时间:2020年7月31日

专利简介:本发明提供一种机器翻译方法及装置,其中方法包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果。本发明实施例能够解决机器翻译对上下文的依赖,显著提高翻译质量。

04
一种结构化文本翻译方法及装置

发明人:刘洋;张嘉成;栾焕博;孙茂松;翟飞飞;许静芳

授权时间:2020年8月28日

专利简介:本发明提供一种结构化文本翻译方法及装置,包括:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。本发明实施例通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。

文本生成

01 一种用于生成标题的神经网络建模方法及装置

发明人:孙茂松;阿雅娜;刘知远

授权时间:2020年1月31日

专利简介:本发明公开了一种用于生成标题的神经网络建模方法及装置。该用于生成标题的神经网络建模方法包括:获取多个样本文档,以及各样本文档对应的标准标题;将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。本发明实施例基于参考标题和标准标题之间的语义差距,从句子级别对待优化模型中的参数进行优化,与仅在词级别优化待优化模型的现有技术相比,具有提高模型稳定性、提高标题生成准确度的优点。

02
一种具有风格多样性的绝句生成方法及装置

发明人:孙茂松;杨成;矣晓沅;李文浩

授权时间:2020年4月7日

专利简介:本发明提供一种具有风格多样性的绝句生成方法及装置,所述方法包括:获取待生成绝句的首句,将首句的文字序列转化成首句向量,将首句向量和表示绝句风格类型的单热向量拼接之后得到的第一向量输入到预先建立好的绝句生成模型中,得到多首具有不同风格的绝句。该方法和装置可以实现在给定同一输入时,可以生成风格不同的多首诗,不需要对诗歌风格进行标注,具有良好的多样性和适用性,同时可以降低诗歌生成成本。

义原计算

01 跨语言的词汇义原预测方法、装置与电子设备

发明人:孙茂松;岂凡超;林衍凯;朱昊;谢若冰;刘知远

授权时间:2020年4月28日

专利简介:本发明提供一种跨语言的词汇义原预测方法、装置与电子设备,该方法包括:分别确定源语言词向量和目标语言词向量学习的损失函数;分别确定词向量对齐和融入义原信息的损失函数;基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;基于源语言词与目标语言词对和源语言内已建立的义原知识库,对上述各损失函数进行优化,获取同属一个语义空间的双语词向量;基于双语词向量,通过搜索与目标语言中目标词汇词向量相近的源语言词的已标注义原,为目标词汇进行义原预测。本发明实施例能够合理利用已有义原知识库为跨语言词汇进行义原预测,从而有效节约义原预测的人力和时间成本。

02
语言模型的解码方法及解码器

发明人:刘知远;顾逸宏;闫俊;朱昊;孙茂松;谢若冰;林芬;林乐宇

授权时间:2020年6月2日

专利简介:本发明提供一种语言模型的解码方法及解码器,该方法包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。本发明实施例通过在语言模型中以义原‑词义‑单词的层次进行解码,获得每个目标单词为待预测单词的概率,与现有技术中仅在词的层面上进行预测相比,由于从义原和词义的层面上充分考虑了单词之间的相互关联,层次化了预测过程,能够提升预测的准确性。

法律智能

01 法律判决结果预测方法及装置

发明人:孙茂松;刘知远;钟皓曦;郭志芃;涂存超;肖朝军

授权时间:2020年3月13日

专利简介:本发明提供一种法律判决结果预测方法及装置,所述方法包括:将待预测法律文书中的第一事实信息转化为第一词向量矩阵,将预先获取的各法律文书样本中的第二事实信息分别转化为第二词向量矩阵;对所述第一词向量矩阵进行编码获取第一编码结果,对各所述第二词向量矩阵分别进行编码获取第二编码结果;根据所述第一编码结果、各所述第二编码结果和预先获取的各所述法律文书样本的判决结果,基于长短时记忆神经网络对所述待预测法律文书的各判决任务的判决结果进行预测;其中,所述长短时记忆神经网络根据各所述判决任务之间的依赖关系进行构建。本发明实施例提高了判决结果的准确性,具有良好的可拓展性。

02
基于栅栏式长短时记忆神经网络的关键词抽取方法及系统


发明人:肖朝军;曾国洋;钟皓曦;刘知远

授权时间:2020年8月28日

专利简介:本发明提供一种基于栅栏式长短时记忆神经网络的关键词抽取方法及系统,所述方法包括:将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中,获得文本语义特征向量序列;将所述文本语义特征向量序列输入至关键词识别模型中,获得关键词抽取结果;其中,所述文本语义特征向量序列包含了所述待抽取关键词的法律文本语料中的字语义信息、词语义信息和上下文信息;其中,所述文本编码模型和所述关键词识别模型是根据带有关键词标注的法律文本语料样本进行联合训练后获得的。本发明实施例可以应对智慧司法领域中的复杂输入,在不依赖分词的情况下获取词的语义信息,实现关键词抽取在智慧司法领域的性能提升。

03
法律案情分析方法及装置

发明人:肖朝军;钟皓曦;曾国洋;刘知远

授权时间:2020年8月28日

专利简介:本发明提供一种法律案情分析方法及装置。其中,方法包括:对待分析的案件描述文本进行分词和命名实体识别,获取句子序列;根据句子序列包含的各词语获取多个词向量,利用第一循环神经网络对每一词向量进行编码,并获取各分析任务对应的任务文本向量;将各要素判断任务对应的任务文本向量进行最大池化,获得要素判断任务的整体任务文本向量,利用第二循环神经网络对要素判断任务的整体任务文本向量和案由预测任务对应的任务文本向量进行编码,获取案由预测任务对应的第一隐向量,并将案由预测任务对应的第一隐向量输入至案由预测模型,获取案由预测结果。本发明实施例提供的法律案情分析方法及装置,能提高分析准确度。