nlp – 如何从混淆矩阵计算概率?需要分母,字符矩阵

This paper包含噪声通道中拼写错误的混淆矩阵.它描述了如何根据条件属性更正错误.

条件概率计算在第2页左栏.在第2页第2页的脚注4中,作者说:“字符矩阵可以很容易地复制,因此在附录中省略了.”我无法弄清楚它们如何被复制!

如何复制它们?我需要原始语料库吗?或者,作者是否意味着他们可以从论文本身的材料中重新计算?

最佳答案 查看论文,您只需要使用与您的应用程序相关的一个或一个语料库来计算它们.

在复制矩阵时,请注意它们隐含地定义了两个不同的字符矩阵:向量和n×n矩阵.对于每个字符x,矢量字符包含字符x在语料库中出现的次数的计数.对于每个字符序列xy,矩阵字符包含序列在语料库中出现的次数的计数.

chars [x]表示向量中x的查找; chars [x,y]表示矩阵中序列xy的查找.注意,chars [x] =每个y值的chars [x,y]之和.

请注意,他们的计数都是基于1988年AP Newswire语料库(available from the LDC).如果您不能使用他们的确切语料库,我认为使用同一类型的其他文本(即另一个新闻专线语料库)并缩放您的计数以使它们符合原始数据是不合理的.也就是说,如果给定字符的频率与它们足够相似,则不应该从一个文本到另一个文本变化太大,所以如果你有一个2200万字的新闻专线,你可以计算该文本中的字符和然后将它们加倍以近似其原始计数.

点赞