我一直用二进制数据和千兆字节数据,经过训练的模型和测试来测试文本.光束搜索解码器通过两组数据和模型给出了所有“UNK”结果.我使用的是默认参数设置.
我第一次改变了数据接口data.py和batch_reader.py读取和解析从gigaword数据集中的文章和抽象.我在大约170万份文件上训练了一个超过90K小批量的模型.然后我在不同的测试集上测试了模型,但它返回了所有结果.
decoder result from model trained with gigaword
然后我使用了文本代码附带的二进制数据来训练一个小批量小于1k的小模型.我测试了相同的二进制数据.除了少量’for’和’.’之外,它在解码文件中提供所有结果.
decoder result from model trained with binary data
我还看到了关于训练损失的张量板,它显示了训练融合.
在培训和测试中,我没有更改任何默认设置.
有没有人尝试过和我一样的事情并发现同样的问题?
最佳答案 我想我至少找到了给定玩具数据集的原因.就我而言,我使用相同的玩具组(数据和词汇文件)进行训练和测试.我在解码器结果中获得[UNK]的原因是vocab文件不包含出现在玩具数据集摘要中的任何单词.由于这个原因,解码器无法找到要解码的字,因此在最终结果中使用[UNK]