我刚刚写了一个脚本,它提取了几千个 XML文件的Dutch Parlement中的所有语音文本.对于每个发言者,它都会计算说话者说出一些话的次数.
在这之后,我计算了荷兰语Parlement中每个发言者的每个单词的TF * IDF值.如果您对此不熟悉,请参阅此链接:TF IDF explanation
所以现在我有一个荷兰语Parlement中每个发言者的字典,其中键是他说的话,值是相应的TF * IDF值:
{u'asielzoekers': 0.0034861170591325486,
u'belastingverlaging': 0.0018551991553514675,
u'buma': 0.0020712555982839408,
u'islam': 0.0029519544163739155,
u'moslims': 0.0027958002747301355,
u'ouderen': 0.0022803123245457566,
u'pechtold': 0.0021525864470786928,
u'president': 0.003281844532743345,
u'rutte': 0.0023488684001475584,
u'samsom': 0.0019304632325980841}
现在我想从这些值创建一个wordcloud.我很快就查看了由amueller编写的wordcloud模块但是据我所知,这个模块不是用字典而是纯文本.
因此,任何有关如何从字典的值创建wordcloud的帮助将受到高度赞赏.
提前致谢!
最佳答案
dictionary= {u'asielzoekers': 0.0034861170591325486,.. u'samsom': 0.0019304632325980841}
from PIL import Image
import matplotlib.pyplot as plt
wc = WordCloud(background_color="white",width=1000,height=1000, max_words=10,relative_scaling=0.5,normalize_plurals=False).generate_from_frequencies(dictionary)
plt.imshow(wc)