api – 从Wiki转储获取中介语链接

我试图从维基百科转储中提取中介语链接.似乎这些链接已移至WikiData Project,并且仅通过API提供访问.

该分支解释了如何处理该问题并建议切换到API:
Retrieving the Interlanguage links from an exported Wikipedia article?

但是,我的研究范围似乎太大,无法使用Web API(数百万个查询).有谁知道是否有可能从API以外的任何地方提取这些链接?解析任何大小的转储比查询API更受欢迎.

我使用的维基百科转储:
http://dumps.wikimedia.org/backup-index.html

我使用的WikiData转储:
http://dumps.wikimedia.org/wikidatawiki/latest/

最佳答案 一个非常出色的库,可轻松处理维基数据转储,是
Wikidata Toolkit,它为您抽象了很多细节.在最新版本0.3中,有越来越多的示例脚本可以帮助完成像您这样的基本任务.在
examples readme中我们找到SitelinksExample.java:

This program shows how to get information about the site links that
are used in Wikidata dumps. The links to Wikimedia projects use keys
like “enwiki” for English Wikipedia or “hewikivoyage” for Hebrew
WikiVoyage. To find out the meaning of these codes, and to create URLs
for the articles on these projects, Wikidata Toolkit includes some
simple functions that download and process the site links information
for a given project. This example shows how to use this functionality.

点赞