文本注释的数据格式

diff format或多或少是表示文本之间差异的事实标准,并且被程序员广泛用于分发源代码更改.大多数版本控制系统可以输出差异,差异用于讨论对文本的建议更改(例如源代码),因为它们在说明更改方面非常强大.

但是,我经常想简单地评论一个文本而不改变它,并希望一种数据格式能够以与diff相同的方式表示对文本的注释.一个典型的用例是代码审查,我想对代码发表评论但尚未提出任何变更.另一个用例是用我自己的想法和提醒来注释一篇文章.在Word中,我可以通过标记文本并在文本旁边创建注释气球来注释文本.但是Word在其他方面很麻烦 – 我想在一个单独的文件中只注释注释并保持原文不变.

存在哪些数据格式可以以与diff相同的方式表示文本注释?

我不是在寻找像“XML”这样的一般答案.我正在寻找明确表示文本注释的格式. (除了像Word这样的某些程序的特定于应用程序的格式外,可能不存在这样的格式.)

最佳答案 好问题.

大多数人会在讨论中抛出XML或类似HTML的子集.
标记语言使用存储在原始文本中的(数据)属性.但那不是你想要的.我排除了XML / HTML和RDF&微格式.

一般来说

您需要保留原始文本,克隆它,然后通过自定义标记语言添加注释.这允许原始文本与注释文本的文本差异.
重要的是单独存储原始文本和对文本的注释修订.

这允许多个差异:

>“原始文本”和“带注释的文本修订版1..n”之间的差异
>“带注释的文本rev n”和“带注释的文本rev n 1”之间的差异.

这非常强大.

存在哪些数据格式?

> BioNLP格式,是用于信息提取的文本格式

> http://2011.bionlp-st.org/home/file-formats

> Brat对峙格式

> http://brat.nlplab.org/standoff.html

In the standoff representation, the texts of the documents are kept
separate from annotations, which are connected to specific spans of
texts through character offsets. The annotations are associated with
their texts by the file naming convention that their base name (file
name without suffix) is the same: for example, the file PMID-1000.a1
contains annotations for the file PMID-1000.txt.

如您所见,它是“基于文件名的注释关联”.
大量的学术研究和改进空间,)

点赞