标注工具_语料标注工具(3)
今天再详细介绍一下Prodigy工具和YEDDA工具。
Prodigy工具
支持实体标注,分类标注,情感标注,但是都是英文的。有一个基于Prodigy的中文github项目。Prodigy官方项目地址:https://prodi.gy/ 。由于其是收费的,所以没有必要再去深究了。这里给出它的文本分类标注界面和实体识别标注界面。
这里要强调一下,那个所谓的基于Prodigy思想的中文版根本就不能用,github也很久没更新了,完全就是花架子,issuses里的内容也基本是有问无答,如果有哪个大神把它调出来了,欢迎投稿,或者告诉我。deepwel/Chinese-Annotator,居然还有700个星,真是没有天理。
YEDDA
YEDDA可以进行chunk/entity/event三种标注任务。它使用tkinter开发,当前只支持在Python2.7下运行。对外提供两种用户界面,一种是标注员界面(终端执行python YEDDA.py),一种是管理员界面(终端执行python YEDDA_Admin.py)。标注员界面用于给句子做标注,管理员界面提供针对同一文件的不同人员标注结果的对比等功能。标注界面如下图所示
其中的按钮的大致功能为`Open`按钮用于打开待校对的文件。`ReMap`用于将用户设置的标注快捷键更新到当前配置文件。`NewMap`按钮用于将用户设置的标注快捷键保存到新的配置文件。`RMOn`是打开机器自动标注功能,`RMOff`是关闭机器自动标注功能。`Export`到处当前标注后的文本。`Quit`退出当前标注。字母`A`,`B`,`C`,`D`,`E`,`F`,`G`分别对应右侧所列功能的快捷键,比如Location地名的快捷键为`D`。`Cursor`表示当前光标在文本中的为止,`RMModel`指的是是否启动了机器自动标注。`Map Templates`快捷键配置文件名。
YEDDA的缺点有:
(1)可标记种类数只有7种
(2)没有情感类别或分类类别的标记功能
(3)一次性将文本内容全部展示出来不利于标注者标记
(4)没有分词功能也不能使用自己的分词器
(5)没有类别预测功能
(6)只能运行在Python2.7版本下。
可改进的点有:
(1)添加类别预测展示及标注功能
(2)添加标注进度展示区
(3)添加分词功能
(4)添加实体识别功能
(5)导出时,计算本次标注后系统预测的准确率
github地址:
jiesutd/YEDDAgithub.com总结
以上是生活随笔为你收集整理的标注工具_语料标注工具(3)的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 传入json对象_【Python基础】可
- 下一篇: 怎么样才能让自己自律起来_一个人如何才能