欢迎访问 生活随笔!

生活随笔

当前位置: 首页 >

标注工具_语料标注工具(3)

发布时间:2025/6/15 42 豆豆
生活随笔 收集整理的这篇文章主要介绍了 标注工具_语料标注工具(3) 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

今天再详细介绍一下Prodigy工具和YEDDA工具。

Prodigy工具

支持实体标注,分类标注,情感标注,但是都是英文的。有一个基于Prodigy的中文github项目。Prodigy官方项目地址:https://prodi.gy/ 。由于其是收费的,所以没有必要再去深究了。这里给出它的文本分类标注界面和实体识别标注界面。

这里要强调一下,那个所谓的基于Prodigy思想的中文版根本就不能用,github也很久没更新了,完全就是花架子,issuses里的内容也基本是有问无答,如果有哪个大神把它调出来了,欢迎投稿,或者告诉我。deepwel/Chinese-Annotator,居然还有700个星,真是没有天理。

YEDDA

YEDDA可以进行chunk/entity/event三种标注任务。它使用tkinter开发,当前只支持在Python2.7下运行。对外提供两种用户界面,一种是标注员界面(终端执行python YEDDA.py),一种是管理员界面(终端执行python YEDDA_Admin.py)。标注员界面用于给句子做标注,管理员界面提供针对同一文件的不同人员标注结果的对比等功能。标注界面如下图所示

其中的按钮的大致功能为`Open`按钮用于打开待校对的文件。`ReMap`用于将用户设置的标注快捷键更新到当前配置文件。`NewMap`按钮用于将用户设置的标注快捷键保存到新的配置文件。`RMOn`是打开机器自动标注功能,`RMOff`是关闭机器自动标注功能。`Export`到处当前标注后的文本。`Quit`退出当前标注。字母`A`,`B`,`C`,`D`,`E`,`F`,`G`分别对应右侧所列功能的快捷键,比如Location地名的快捷键为`D`。`Cursor`表示当前光标在文本中的为止,`RMModel`指的是是否启动了机器自动标注。`Map Templates`快捷键配置文件名。

YEDDA的缺点有:

(1)可标记种类数只有7种

(2)没有情感类别或分类类别的标记功能

(3)一次性将文本内容全部展示出来不利于标注者标记

(4)没有分词功能也不能使用自己的分词器

(5)没有类别预测功能

(6)只能运行在Python2.7版本下。

可改进的点有:

(1)添加类别预测展示及标注功能

(2)添加标注进度展示区

(3)添加分词功能

(4)添加实体识别功能

(5)导出时,计算本次标注后系统预测的准确率

github地址:

jiesutd/YEDDA​github.com

总结

以上是生活随笔为你收集整理的标注工具_语料标注工具(3)的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。