THULAC-Python 的 fast 模式有多快

清华大学自然语言处理与社会人文计算实验室有个分词程序叫 THULAC-Python ,可以根据 THULAC.so 中生成的 libthulac.so 文件加速 THULAC-Python 的分词速度。众所周知 Python 在计算效率上差强人意,所以捣鼓了一番,想知道利用这个以 C++ 为底层的工具能给 Python 版的 THULAC-Python 带来多大的效率提升

以下 THULAC-Python 原生的 cut 函数与利用 C++ 提速的 fast_cut 的耗时对比。横坐标是待分词长度,纵坐标是相应的耗时。可以看出 fast_cut 模式几乎没变化,而 cut 耗时快速增加

在更大的文本数据上的表现也类似

结论:使用时发现 libthulac.so 第一次分词时耗时更长,其带来的速度提升,主要是在不同文本长度时,几乎不变的耗时

对比源代码见: thulac_fast.html


题外话:

看着变化的趋势,让我想起一个性能逆天的文本替换软件 flashtext ,其性能对比图如下:

Comments
Write a Comment