Vercut

一个功能强大的在线文本分词工具,支持多种语言和分词模式。

功能特性

文本分词所需的一切

多语言支持
支持英语、德语、西班牙语、法语、意大利语、葡萄牙语、俄语等多种语言。
多种分词模式
将文本分词为句子、短语和单词,并提供详细的元数据。
Unicode 和 CJK 支持
完全支持中文、日文、泰文、高棉文及所有 Unicode 脚本。
快速轻量
主要基于正则表达式,CJK 语言可选使用 WebAssembly。
详细词元分析
获取字符偏移量、标点符号标记和词边界。
开源
基于 echogarden text-segmentation 库构建。