关于 Vercut
什么是 Vercut?
Vercut 是一个功能强大的在线文本分词工具,可帮助您将文本分解为句子、短语和单词。它支持多种语言,并提供每个词元的详细元数据。
无论您是在分析文本、构建 NLP 应用程序,还是只是对文本结构感到好奇,Vercut 都提供了一个直观的界面来探索文本分词。
功能特性
- 多语言支持(英语、德语、西班牙语、法语、意大利语、葡萄牙语、俄语)
- 完全支持 Unicode 和 CJK 字符
- 句子、短语和单词分词
- 详细的词元元数据(偏移量、标点符号标记)
- 简洁直观的用户界面
- 原始 JSON 导出以便集成
技术
Vercut 基于 @echogarden/text-segmentation 库构建,该库使用基于正则表达式的规则和可选的 WebAssembly ICU 分词(用于 CJK 语言)的组合,提供强大的多语言文本分词功能。
Web 应用程序使用 React、TanStack Router 和 TailwindCSS 构建。
开源
Vercut 是开源的,可在 GitHub上获取。欢迎贡献代码、报告错误和提出功能请求!