关于 Vercut

什么是 Vercut?

Vercut 是一个功能强大的在线文本分词工具,可帮助您将文本分解为句子、短语和单词。它支持多种语言,并提供每个词元的详细元数据。

无论您是在分析文本、构建 NLP 应用程序,还是只是对文本结构感到好奇,Vercut 都提供了一个直观的界面来探索文本分词。

功能特性
  • 多语言支持(英语、德语、西班牙语、法语、意大利语、葡萄牙语、俄语)
  • 完全支持 Unicode 和 CJK 字符
  • 句子、短语和单词分词
  • 详细的词元元数据(偏移量、标点符号标记)
  • 简洁直观的用户界面
  • 原始 JSON 导出以便集成
技术

Vercut 基于 @echogarden/text-segmentation 库构建,该库使用基于正则表达式的规则和可选的 WebAssembly ICU 分词(用于 CJK 语言)的组合,提供强大的多语言文本分词功能。

Web 应用程序使用 React、TanStack Router 和 TailwindCSS 构建。

开源

Vercut 是开源的,可在 GitHub上获取。欢迎贡献代码、报告错误和提出功能请求!