spaCy软件是一个用于Python和Cython中高级自然语言处理的库,目前支持60多种语言的标记化和训练,可用于标记、解析、命名实体识别以及文本分类等操作,具有像BERT这样的预训练变压器的多任务学习功能,可用于生产的训练系统和简单模型包装,非常方便实用;spaCy是商业开放源代码软件,是目前最快的句法解析器,根据独立的基准测试,拥有快速高效的测试速度,同时该软件绿色安全、完全免费,内置有详细的安装教程,可让用户进行简单便捷的软件安装,非常简单易用,有需要的用户可以能够下载使用。

软件功能
经过训练的管道可以能够处理不同的语言和任务
使用像BERT这样的预训练变压器进行多任务学习
支持预训练的单词向量和嵌入
语言驱动的标记化
用于命名实体识别,词性标记,依存关系分析,句子分段,文本分类,词义化,形态分析,实体链接等的组件
使用自定义组件和属性可轻松扩展
支持PyTorch,TensorFlow和其他框架中的自定义模型
内置用于语法和NER的可视化工具
软件特色
1、支持60多种语言
2、最先进的速度
3、生产就绪培训系统
4、易于模型打包,部署和工作流管理
5、稳健,经过严格评估的准确性
官方教程
spaCy与64位CPython 3.6+兼容,并且可以能够在Unix / Linux, macOS / OS
X和Windows上运行。最新spaCy版本都可以能够在 画中画和 畅达。
点子
使用pip,可将spaCy版本作为源包和二进制文件能够提供。您安装spaCy及其依赖之前,请确保您的pip, setuptools并且wheel是最新的。

使用pip时,通常建议在虚拟环境中安装软件包,以避免修改系统状态:

spaCy还允许您通过在方括号中指定以下关键字来安装额外的依赖项,例如spacy[ja]或spacy[lookups,transformers](带有多个逗号分隔的额外内容)。请参阅[options.extras_require]spaCy的部分setup.cfg 有关所含内容的详细信息。

康达
多亏了我们强大的社区,我们才得以重新添加conda支持。您也可以能够通过conda-forge以下方式安装spaCy :

对于包括构建配方和配置的原料,请检出 此存储库。请注意,我们目前尚未在conda上发布任何预发布版本。
升级空间
从V2升级到V3尽管我们试图将更改的影响降到最低,但是从spaCy v2.x升级到v3.x可能仍需要对代码库进行一些更改。有关详细信息,请参阅“向后不兼容 和迁移”部分。还请记住下载新的训练有素的管道,然后重新训练自己的管道。当更新到较新版本的spaCy时,通常建议从干净的虚拟环境开始。如果要升级到新的主要版本,请确保已安装最新的经过培训的兼容管道,并且环境中没有遗留任何旧的不兼容的软件包,因为这通常会导致意外的结果和错误。如果您已经训练了自己的模型,请记住,训练和运行时输入必须匹配。这意味着您必须使用新版本重新训练管道。
spaCy还能够提供了 validate命令,它使您可以能够验证所有已安装的管道程序包都与您的spaCy版本兼容。如果找到不兼容的软件包,则会打印提示和安装说明。建议将命令与一起运行,python -m以确保您正在执行正确版本的spaCy。

使用GPU运行spaCy
从v2.0开始,spaCy随附了在我们的机器学习库Thinc中实现的神经网络模型。对于GPU的支持,我们非常感谢使用Chainer的CuPy模块的工作,该模块为GPU阵列能够提供了与numpy兼容的接口。
spaCy可以能够在GPU通过指定安装spacy[cuda],spacy[cuda90], spacy[cuda91],spacy[cuda92],spacy[cuda100],spacy[cuda101], spacy[cuda102],spacy[cuda110]或spacy[cuda111]。如果您知道自己的cuda版本,则使用更明确的说明符可以能够通过wheel安装cupy,从而节省了一些编译时间。指定者应安装 cupy。

启用GPU的安装后,激活它的最佳方法是调用 spacy.prefer_gpu 或者 spacy.require_gpu()在加载任何管道之前,脚本中的某个位置。require_gpu如果没有可用的GPU,将引发错误。

从源编译
安装spaCy的另一种方法是克隆其 GitHub存储库并从源代码构建它。如果要更改代码库,这是常见的方法。您需要确保您拥有一个包含Python发行版(包括头文件,编译器,pip和git)的开发环境 。编译器部分最棘手。如何做到这一点取决于您的系统。有关详细信息,请参见Ubuntu,macOS / OS X和 Windows上的注释。

要安装其他功能:

如何安装编译器和相关的构建工具:
Ubuntu:通过apt-get以下方式安装系统级依赖项: sudo apt-get install build-essential python-dev git
macOS / OS X:安装最新版本的 XCode,包括所谓的“命令行工具”。macOS和OS X附带了预安装的Python和Git。
Windows:安装 与用来编译Python解释器的版本相匹配的 Visual C ++ Build Tools 或 Visual Studio Express版本。
开发人员的其他选项
对于正在编辑源代码并经常重新编译的spaCy开发人员,某些其他选项可能很有用。
以可编辑模式安装。.py保存文件后,对文件的更改将立即反映出来,但是对Cython文件(.pxd,.pyx)的编辑将要求再次运行下面的pip installorpython setup.py build_ext命令。在以可编辑模式进行安装之前,请确保已使用删除了以前的所有安装pip uninstall spacy,您可能需要运行多次以删除早期安装的所有痕迹。

使用NCPU并行构建以加快编译速度,然后以可编辑模式安装:

生成可执行文件
spaCy存储库包括一个 Makefile 使用以下命令生成可执行的zip文件 pex (P ython例ecutable)。该可执行文件包括spaCy及其所有程序包依赖项,并且在运行时仅需要系统Python。构建可执行.pex文件通常是部署spaCy的最便捷方法,因为它使您可以能够将构建与部署过程分开。
用法要使用.pex文件,只需python在执行代码或CLI命令时替换为文件的路径即可。这等效于在安装了spaCy的虚拟环境中运行Python。

您可以能够使用以下环境变量配置构建过程:

运行测试
spaCy带有广泛的测试套件。为了运行测试,通常需要克隆存储库 并从source构建spaCy。这还将安装所需的开发依赖项和中定义的测试实用程序requirements.txt。
或者,您可以能够找到spaCy的安装位置并pytest在该目录上运行。别忘了也通过spaCy的安装测试实用程序 requirements.txt:

调用pytestspaCy目录将仅运行基本测试。该标志 --slow是可选的,可以能够启用耗时更长的其他测试。

版权声明:spaCy(句法解析器)所展示的资源内容均来自于第三方用户上传分享,您所下载的资源内容仅供个人学习交流使用,严禁用于商业用途,软件的著作权归原作者所有,如果有侵犯您的权利,请来信告知,我们将及时撤销。
软件下载信息清单:
驱动文件名称 | 发布日期 | 文件大小 | 下载文件名 |
---|---|---|---|
spaCy(句法解析器)安装包 | 2024年11月26日 | 9.5 MB | spaCyrj.zip |
软件评论