Java StanfordSegmenter类代码示例

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› Java›Java编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

本文整理汇总了Java中de.tudarmstadt.ukp.dkpro.core.stanfordnlp.StanfordSegmenter类的典型用法代码示例。如果您正苦于以下问题：Java StanfordSegmenter类的具体用法？Java StanfordSegmenter怎么用？Java StanfordSegmenter使用的例子？那么恭喜您, 这里精选的类代码示例或许可以为您提供帮助。

StanfordSegmenter类属于de.tudarmstadt.ukp.dkpro.core.stanfordnlp包，在下文中一共展示了StanfordSegmenter类的6个代码示例，这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞，您的评价将有助于我们的系统推荐出更棒的Java代码示例。

示例1: getPipeline

import de.tudarmstadt.ukp.dkpro.core.stanfordnlp.StanfordSegmenter; //导入依赖的package包/类
/**
 * Creates a tokenizing pipeline
 *
 * @throws IOException exception
 */
private static AnalysisEngineDescription getPipeline()
        throws IOException
{
    if (pipelineSingleton == null) {
        try {
            pipelineSingleton = AnalysisEngineFactory.createEngineDescription(
                    AnalysisEngineFactory.createEngineDescription(ParagraphSplitter.class,
                            ParagraphSplitter.PARAM_SPLIT_PATTERN,
                            ParagraphSplitter.SINGLE_LINE_BREAKS_PATTERN),
                    AnalysisEngineFactory.createEngineDescription(ArkTweetTokenizerFixed.class),
                    AnalysisEngineFactory.createEngineDescription(StanfordSegmenter.class,
                            StanfordSegmenter.PARAM_WRITE_TOKEN, false,
                            StanfordSegmenter.PARAM_ZONE_TYPES,
                            Paragraph.class.getCanonicalName()));
        }
        catch (ResourceInitializationException e) {
            throw new IOException();
        }
    }

    return pipelineSingleton;
}

开发者ID:UKPLab，项目名称:argument-reasoning-comprehension-task，代码行数:28，代码来源:Step0bTextSegmenterA.java

示例2: main

import de.tudarmstadt.ukp.dkpro.core.stanfordnlp.StanfordSegmenter; //导入依赖的package包/类
public static void main(String[] args) throws UIMAException, IOException {

		// read text documents
		CollectionReaderDescription reader = CollectionReaderFactory.createReaderDescription(TextReader.class,
				TextReader.PARAM_SOURCE_LOCATION, textFolder, TextReader.PARAM_PATTERNS, textPattern,
				TextReader.PARAM_LANGUAGE, "en");

		// preprocess documents
		String[] quoteBegin = { "“", "‘" };
		List<String> quoteBeginList = Arrays.asList(quoteBegin);
		String[] quoteEnd = { "”", "’" };
		List<String> quoteEndList = Arrays.asList(quoteEnd);

		AnalysisEngineDescription segmenter = AnalysisEngineFactory.createEngineDescription(StanfordSegmenter.class);
		AnalysisEngineDescription pos = AnalysisEngineFactory.createEngineDescription(StanfordPosTagger.class,
				StanfordPosTagger.PARAM_QUOTE_BEGIN, quoteBeginList, StanfordPosTagger.PARAM_QUOTE_END, quoteEndList);
		AnalysisEngineDescription lemmatizer = AnalysisEngineFactory.createEngineDescription(StanfordLemmatizer.class);
		AnalysisEngineDescription stemmer = AnalysisEngineFactory.createEngineDescription(SnowballStemmer.class,
				SnowballStemmer.PARAM_LOWER_CASE, true);
		AnalysisEngineDescription parser = AnalysisEngineFactory.createEngineDescription(StanfordParser.class,
				StanfordParser.PARAM_MODEL_LOCATION, "lib/englishRNN.ser", StanfordParser.PARAM_MODE,
				DependenciesMode.CC_PROPAGATED, StanfordPosTagger.PARAM_QUOTE_BEGIN, quoteBeginList,
				StanfordPosTagger.PARAM_QUOTE_END, quoteEndList);

		// write annotated data to file
		AnalysisEngineDescription writer = AnalysisEngineFactory.createEngineDescription(BinaryCasWriter.class,
				BinaryCasWriter.PARAM_TARGET_LOCATION, textFolder, BinaryCasWriter.PARAM_STRIP_EXTENSION, false,
				BinaryCasWriter.PARAM_FILENAME_EXTENSION, ".bin6", BinaryCasWriter.PARAM_OVERWRITE, true);

		// print statistics
		AnalysisEngineDescription stat = AnalysisEngineFactory.createEngineDescription(CorpusStatWriter.class);

		// run pipeline
		SimplePipeline.runPipeline(reader, segmenter, pos, lemmatizer, stemmer, parser, writer, stat);
	}

开发者ID:UKPLab，项目名称:emnlp2017-cmapsum-corpus，代码行数:36，代码来源:PipelinePreprocessing.java

示例3: main

import de.tudarmstadt.ukp.dkpro.core.stanfordnlp.StanfordSegmenter; //导入依赖的package包/类
public static void main(String[] args) throws UIMAException, IOException {

		Logger.getRootLogger().setLevel(Level.INFO);

		// 0) parameter
		if (args.length > 0)
			textFolder = args[0];

		// 1) read text documents
		CollectionReaderDescription reader = CollectionReaderFactory.createReaderDescription(TextReader.class,
				TextReader.PARAM_SOURCE_LOCATION, textFolder, TextReader.PARAM_PATTERNS, textPattern,
				TextReader.PARAM_LANGUAGE, "en");

		// 2) process documents

		String[] quoteBegin = { "“", "‘" };
		List<String> quoteBeginList = Arrays.asList(quoteBegin);
		String[] quoteEnd = { "”", "’" };
		List<String> quoteEndList = Arrays.asList(quoteEnd);

		// tokenization and sentence splitting
		AnalysisEngineDescription segmenter = AnalysisEngineFactory.createEngineDescription(StanfordSegmenter.class,
				StanfordSegmenter.PARAM_NEWLINE_IS_SENTENCE_BREAK, "ALWAYS");

		// part-of-speech tagging
		AnalysisEngineDescription pos = AnalysisEngineFactory.createEngineDescription(StanfordPosTagger.class,
				StanfordPosTagger.PARAM_QUOTE_BEGIN, quoteBeginList, StanfordPosTagger.PARAM_QUOTE_END, quoteEndList);

		// lemmatizing
		AnalysisEngineDescription lemmatizer = AnalysisEngineFactory.createEngineDescription(StanfordLemmatizer.class,
				StanfordLemmatizer.PARAM_QUOTE_BEGIN, quoteBeginList, StanfordLemmatizer.PARAM_QUOTE_END, quoteEndList);

		// named entity recognition
		AnalysisEngineDescription ner = AnalysisEngineFactory.createEngineDescription(
				StanfordNamedEntityRecognizer.class, StanfordNamedEntityRecognizer.PARAM_QUOTE_BEGIN, quoteBeginList,
				StanfordNamedEntityRecognizer.PARAM_QUOTE_END, quoteEndList);

		// constituency parsing and dependency conversion
		AnalysisEngineDescription parser = AnalysisEngineFactory.createEngineDescription(StanfordParser.class,
				StanfordParser.PARAM_QUOTE_BEGIN, quoteBeginList, StanfordParser.PARAM_QUOTE_END, quoteEndList,
				StanfordParser.PARAM_MODE, DependenciesMode.CC_PROPAGATED);

		// coreference resolution
		AnalysisEngineDescription coref = AnalysisEngineFactory.createEngineDescription();

		// 3) write annotated data to file
		AnalysisEngineDescription writer = AnalysisEngineFactory.createEngineDescription(BinaryCasWriter.class,
				BinaryCasWriter.PARAM_TARGET_LOCATION, textFolder, BinaryCasWriter.PARAM_STRIP_EXTENSION, false,
				BinaryCasWriter.PARAM_FILENAME_EXTENSION, ".bin6", BinaryCasWriter.PARAM_OVERWRITE, true);

		// print statistics
		AnalysisEngineDescription stat = AnalysisEngineFactory.createEngineDescription(CorpusStatWriter.class);

		// 4) run pipeline
		SimplePipeline.runPipeline(reader, segmenter, pos, lemmatizer, ner, parser, coref, writer, stat);
	}

开发者ID:UKPLab，项目名称:ijcnlp2017-cmaps，代码行数:57，代码来源:PipelinePreprocessing.java

示例4: process

import de.tudarmstadt.ukp.dkpro.core.stanfordnlp.StanfordSegmenter; //导入依赖的package包/类
private static void process(String inputDir, String xmiOutputDir, String csvOutputDir, String parseDir)
		throws UIMAException, IOException {
	
	CollectionReader reader = createReader(TextReader.class, TextReader.PARAM_SOURCE_LOCATION, inputDir,
			TextReader.PARAM_LANGUAGE, "en", TextReader.PARAM_PATTERNS, new String[] {"*.txt"}); // for WSJ subfolders: { "[+]*/*" }); // suffix .txt?

	// Preprocessing with Stanford CoreNLP components
	AnalysisEngineDescription stTokenizer = AnalysisEngineFactory.createEngineDescription(StanfordSegmenter.class,
			StanfordSegmenter.PARAM_LANGUAGE, "en");

	AnalysisEngineDescription stParser = AnalysisEngineFactory.createEngineDescription(StanfordParser.class,
			StanfordParser.PARAM_LANGUAGE, "en", StanfordParser.PARAM_WRITE_POS, true,
			StanfordParser.PARAM_WRITE_PENN_TREE, true, StanfordParser.PARAM_MAX_TOKENS, 200,
			StanfordParser.PARAM_WRITE_CONSTITUENT, true, StanfordParser.PARAM_WRITE_DEPENDENCY, true,
			StanfordParser.PARAM_MODE, StanfordParser.DependenciesMode.CC_PROPAGATED);

	AnalysisEngineDescription stLemmas = AnalysisEngineFactory.createEngineDescription(StanfordLemmatizer.class);

	// NP feature extraction components: select the noun phrases for which
	// to extract features.
	// See NounPhraseSelectorAnnotator for possible argument choices.
	AnalysisEngineDescription npSelector = AnalysisEngineFactory.createEngineDescription(
			NounPhraseSelectorAnnotator.class, NounPhraseSelectorAnnotator.PARAM_TARGET, "AllNounPhrases");

	// Extract the NP-based features.
	AnalysisEngineDescription npFeatures = AnalysisEngineFactory.createEngineDescription(
			NounPhraseFeaturesAnnotator.class, NounPhraseFeaturesAnnotator.PARAM_COUNTABILITY_PATH,
			countabilityPath, NounPhraseFeaturesAnnotator.PARAM_WORDNET_PATH, wordNetPath);

	// Select the verbs for which to extract features.
	AnalysisEngineDescription verbSelector = AnalysisEngineFactory
			.createEngineDescription(VerbSelectorAnnotator.class);

	// Extract the verb-based features.
	AnalysisEngineDescription verbFeatures = AnalysisEngineFactory.createEngineDescription(
			VerbFeaturesAnnotator.class, VerbFeaturesAnnotator.PARAM_WORDNET_PATH, wordNetPath,
			VerbFeaturesAnnotator.PARAM_TENSE_FILE, "resources/tense/tense.txt");

	// Write standoff CSV file with features.
	AnalysisEngineDescription csvWriter = null;
	if (csvOutputDir != null) {
		csvWriter = AnalysisEngineFactory.createEngineDescription(SyntSemFeaturesCSVWriter.class,
				SyntSemFeaturesCSVWriter.PARAM_OUTPUT_FOLDER, csvOutputDir);
	}
	
	// write out dependency parses (for development)
	AnalysisEngineDescription parseWriter = null;
	if (parseDir != null) {
		parseWriter = AnalysisEngineFactory.createEngineDescription(ParseWriterAnnotator.class,
				ParseWriterAnnotator.PARAM_OUTPUT_FILE, parseDir);
	}

	// writes out XMIs (can then be inspected with UIMA annotation viewer,
	// or used for further processing in an UIMA pipeline)
	AnalysisEngineDescription xmiWriter = null;
	if (xmiOutputDir != null) {
		xmiWriter = AnalysisEngineFactory.createEngineDescription(XmiWriter.class, XmiWriter.PARAM_TARGET_LOCATION,
				xmiOutputDir);
	}

	if (xmiOutputDir != null && csvOutputDir != null) {
		runPipeline(reader, stTokenizer, stParser, stLemmas, npSelector, npFeatures, verbSelector, verbFeatures,
				csvWriter, xmiWriter);
	}
	if (xmiOutputDir != null && csvOutputDir == null) {
		runPipeline(reader, stTokenizer, stParser, stLemmas, npSelector, npFeatures, verbSelector, verbFeatures,
				xmiWriter);
	}

	if (xmiOutputDir == null && csvOutputDir != null) {
		// TODO: proper configuration of pipeline for parseWriter
		runPipeline(reader, stTokenizer, stParser, stLemmas, npSelector, npFeatures, verbSelector, verbFeatures,
				csvWriter, parseWriter);
	}

}

开发者ID:annefried，项目名称:sitent，代码行数:77，代码来源:FeatureExtractionPipeline.java

示例5: process

import de.tudarmstadt.ukp.dkpro.core.stanfordnlp.StanfordSegmenter; //导入依赖的package包/类
private static void process(String inputDir, String xmiOutputDir, String csvOutputDir)
		throws UIMAException, IOException {
	CollectionReader reader = createReader(TextReader.class, TextReader.PARAM_SOURCE_LOCATION, inputDir,
			TextReader.PARAM_LANGUAGE, "en", TextReader.PARAM_PATTERNS, new String[] { "[+]*.txt" });

	// Preprocessing with Stanford CoreNLP components
	AnalysisEngineDescription stTokenizer = AnalysisEngineFactory.createEngineDescription(StanfordSegmenter.class,
			StanfordSegmenter.PARAM_LANGUAGE, "en");

	AnalysisEngineDescription stParser = AnalysisEngineFactory.createEngineDescription(StanfordParser.class,
			StanfordParser.PARAM_LANGUAGE, "en", StanfordParser.PARAM_WRITE_POS, true,
			StanfordParser.PARAM_WRITE_PENN_TREE, true, StanfordParser.PARAM_MAX_TOKENS, 200,
			StanfordParser.PARAM_WRITE_CONSTITUENT, true, StanfordParser.PARAM_WRITE_DEPENDENCY, true,
			StanfordParser.PARAM_MODE, StanfordParser.DependenciesMode.CC_PROPAGATED);

	AnalysisEngineDescription stLemmas = AnalysisEngineFactory.createEngineDescription(StanfordLemmatizer.class);

	// NP feature extraction components: select the noun phrases for which
	// to extract features.
	// See NounPhraseSelectorAnnotator for possible argument choices.
	AnalysisEngineDescription npSelector = AnalysisEngineFactory.createEngineDescription(
			NounPhraseSelectorAnnotator.class, NounPhraseSelectorAnnotator.PARAM_TARGET, "AllNounPhrases");

	// Extract the NP-based features.
	AnalysisEngineDescription npFeatures = AnalysisEngineFactory.createEngineDescription(
			NounPhraseFeaturesAnnotator.class, NounPhraseFeaturesAnnotator.PARAM_COUNTABILITY_PATH,
			countabilityPath, NounPhraseFeaturesAnnotator.PARAM_WORDNET_PATH, wordNetPath);

	// Select the verbs for which to extract features.
	AnalysisEngineDescription verbSelector = AnalysisEngineFactory
			.createEngineDescription(VerbSelectorAnnotator.class);

	// Extract the verb-based features.
	AnalysisEngineDescription verbFeatures = AnalysisEngineFactory.createEngineDescription(
			VerbFeaturesAnnotator.class, VerbFeaturesAnnotator.PARAM_WORDNET_PATH, wordNetPath,
			VerbFeaturesAnnotator.PARAM_TENSE_FILE, "resources/tense/tense.txt");

	// Write standoff CSV file with features.
	AnalysisEngineDescription csvWriter = null;
	if (csvOutputDir != null) {
		csvWriter = AnalysisEngineFactory.createEngineDescription(SyntSemFeaturesCSVWriter.class,
				SyntSemFeaturesCSVWriter.PARAM_OUTPUT_FOLDER, csvOutputDir);
	}

	// writes out XMIs (can then be inspected with UIMA annotation viewer,
	// or used for further processing in an UIMA pipeline)
	AnalysisEngineDescription xmiWriter = null;
	if (xmiOutputDir != null) {
		xmiWriter = AnalysisEngineFactory.createEngineDescription(XmiWriter.class, XmiWriter.PARAM_TARGET_LOCATION,
				xmiOutputDir);
	}

	if (xmiOutputDir != null && csvOutputDir != null) {
		runPipeline(reader, stTokenizer, stParser, stLemmas, npSelector, npFeatures, verbSelector, verbFeatures,
				csvWriter, xmiWriter);
	}
	if (xmiOutputDir != null && csvOutputDir == null) {
		runPipeline(reader, stTokenizer, stParser, stLemmas, npSelector, npFeatures, verbSelector, verbFeatures,
				xmiWriter);
	}

	if (xmiOutputDir == null && csvOutputDir != null) {
		runPipeline(reader, stTokenizer, stParser, stLemmas, npSelector, npFeatures, verbSelector, verbFeatures,
				csvWriter);
	}

}

开发者ID:annefried，项目名称:syntSemFeatures，代码行数:68，代码来源:FeatureExtractionPipeline.java

示例6: main

import de.tudarmstadt.ukp.dkpro.core.stanfordnlp.StanfordSegmenter; //导入依赖的package包/类
public static void main(String[] args)
    throws UIMAException, IOException
{

    CollectionReader stanfordReade = createReader(StanfordReader.class,
            StanfordReader.PARAM_DIRECTORY_NAME, "C://Users//skohail//Desktop//PhD//complete Data//reviewsfile");

    AnalysisEngine stanfordannotator = createEngine(StanfordSegmenter.class, StanfordSegmenter.PARAM_CREATE_SENTENCES,false);

    AnalysisEngine stanfordWriter = createEngine(StanfordOutWriter.class);

    SimplePipeline.runPipeline(stanfordReade, stanfordannotator, stanfordWriter);
}

开发者ID:tudarmstadt-lt，项目名称:sentiment，代码行数:14，代码来源:StanfordePipline.java

注：本文中的de.tudarmstadt.ukp.dkpro.core.stanfordnlp.StanfordSegmenter类示例整理自Github/MSDocs等源码及文档管理平台，相关代码片段筛选自各路编程大神贡献的开源项目，源码版权归原作者所有，传播和使用请参考对应项目的License；未经允许，请勿转载。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Java QName类代码示例发布时间：2022-05-23

Java DataTransferMessages类代码示例发布时间：2022-05-23

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：18792|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9856|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8277|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8637|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8561|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9563|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8554|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7953|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8556|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7476|2022-11-06

客服电话

电子邮件

Java StanfordSegmenter类代码示例

示例1: getPipeline

示例2: main

示例3: main

示例4: process

示例5: process

示例6: main

请发表评论

全部评论

上一篇：

下一篇：

Delphi中Indy10的安装和老版本的卸载

GaloyMoney/galoy-mobile

CVE-2022-34502

swcarpentry/matlab-novice-inflammation:

美国三一学院字怎么样？专业特色有哪些？

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053