Java StringSpan类代码示例

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› Java›Java编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

本文整理汇总了Java中cc.mallet.extract.StringSpan类的典型用法代码示例。如果您正苦于以下问题：Java StringSpan类的具体用法？Java StringSpan怎么用？Java StringSpan使用的例子？那么恭喜您, 这里精选的类代码示例或许可以为您提供帮助。

StringSpan类属于cc.mallet.extract包，在下文中一共展示了StringSpan类的8个代码示例，这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞，您的评价将有助于我们的系统推荐出更棒的Java代码示例。

示例1: pipe

import cc.mallet.extract.StringSpan; //导入依赖的package包/类
public Instance pipe(Instance carrier)
{
  StringTokenization ts =  (StringTokenization) carrier.getData();
  StringTokenization newTs = new StringTokenization((CharSequence) ts.getDocument ());
   final LabelAlphabet dict = (LabelAlphabet) getTargetAlphabet();
   LabelSequence labelSeq = new LabelSequence(dict);
   Label start = dict.lookupLabel ("start");
   Label notstart = dict.lookupLabel ("notstart");

  boolean lastWasSpace = true;
  StringBuffer sb = new StringBuffer();
  for (int i = 0; i < ts.size(); i++) {
    StringSpan t = (StringSpan) ts.getSpan(i);
    if (t.getText().equals(" "))
      lastWasSpace = true;
    else {
      sb.append(t.getText());
      newTs.add(t);
      labelSeq.add(lastWasSpace ? "start" : "notstart");
      lastWasSpace = false;
    }
  }
  if (isTargetProcessing())
    carrier.setTarget(labelSeq);
  carrier.setData(newTs);
  carrier.setSource(sb.toString());
  return carrier;
}

开发者ID:kostagiolasn，项目名称:NucleosomePatternClassifier，代码行数:29，代码来源:TestMEMM.java

示例2: pipe

import cc.mallet.extract.StringSpan; //导入依赖的package包/类
public Instance pipe (Instance carrier)
{
	CharSequence string = (CharSequence) carrier.getData();
	lexer.setCharSequence (string);
	TokenSequence ts = new StringTokenization (string);
	while (lexer.hasNext()) {
		lexer.next();
		ts.add (new StringSpan (string, lexer.getStartOffset (), lexer.getEndOffset ()));
	}
	carrier.setData(ts);
	return carrier;
}

开发者ID:kostagiolasn，项目名称:NucleosomePatternClassifier，代码行数:13，代码来源:CharSequence2TokenSequence.java

示例3: pipe

import cc.mallet.extract.StringSpan; //导入依赖的package包/类
public Instance pipe (Instance carrier)
{
  Object data = carrier.getData ();
  if (data instanceof Tokenization) {
    // we're done
  } else if (data instanceof TokenSequence) {
    StringBuffer buf = new StringBuffer ();
    TokenSequence ts = (TokenSequence) data;
    StringTokenization spans = new StringTokenization (buf);  // I can use a StringBuffer as the doc! Awesome!

    for (int i = 0; i < ts.size(); i++) {
      Token token = ts.get(i);

      int start = buf.length ();
      buf.append (token.getText());
      int end = buf.length();

      StringSpan span = new StringSpan (buf, start, end);
      span.setFeatures (token.getFeatures ());
      span.setProperties (token.getProperties ());

      spans.add (span);
      buf.append (" ");
    }

    carrier.setData (spans);
  } else {
    throw new IllegalArgumentException ("Can't convert "+data+" to Tokenization.");
  }

  return carrier;
}

开发者ID:kostagiolasn，项目名称:NucleosomePatternClassifier，代码行数:33，代码来源:TokenSequence2Tokenization.java

示例4: pipe

import cc.mallet.extract.StringSpan; //导入依赖的package包/类
public Instance pipe (Instance carrier)
{
	long millis=System.currentTimeMillis();
	CharSequence string = (CharSequence) carrier.getData();
	lexer.setCharSequence (string);
	TokenSequence ts = new StringTokenization (string);
	while (lexer.hasNext()) {
		lexer.next();
		ts.add (new StringSpan (string, lexer.getStartOffset (), lexer.getEndOffset ()));
	}
	
	carrier.setData(ts);
	//System.out.println(this.getClass().getCanonicalName() + "----" +(System.currentTimeMillis()-millis));
	return carrier;
}

开发者ID:sameeraxiomine，项目名称:largelda，代码行数:16，代码来源:BigCharSequence2TokenSequence.java

示例5: stem

import cc.mallet.extract.StringSpan; //导入依赖的package包/类
private TokenSequence stem(TokenSequence tokenSequence) {

    PorterStemmer stemmer = new PorterStemmer();
    StringIterator text = new StringIterator("");
    Iterator<Token> tokens = tokenSequence.iterator();

    while (tokens.hasNext()) {

      Token token = tokens.next();
      if (token == null || !(token instanceof StringSpan)) {
        continue;
      }

      text.reset(token.getText());
      while (!text.isEndOfText()) {

        char c = text.peek();
        if (!Character.isLetter(c)) {
          break;
        }

        stemmer.add(c);
        text.moveAhead();
      }

      stemmer.stem();
      token.setText(stemmer.toString());
    }
    return tokenSequence;
  }

开发者ID:mimno，项目名称:Mallet，代码行数:31，代码来源:TokenSequence2PorterStems.java

示例6: pipe

import cc.mallet.extract.StringSpan; //导入依赖的package包/类
public Instance pipe (Instance carrier)
{
  String input;
  if (carrier.getData () instanceof CharSequence) {
    input = String.valueOf(carrier.getData ());
  } else {
    throw new ClassCastException("Needed a String; got "+carrier.getData());
  }
  
  String[] lines = input.split ("\n");

  StringSpan[] spans = new StringSpan[lines.length];
  Labels[] lbls = new Labels[lines.length];
  StringBuffer buf = new StringBuffer ();

  Alphabet dict = getDataAlphabet ();

  for (int i = 0; i < lines.length; i++) {
    String line = lines[i];
    String[] toks = line.split ("\\s+");

    int j = 0;
    ArrayList thisLabels = new ArrayList ();
    if (!labelsAtEnd) {
      while (!isLabelSeparator (toks, j)) {
        thisLabels.add (labelForTok (toks[j], j));
        j++;
      }
      if ((j < toks.length) && toks[j].equals ("----")) j++;
      lbls[i] = new Labels ((Label[]) thisLabels.toArray (new Label[thisLabels.size ()]));
    }

    int maxFeatureIdx = (labelsAtEnd) ? toks.length - numLabels : toks.length;

    String text = "*???*";
    if (featuresIncludeToken) {
      if (j < maxFeatureIdx) {
        text = toks [j++];
      }
    }

    int start = buf.length ();
    buf.append (text);
    int end = buf.length ();
    buf.append (" ");

    StringSpan span = new StringSpan (buf, start, end);

    while (j < maxFeatureIdx) {
      span.setFeatureValue (toks[j].intern (), 1.0);
      j++;
    }

    if (includeTokenText) {
      span.setFeatureValue ((textFeaturePrefix+text).intern(), 1.0);
    }

    if (labelsAtEnd) {
      int firstLblIdx = j;
      while (j < toks.length) {
        thisLabels.add (labelForTok (toks[j], j - firstLblIdx));
        j++;
      }
      lbls[i] = new Labels ((Label[]) thisLabels.toArray (new Label[thisLabels.size ()]));
    }

    spans[i] = span;

  }

  StringTokenization tokenization = new StringTokenization (buf);
  tokenization.addAll (spans);
  carrier.setData (tokenization);

  carrier.setTarget (new LabelsAssignment (new LabelsSequence (lbls)));
  return carrier;
}

开发者ID:kostagiolasn，项目名称:NucleosomePatternClassifier，代码行数:78，代码来源:GenericAcrfData2TokenSequence.java

示例7: pipe

import cc.mallet.extract.StringSpan; //导入依赖的package包/类
public Instance pipe (Instance carrier)
{
   CharSequence string = (CharSequence) carrier.getData();
	StringTokenization dataTokens = new StringTokenization (string);
	TokenSequence targetTokens = new TokenSequence ();
	String tag = backgroundTag;
	String nextTag = backgroundTag;
	Matcher m = sgmlPattern.matcher (string);
	int textStart = 0;
	int textEnd = 0;
	int nextStart = 0;
	boolean done = false;

	logger.fine(sgmlPattern.pattern());
	logger.finer(string.toString());

	while (!done) {
		done = !(m.find());
		if (done)
			textEnd = string.length(); // culotta: changed from string.length()-1 
		else {
			String sgml = m.group();
			logger.finer ("SGML = "+sgml);

			int groupCount = m.groupCount();
			logger.finer(Integer.toString (groupCount));

			if (sgml.charAt(1) == '/')
				nextTag = backgroundTag;
			else{
				//nextTag = m.group(0);
				nextTag = sgml.substring(1, sgml.length()-1);
			}
			logger.finer("nextTag: " + nextTag);

			nextStart = m.end();  // m.end returns one beyond index of last match char
			textEnd = m.start();  // String.subtring does not include index end
			logger.finer ("Text start/end "+textStart+" "+textEnd);
		}
		if (textEnd - textStart > 0) {
			logger.finer ("Tag = "+tag);
			logger.finer ("Target = "+string.subSequence (textStart, textEnd));
			lexer.setCharSequence (string.subSequence (textStart, textEnd));
			while (lexer.hasNext()) {
         lexer.next ();
         int tokStart = textStart + lexer.getStartOffset ();
         int tokEnd = textStart + lexer.getEndOffset ();
         dataTokens.add (new StringSpan (string, tokStart, tokEnd));
				targetTokens.add (new Token (tag));
			}
		}
		textStart = nextStart;
		tag = nextTag;
	}
	carrier.setData(dataTokens);
	carrier.setTarget(targetTokens);

   if (saveSource) {
     carrier.setSource(dataTokens);
   }

	return carrier;
}

开发者ID:kostagiolasn，项目名称:NucleosomePatternClassifier，代码行数:64，代码来源:SGML2TokenSequence.java

示例8: pipe

import cc.mallet.extract.StringSpan; //导入依赖的package包/类
/**
  * Takes an instance with data of type String or String[][] and creates
  * an Instance of type StringTokenization.  Each Token in the sequence is
  * gets the test of the line preceding it and once feature of value 1
  * for each "Feature" in the line.  For example, if the String[][] is
  * {{a,b},{c,d,e}} (and target processing is off) then the text would be
  * "a b" for the first token and "c d e" for the second.  Also, the
  * features "a" and "b" would be set for the first token and "c", "d" and
  * "e"  for the second.  The last element in the String[] for the current
  * token is taken as the target (label), so in the previous example "b"
  * would have been the label of the first sequence.
  */
 public Instance pipe(Instance carrier) {
	Object inputData = carrier.getData();
	LabelAlphabet labels;
	LabelSequence target = null;
	String[][] tokens;
	StringBuffer source = new StringBuffer();
	StringTokenization ts = new StringTokenization(source);
	if (inputData instanceof String)
		tokens = parseSentence((String) inputData);
	else if (inputData instanceof String[][])
		tokens = (String[][]) inputData;
	else
		throw new IllegalArgumentException("Not a String; got " + inputData);
	if (isTargetProcessing()) {
		labels = (LabelAlphabet) getTargetAlphabet();
		target = new LabelSequence(labels, tokens.length);
	}
	for (int l = 0; l < tokens.length; l++) {
		int nFeatures;
		if (isTargetProcessing()) {
			if (tokens[l].length < 1)
				throw new IllegalStateException("Missing label at line "
						+ l + " instance " + carrier.getName());
			nFeatures = tokens[l].length - 1;
			target.add(tokens[l][nFeatures]);
		} else
			nFeatures = tokens[l].length;
		int start = source.length();
		String word = makeText(tokens[l]);
		source.append(word + " ");
		Token tok = new StringSpan(source, start, source.length() - 1);
		if (setTokensAsFeatures) {
			for (int f = 0; f < nFeatures; f++)
				tok.setFeatureValue(tokens[l][f], 1.0);
		} else {
			for (int f = 1; f < nFeatures; f++)
				tok.setFeatureValue(tokens[l][f], 1.0);
		}
		ts.add(tok);
	}
	carrier.setData(ts);
	if (isTargetProcessing())
		carrier.setTarget(target);
	return carrier;
}

开发者ID:kostagiolasn，项目名称:NucleosomePatternClassifier，代码行数:58，代码来源:SimpleTaggerSentence2StringTokenization.java

注：本文中的cc.mallet.extract.StringSpan类示例整理自Github/MSDocs等源码及文档管理平台，相关代码片段筛选自各路编程大神贡献的开源项目，源码版权归原作者所有，传播和使用请参考对应项目的License；未经允许，请勿转载。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Java ForeignExceptionMessage类代码示例发布时间：2022-05-22

Java ZoneOffsetTransitionRule类代码示例发布时间：2022-05-22

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19253|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：10005|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8335|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8703|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8649|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9675|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8635|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：8008|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8671|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7542|2022-11-06

客服电话

电子邮件

Java StringSpan类代码示例

示例1: pipe

示例2: pipe

示例3: pipe

示例4: pipe

示例5: stem

示例6: pipe

示例7: pipe

示例8: pipe

请发表评论

全部评论

上一篇：

下一篇：

GitbookIO/gitbook:

juleswhite/mobile-cloud-asgn1

CVE-2022-1482

kyamagu/matlab-json: Use official API: h

墙壁眼睛膝盖

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053