• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

Python voikkohtml.parseHtml函数代码示例

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

本文整理汇总了Python中voikkohtml.parseHtml函数的典型用法代码示例。如果您正苦于以下问题:Python parseHtml函数的具体用法?Python parseHtml怎么用?Python parseHtml使用的例子?那么恭喜您, 这里精选的函数代码示例或许可以为您提供帮助。



在下文中一共展示了parseHtml函数的20个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于我们的系统推荐出更棒的Python代码示例。

示例1: checkPage

def checkPage(url, dictionary, clientIp, requestHeaders, checkForMaybeErrors):
	log("checkPage: " + url.encode("UTF-8"))
	if dictionary not in _voikko:
		return u""
	v = _voikko[dictionary]
	try:
		html = getHtmlSafely(url.encode('UTF-8'), clientIp, requestHeaders)
		segments = parseHtml(html)
		res = u"Analyysi sivusta " + escape(url) + u"<br />"
		v.setAcceptUnfinishedParagraphsInGc(True)
		for segment in segments:
			segmentClass = None
			checkGrammar = True
			if segment[0] == SEGMENT_TYPE_HEADING:
				v.setAcceptTitlesInGc(True)
				v.setAcceptBulletedListsInGc(False)
				segmentClass = u"webvoikkoH"
			elif segment[0] == SEGMENT_TYPE_LIST_ITEM:
				v.setAcceptTitlesInGc(False)
				v.setAcceptBulletedListsInGc(True)
				segmentClass = u"webvoikkoLi"
			elif segment[0] == SEGMENT_TYPE_PARAGRAPH:
				v.setAcceptTitlesInGc(False)
				v.setAcceptBulletedListsInGc(False)
				segmentClass = u"webvoikkoP"
			elif segment[0] == SEGMENT_TYPE_OTHER:
				checkGrammar = False
				segmentClass = u"webvoikkoO"
			res = res + u"<p class='" + segmentClass + u"'>" + doSpell(segment[1], v, checkGrammar, checkForMaybeErrors) + u"</p>"
		return res
	except HttpException, e:
		return u"Sivua %s ei voitu hakea: %s" % (escape(url), e.parameter)
开发者ID:diegolinan,项目名称:corevoikko,代码行数:32,代码来源:ajaxvoikko.py


示例2: testH1WithinPClosesP

 def testH1WithinPClosesP(self):
     result = parseHtml(u"<html><body><p>Kissa<h1>Koira</h1>jotain muuta</p></body></html>")
     self.assertEquals(
         [
             (SEGMENT_TYPE_PARAGRAPH, u"Kissa"),
             (SEGMENT_TYPE_HEADING, u"Koira"),
             (SEGMENT_TYPE_OTHER, u"jotain muuta"),
         ],
         result,
     )
开发者ID:komu,项目名称:corevoikko,代码行数:10,代码来源:voikkohtmlTest.py


示例3: testUnclosedP

 def testUnclosedP(self):
     result = parseHtml(u"<html><body><p>kissa<p>koira<div><p>hevonen</div></body></html>")
     self.assertEquals(
         [
             (SEGMENT_TYPE_PARAGRAPH, u"kissa"),
             (SEGMENT_TYPE_PARAGRAPH, u"koira"),
             (SEGMENT_TYPE_PARAGRAPH, u"hevonen"),
         ],
         result,
     )
开发者ID:komu,项目名称:corevoikko,代码行数:10,代码来源:voikkohtmlTest.py


示例4: testNonAscii

 def testNonAscii(self):
     result = parseHtml(u"<html><body><h1>Eläinlääk&auml;rissä käynti €</h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"Eläinlääkärissä käynti €")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例5: testUnderlineInducesNoSpace

 def testUnderlineInducesNoSpace(self):
     result = parseHtml(u"<html><body><h1>Libre<u>Office</u></h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"LibreOffice")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例6: testParseHeader

 def testParseHeader(self):
     result = parseHtml(u"<html><body><h1>Kissan ruokkiminen</h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"Kissan ruokkiminen")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例7: testParseNestedLists

 def testParseNestedLists(self):
     result = parseHtml(u"<html><body><ul><li>kissa<ul><li>koira</li></ul></li></ul></body></html>")
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"kissa"), (SEGMENT_TYPE_LIST_ITEM, u"koira")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例8: testTextWithinBody

 def testTextWithinBody(self):
     result = parseHtml(u"<html><body>kissa</body></html>")
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"kissa")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例9: testParseParagraph

 def testParseParagraph(self):
     result = parseHtml(u"<html><body><p>Kissaa on ruokittava huolella.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例10: testScriptsAreStripped

 def testScriptsAreStripped(self):
     result = parseHtml(u"<html><body><p>Kissaa on ruokittava.</p><script>lksjdf</script></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例11: testScriptsWithinPIsIgnoredAndContentStripped

 def testScriptsWithinPIsIgnoredAndContentStripped(self):
     result = parseHtml(u"<html><body><p>Kissaa on <script>aksldj</script>ruokittava.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例12: testExtraWhitespaceIsRemoved

 def testExtraWhitespaceIsRemoved(self):
     result = parseHtml(u"<html><body><p>\tKissaa  on \rruokittava huolella.  </p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例13: testLineFeedIsJustSpace

 def testLineFeedIsJustSpace(self):
     result = parseHtml(u"<html><body><p>Kissaa\non\r\nruokittava\rhuolella.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例14: testBrIsWhitespace

 def testBrIsWhitespace(self):
     result = parseHtml(u"<html><body><p>Kissaa on ruokittava<br/>huolella.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例15: testIgnoreImages

 def testIgnoreImages(self):
     result = parseHtml(u"<html><body><p>Kissaa <img src='cat.jpg'>on ruokittava.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava.")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例16: testIgnoreTraditionalBr

 def testIgnoreTraditionalBr(self):
     result = parseHtml(u"<html><body><p>Kissaa on ruokittava <br>huolella.</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissaa on ruokittava huolella.")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例17: testUnknownEntityIsAssumedToBeJustText

 def testUnknownEntityIsAssumedToBeJustText(self):
     result = parseHtml(u"<html><body><p>Kissa & koira ja &kissa;</p></body></html>")
     self.assertEquals([(SEGMENT_TYPE_PARAGRAPH, u"Kissa & koira ja &kissa")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例18: assertParseError

 def assertParseError(self, html, lineno, offset):
     try:
         parseHtml(html)
     except HTMLParseError, e:
         self.assertEquals(lineno, e.lineno)
         self.assertEquals(offset, e.offset)
开发者ID:komu,项目名称:corevoikko,代码行数:6,代码来源:voikkohtmlTest.py


示例19: testHexCharacterReferences

 def testHexCharacterReferences(self):
     result = parseHtml(u"<html><body><h1>&#xE4;</h1></body></html>")
     self.assertEquals([(SEGMENT_TYPE_HEADING, u"ä")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py


示例20: testParseTitle

 def testParseTitle(self):
     result = parseHtml(u"<html><head><title>kissa</title></head><body></body></html>")
     self.assertEquals([(SEGMENT_TYPE_OTHER, u"kissa")], result)
开发者ID:komu,项目名称:corevoikko,代码行数:3,代码来源:voikkohtmlTest.py



注:本文中的voikkohtml.parseHtml函数示例由纯净天空整理自Github/MSDocs等源码及文档管理平台,相关代码片段筛选自各路编程大神贡献的开源项目,源码版权归原作者所有,传播和使用请参考对应项目的License;未经允许,请勿转载。


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
Python vol.VolMgr类代码示例发布时间:2022-05-26
下一篇:
Python vocabulary.Vocabulary类代码示例发布时间:2022-05-26
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap