Dummy

import unittest from w3lib.html import ( get_base_url, get_meta_refresh, remove_comments, remove_tags, remove_tags_with_content, replace_entities, replace_escape_chars, replace_tags, unquote_markup, ) class RemoveEntitiesTest(unittest.TestCase): def test_returns_unicode(self): # make sure it always return uncode assert isinstance(replace_entities(b"no entities"), str) assert isinstance(replace_entities(b"Price: £100!"), str) assert isinstance(replace_entities("no entities"), str) assert isinstance(replace_entities("Price: £100!"), str) def test_regular(self): # regular conversions self.assertEqual(replace_entities("As low as £100!"), "As low as \xa3100!") self.assertEqual( replace_entities(b"As low as £100!"), "As low as \xa3100!" ) self.assertEqual( replace_entities( "redirectTo=search&searchtext=MR0221Y&aff=buyat&affsrc=d_data&cm_mmc=buyat-_-ELECTRICAL & SEASONAL-_-MR0221Y-_-9-carat gold ½oz solid crucifix pendant" ), "redirectTo=search&searchtext=MR0221Y&aff=buyat&affsrc=d_data&cm_mmc=buyat-_-ELECTRICAL & SEASONAL-_-MR0221Y-_-9-carat gold \xbdoz solid crucifix pendant", ) def test_keep_entities(self): # keep some entities self.assertEqual( replace_entities( b"Low < High & Medium £ six", keep=["lt", "amp"] ), "Low < High & Medium \xa3 six", ) self.assertEqual( replace_entities( "Low < High & Medium £ six", keep=["lt", "amp"] ), "Low < High & Medium \xa3 six", ) def test_illegal_entities(self): self.assertEqual( replace_entities( "a < b &illegal; c � six", remove_illegal=False ), "a < b &illegal; c � six", ) self.assertEqual( replace_entities( "a < b &illegal; c � six", remove_illegal=True ), "a < b c six", ) self.assertEqual(replace_entities("x≤y"), "x\u2264y") self.assertEqual(replace_entities("xy"), "xy") self.assertEqual(replace_entities("xy", remove_illegal=False), "xy") self.assertEqual(replace_entities("�"), "") self.assertEqual( replace_entities("�", remove_illegal=False), "�" ) def test_browser_hack(self): # check browser hack for numeric character references in the 80-9F range self.assertEqual(replace_entities("x™y", encoding="cp1252"), "x\u2122y") self.assertEqual(replace_entities("x™y", encoding="cp1252"), "x\u2122y") def test_missing_semicolon(self): for entity, result in ( ("<<!", "<some tag"), "This text contains some tag", ) self.assertEqual( replace_tags(b"This text is very important", " "), "This text is very im port ant", ) def test_replace_tags_multiline(self): self.assertEqual( replace_tags(b'Click here'), "Click here" ) class RemoveCommentsTest(unittest.TestCase): def test_returns_unicode(self): # make sure it always return unicode assert isinstance(remove_comments(b"without comments"), str) assert isinstance(remove_comments(b""), str) assert isinstance(remove_comments("without comments"), str) assert isinstance(remove_comments(""), str) def test_no_comments(self): # text without comments self.assertEqual( remove_comments("text without comments"), "text without comments" ) def test_remove_comments(self): # text with comments self.assertEqual(remove_comments(""), "") self.assertEqual(remove_comments("Hello"), "Hello") self.assertEqual(remove_comments("Hello"), "Hello") self.assertEqual( remove_comments(b"test whatever"), "test whatever" ) self.assertEqual( remove_comments(b"test whatever"), "test whatever" ) self.assertEqual(remove_comments(b"test """), "" ) self.assertEqual( get_base_url(""" """ ), "http://example_2.com/", ) self.assertEqual( get_base_url( """ """ ), "http://example_3.com/", ) def test_relative_url_with_absolute_path(self): baseurl = "https://example.org" text = """\ \ Dummy\ blahablsdfsal&\ """ self.assertEqual( get_base_url(text, baseurl), "https://example.org/absolutepath" ) def test_no_scheme_url(self): baseurl = "https://example.org" text = b"""\ \ Dummy\ blahablsdfsal&\ """ self.assertEqual(get_base_url(text, baseurl), "https://noscheme.com/path") def test_attributes_before_href(self): baseurl = "https://example.org" text = """\ \ Dummy\ blahablsdfsal&\ """ self.assertEqual(get_base_url(text, baseurl), "http://example.org/something") def test_tag_name(self): baseurl = "https://example.org" text = """\ \ Dummy\ blahablsdfsal&\ """ self.assertEqual(get_base_url(text, baseurl), "https://example.org") def test_get_base_url_utf8(self): baseurl = "https://example.org" text = """ Dummy blahablsdfsal& """ self.assertEqual( get_base_url(text, baseurl), "http://example.org/snowman%E2%8D%A8" ) def test_get_base_url_latin1(self): # page encoding does not affect URL path encoding before percent-escaping # we should still use UTF-8 by default baseurl = "https://example.org" text = """ Dummy blahablsdfsal& """ self.assertEqual( get_base_url(text, baseurl, encoding="latin-1"), "http://example.org/sterling%C2%A3", ) def test_get_base_url_latin1_percent(self): # non-UTF-8 percent-encoded characters sequence are left untouched baseurl = "https://example.org" text = """ Dummy blahablsdfsal& """ self.assertEqual(get_base_url(text, baseurl), "http://example.org/sterling%a3") class GetMetaRefreshTest(unittest.TestCase): def test_get_meta_refresh(self): baseurl = "http://example.org" body = """ Dummy blahablsdfsal& """ self.assertEqual( get_meta_refresh(body, baseurl), (5, "http://example.org/newpage") ) def test_without_url(self): # refresh without url should return (None, None) baseurl = "http://example.org" body = """""" self.assertEqual(get_meta_refresh(body, baseurl), (None, None)) body = """""" self.assertEqual( get_meta_refresh(body, baseurl), (5, "http://example.org/newpage") ) def test_multiline(self): # meta refresh in multiple lines baseurl = "http://example.org" body = """ """ self.assertEqual( get_meta_refresh(body, baseurl), (1, "http://example.org/newpage") ) def test_entities_in_redirect_url(self): # entities in the redirect url baseurl = "http://example.org" body = """""" self.assertEqual( get_meta_refresh(body, baseurl), (3, "http://www.example.com/other") ) def test_relative_redirects(self): # relative redirects baseurl = "http://example.com/page/this.html" body = """""" self.assertEqual( get_meta_refresh(body, baseurl), (3, "http://example.com/page/other.html") ) def test_nonascii_url_utf8(self): # non-ascii chars in the url (utf8 - default) baseurl = "http://example.com" body = b"""""" self.assertEqual( get_meta_refresh(body, baseurl), (3, "http://example.com/to%C2%A3") ) def test_nonascii_url_latin1(self): # non-ascii chars in the url path (latin1) # should end up UTF-8 encoded anyway baseurl = "http://example.com" body = b"""""" self.assertEqual( get_meta_refresh(body, baseurl, "latin1"), (3, "http://example.com/to%C2%A3"), ) def test_nonascii_url_latin1_query(self): # non-ascii chars in the url path and query (latin1) # only query part should be kept latin1 encoded before percent escaping baseurl = "http://example.com" body = b"""""" self.assertEqual( get_meta_refresh(body, baseurl, "latin1"), (3, "http://example.com/to%C2%A3?unit=%B5"), ) def test_commented_meta_refresh(self): # html commented meta refresh header must not directed baseurl = "http://example.com" body = """""" self.assertEqual(get_meta_refresh(body, baseurl), (None, None)) def test_html_comments_with_uncommented_meta_refresh(self): # html comments must not interfere with uncommented meta refresh header baseurl = "http://example.com" body = """-->""" self.assertEqual(get_meta_refresh(body, baseurl), (3, "http://example.com/")) def test_float_refresh_intervals(self): # float refresh intervals baseurl = "http://example.com" body = """""" self.assertEqual( get_meta_refresh(body, baseurl), (0.1, "http://example.com/index.html") ) body = """""" self.assertEqual( get_meta_refresh(body, baseurl), (3.1, "http://example.com/index.html") ) def test_tag_name(self): baseurl = "http://example.org" body = """ Dummy blahablsdfsal& """ self.assertEqual(get_meta_refresh(body, baseurl), (None, None)) def test_leading_newline_in_url(self): baseurl = "http://example.org" body = """ Dummy """ self.assertEqual( get_meta_refresh(body, baseurl), (0.0, "http://www.example.org/index.php") ) def test_inside_noscript(self): baseurl = "http://example.org" body = """ """ self.assertEqual(get_meta_refresh(body, baseurl), (None, None)) self.assertEqual( get_meta_refresh(body, baseurl, ignore_tags=()), (0.0, "http://example.org/javascript_required"), ) def test_inside_script(self): baseurl = "http://example.org" body = """ """ self.assertEqual(get_meta_refresh(body, baseurl), (None, None)) self.assertEqual( get_meta_refresh(body, baseurl, ignore_tags=()), (0.0, "http://example.org/foobar_required"), ) def test_redirections_in_different_ordering__in_meta_tag(self): baseurl = "http://localhost:8000" url1 = '' url2 = '' self.assertEqual( get_meta_refresh(url1, baseurl), (0.0, "http://localhost:8000/dummy.html") ) self.assertEqual( get_meta_refresh(url2, baseurl), (0.0, "http://localhost:8000/dummy.html") )