"; for(int i=0;i<4000;i++){initial+="

";} TagNode cleaned = cleaner.clean(initial); domSerializer.createDOM(cleaned); } // See bug #203 @Test public void parse2() throws Exception { String html = "

content

"; String expected = "

content

"; final CleanerProperties cleanerProperties = new CleanerProperties(); final TagNode tagNode = new HtmlCleaner().clean(html); cleanerProperties.setOmitHtmlEnvelope(true); cleanerProperties.setOmitXmlDeclaration(true); String out = new SimpleXmlSerializer(cleanerProperties).getAsString(html); assertEquals(expected, out); } // See bug #212 @Test public void parse() throws Exception { String html = "

"; String expected = "

"; final CleanerProperties cleanerProperties = new CleanerProperties(); final TagNode tagNode = new HtmlCleaner().clean(html); final Document doc = new TraversalDomSerializer(cleanerProperties, true).createDOM(tagNode); assertEquals("http://xwiki.org?a=&b", doc.getElementsByTagName("img").item(0).getAttributes().getNamedItem("src").getTextContent()); cleanerProperties.setOmitHtmlEnvelope(true); cleanerProperties.setOmitXmlDeclaration(true); String out = new SimpleXmlSerializer(cleanerProperties).getAsString(html); assertEquals(expected, out); } @Test public void removeInvalidTags() throws Exception{ String html="

<^-^>

<1o/>

"; final TagNode tagNode = new HtmlCleaner().clean(html); final CleanerProperties cleanerProperties = new CleanerProperties(); final Document doc = new TraversalDomSerializer(cleanerProperties, false).createDOM(tagNode); assertEquals("<1o/>", doc.getElementsByTagName("p").item(0).getChildNodes().item(0).getTextContent()); } @Test public void detectUnicodeSpaces() throws Exception{ String html=""; String expectedOutput= "test"; final TagNode tagNode = new HtmlCleaner().clean(html); final CleanerProperties cleanerProperties = new CleanerProperties(); final Document doc = new TraversalDomSerializer(cleanerProperties, false).createDOM(tagNode); assertEquals(expectedOutput, doc.getElementsByTagName("meta").item(0).getAttributes().getNamedItem("property").getTextContent()); } @Test public void preserveUnicodeTest() throws Exception { final String nonAsciiWord = "hemförsäkring"; final String html = "" + "" + "

" + nonAsciiWord + "

" + "" + ""; final String expectedOutput = "\n" + "\n" + " \n" + " \n" + "

" + nonAsciiWord + "

\n" + " \n" + "\n" + ""; final TagNode tagNode = new HtmlCleaner().clean(html); final CleanerProperties cleanerProperties = new CleanerProperties(); final Document doc = new TraversalDomSerializer(cleanerProperties, false).createDOM(tagNode); assertEquals(expectedOutput, documentToString(doc)); } // See Bug #215 @Ignore @Test public void invalidXMLElementName() throws ParserConfigurationException{ final String HTML = "

"; final CleanerProperties cleanerProperties = new CleanerProperties(); // // When we set allow to true, then we parse the attribute value as text // cleanerProperties.setAllowHtmlInsideAttributes(true); TagNode tagNode = new HtmlCleaner(cleanerProperties).clean(HTML); assertEquals(tagNode.getChildTags()[1].getChildTags()[0].getAttributeByName("srcset"),"

", output); // // But for XML DOM, we must follow the rules for building valid names, which means // getting rid of the % sign // final Document doc = new TraversalDomSerializer(cleanerProperties, false).createDOM(tagNode); assertEquals(1, doc.getDocumentElement().getElementsByTagName("p20").getLength()); } @Test public void errorChecking() throws ParserConfigurationException{ TagNode node = cleaner.clean("

"); TraversalDomSerializer ser = new TraversalDomSerializer(cleaner.getProperties(), true, true, false); Document document = ser.createDOM(node); assertFalse(document.getStrictErrorChecking()); } /** * See issue 108 * @throws IOException */ @Test @Ignore public void html5doctype() throws Exception{ cleaner.getProperties().setUseCdataForScriptAndStyle(true); cleaner.getProperties().setOmitCdataOutsideScriptAndStyle(true); String initial = readFile("src/test/resources/test23.html"); TagNode tagNode = cleaner.clean(initial); TraversalDomSerializer ser = new TraversalDomSerializer(cleaner.getProperties()); Document dom = ser.createDOM(tagNode); assertNotNull(dom.getChildNodes().item(0).getChildNodes().item(0)); assertEquals("head", dom.getChildNodes().item(0).getChildNodes().item(0).getNodeName()); } /** * See issue 127 * @throws IOException */ @Ignore @Test public void rootNodeAttributes() throws Exception{ cleaner.getProperties().setUseCdataForScriptAndStyle(true); cleaner.getProperties().setOmitCdataOutsideScriptAndStyle(true); String initial = readFile("src/test/resources/test29.html"); TagNode tagNode = cleaner.clean(initial); TraversalDomSerializer ser = new TraversalDomSerializer(cleaner.getProperties()); Document dom = ser.createDOM(tagNode); assertNotNull(dom.getChildNodes().item(0).getChildNodes().item(0)); assertEquals("http://unknown.namespace.com", dom.getChildNodes().item(0).getAttributes().getNamedItem("xmlns").getNodeValue()); assertEquals("27", dom.getChildNodes().item(0).getAttributes().getNamedItem("id").getNodeValue()); // // Check we have a real ID attribute in the DOM and not just a regular attribute // assertEquals("http://unknown.namespace.com", dom.getElementById("27").getAttribute("xmlns")); } @Ignore // TODO fix @Test public void cdata() throws Exception{ cleaner.getProperties().setUseCdataForScriptAndStyle(true); cleaner.getProperties().setOmitCdataOutsideScriptAndStyle(true); String initial = ""; TagNode tagNode = cleaner.clean(initial); TraversalDomSerializer ser = new TraversalDomSerializer(cleaner.getProperties(), cleaner.getProperties().isAdvancedXmlEscape(), true); Document dom = ser.createDOM(tagNode); DOMBuilder in = new DOMBuilder(); org.jdom2.Document jdomDoc = in.build(dom); XMLOutputter outputter = new XMLOutputter(Format.getRawFormat().setEncoding("UTF-8").setLineSeparator("\n")); String actual = outputter.outputString(jdomDoc); Assert.assertTrue(actual.contains("this > that")); } @Ignore // TODO fix @Test public void cdata2() throws Exception{ cleaner.getProperties().setUseCdataForScriptAndStyle(true); cleaner.getProperties().setOmitCdataOutsideScriptAndStyle(true); String initial = ""; TagNode tagNode = cleaner.clean(initial); TraversalDomSerializer ser = new TraversalDomSerializer(cleaner.getProperties(), cleaner.getProperties().isAdvancedXmlEscape(), false); Document dom = ser.createDOM(tagNode); DOMBuilder in = new DOMBuilder(); org.jdom2.Document jdomDoc = in.build(dom); XMLOutputter outputter = new XMLOutputter(Format.getRawFormat().setEncoding("UTF-8").setLineSeparator("\n")); String actual = outputter.outputString(jdomDoc); Assert.assertTrue(actual.contains("this > that")); } @Test public void escaping() throws Exception { cleaner.getProperties().setTranslateSpecialEntities(true); cleaner.getProperties().setAdvancedXmlEscape(true); TagNode tagNode = cleaner.clean("

£, £ and £

"); TraversalDomSerializer ser = new TraversalDomSerializer(cleaner.getProperties(), false); Document dom = ser.createDOM(tagNode); String actual = dom.getElementsByTagName("div").item(0).getTextContent(); Assert.assertEquals(("£, £ and £"),actual); } @Test public void escaping_3() throws Exception { cleaner.getProperties().setTranslateSpecialEntities(false); TagNode tagNode = cleaner.clean("

£, £ and £

"); TraversalDomSerializer ser = new TraversalDomSerializer(cleaner.getProperties(), true); Document dom = ser.createDOM(tagNode); String actual = dom.getElementsByTagName("div").item(0).getTextContent(); Assert.assertEquals(("£, £ and £"),actual); } @Test public void escapingReservedCharactersTest() throws Exception { cleaner.getProperties().setRecognizeUnicodeChars(false); TagNode tagNode = cleaner.clean("

\" < > &

"); TraversalDomSerializer ser = new TraversalDomSerializer(cleaner.getProperties(), true); Document dom = ser.createDOM(tagNode); String actual = dom.getElementsByTagName("div").item(0).getTextContent(); Assert.assertEquals(("" < > &"),actual); } // // We shouldn't escape any characters in a comment // @Test public void escapingCommentsTest() throws Exception { cleaner.getProperties().setRecognizeUnicodeChars(false); TagNode tagNode = cleaner.clean("

"); TraversalDomSerializer ser = new TraversalDomSerializer(cleaner.getProperties(), true); Document dom = ser.createDOM(tagNode); String actual = dom.getElementsByTagName("div").item(0).getChildNodes().item(0).getTextContent(); Assert.assertEquals(("\" \' < > &"),actual); } @Test public void ncr() throws Exception { cleaner.getProperties().setOmitComments(true); cleaner.getProperties().setNamespacesAware(false); cleaner.getProperties().setUseCdataForScriptAndStyle(true); cleaner.getProperties().setTranslateSpecialEntities(true); TagNode tagNode = cleaner.clean("

’ ж ý ÷ ÷

"); TraversalDomSerializer ser = new TraversalDomSerializer(cleaner.getProperties(), cleaner.getProperties().isAdvancedXmlEscape(), false); Document dom = ser.createDOM(tagNode); DOMBuilder in = new DOMBuilder(); org.jdom2.Document jdomDoc = in.build(dom); XMLOutputter outputter = new XMLOutputter(Format.getRawFormat().setEncoding("UTF-8").setLineSeparator("\n")); String actual = outputter.outputString(jdomDoc); Assert.assertTrue(actual.contains("’ ж ý ÷ ÷")); } }