Tag: quoted printable

解码Windows-1252和引用可打印的HTML的组合

我得到了一段代表HTML的文本,例如: <html>\r\n<head>\r\n<meta http-equiv=3D\"Content-Type\" content=3D\"text/html; charset=3DWindows-1=\r\n252\">\r\n<style type=3D\"text/css\" style=3D\"display:none;\"><!– P {margin-top:0;margi=\r\nn-bottom:0;} –></style>\r\n</head>\r\n<body dir=3D\"ltr\">This should be a pound sign: =A3 and this should be a long dash: =96 \r\n</body>\r\n</html>\r\n 从HTML <meta>标签,我可以看到,这段HTML应该被编码为Windows-1252。 我正在使用node.jsparsing与cheerio这段文字。 但解码与https://github.com/mathiasbynens/windows-1252不帮助: windows1252.decode(myString); 正在返回相同的inputstring。 我认为的原因是因为inputstring已经在标准的node.js charset中编码了,但是它实际上代表了一个windows-1252编码的HTML片段(如果这是有道理的话)。 检查那些奇怪的hex数前面加上=我可以看到有效的windows-1252代码,例如: 这个=\r\n和这个\r\n应该以某种方式代表在Windows世界的回车, =3D :HEX 3D是DEC 61 ,它是等号: = , =96 :HEX 96是DEC 150 ,它是一个'破折号': – (某种“长减号”), =A3 :HEX A3是DEC 163这是一个英镑符号: £ […]