| 订阅 | 在线投稿
分享
 
 
 

解决网爬工具爬取页面信息出现乱码的问题

来源:互联网网民  宽屏版  评论
2008-06-01 01:20:38

问题:

网爬工具中自动搜集页面信息时,有的页面出现了出现乱码现象

原因:

读取页面信息是使用了错误的编码类型。C#.NET从现在的类中获取得来的编码信息有时是错误的,本人认为对不是Asp.Net的应用程序,它读过来的编码信息都是错误的。

解决:

思路:必须先在运行时获取得该页面的编码,再去读取页面的内容,这样得来的页面内容才不会出现乱码现象。

方法:

1:使用ASCII编码去读取页面内容。

2:使用正则表达式从读取的页面内容中筛选出页面的编码信息。上个步骤获取的页面信息可能会有乱码。但Html标志是正确的,所有可以从HTML标志中得到编码的信息。

3.用正确的编码类型去读取页面信息。

假如哪位有更好的方法,请多赐教啊!

下面附上代码:

代码演示

using System;

using System.Collections.Generic;

using System.Text;

using System.Net;

using System.Web;

using System.IO;

using System.Text.RegularEXPressions;

namespace charset

{

class Program

{

static void Main(string[] args)

{

string url = "http://www.gdqy.edu.cn";

GetCharset1(url);

GetChartset2(url);

Console.Read();

}

// 通过HttpWebResponse直接获取页面编码

static void GetCharset1(string url)

{

try

{

WebRequest webRequest = WebRequest.Create(url);

HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();

string charset = webResponse.CharacterSet;

string contentEncoding = webResponse.ContentEncoding;

string contentType = webResponse.ContentType;

Console.WriteLine("context type:{0}", contentType);

Console.WriteLine("charset:{0}", charset);

Console.WriteLine("content encoding:{0}", contentEncoding);

//测试或取页面是否出现乱码

//Console.WriteLine(getHTML(url,charset));

}

catch (UriFormatException ex)

{

Console.WriteLine(ex.Message);

}

catch(WebException ex)

{

Console.WriteLine(ex.Message);

}

}

//使用正则表达式获取页面编码

static void GetChartset2(string url)

{

try

{

string html = getHTML(url,Encoding.ASCII.EncodingName);

Regex reg_charset = new Regex(@"charset\b\s*=\s*(?<charset>[^""]*)");

string enconding = null;

if (reg_charset.IsMatch(html))

{

enconding = reg_charset.Match(html).Groups["charset"].Value;

Console.WriteLine("charset:{0}",enconding);

}

else

{

enconding = Encoding.Default.EncodingName;

}

//测试或取页面是否出现乱码

//Console.WriteLine(getHTML(url,enconding));

}

catch (UriFormatException ex)

{

Console.WriteLine(ex.Message);

}

catch(WebException ex)

{

Console.WriteLine(ex.Message);

}

}

//读取页面内容方法

static string getHTML(string url,string encodingName)

{

try

{

WebRequest webRequest = WebRequest.Create(url);

WebResponse webResponse = webRequest.GetResponse();

Stream stream = webResponse.GetResponseStream();

StreamReader sr = new StreamReader(stream, Encoding.GetEncoding(encodingName));

string html = sr.ReadToEnd();

return html;

}

catch (UriFormatException ex)

{

Console.WriteLine(ex.Message);

return null;

}

catch (WebException ex)

{

Console.WriteLine(ex.Message);

return null;

}

}

}

}

http://www.gdqy.edu.cn页面的使用的编码格式是:gb2312

第一个方法显示的内容是:

context type:text/html

charset:ISO-8859-1

content encoding:

第二个方法显示的内容是:

charset:gb2312

所以第一个方法获取的信息是错误的,第二个方法是对的。

为什么第一个方法获取的的编码格式是:ISO-8859-1呢?

我用Reflector反射工具获取了CharacterSet属性的源代码,从中不难看出其原因。假如能获取出ContentType属性的源代码就不以看出其出错的原因了,但是搞了许久都没找出,假如那位那补上,那就太感谢了。

下面我附上Reflector反射工具获取了CharacterSet属性的源代码,有爱好的朋友看一看。

CharacterSet源码

public string CharacterSet

{

get

{

this.CheckDisposed();

string text1 = this.m_HttpResponseHeaders.ContentType;

if ((this.m_CharacterSet == null) && !ValidationHelper.IsBlankString(text1))

{

this.m_CharacterSet = string.Empty;

string text2 = text1.ToLower(CultureInfo.InvariantCulture);

if (text2.Trim().StartsWith("text/"))

{

this.m_CharacterSet = "ISO-8859-1";

}

int num1 = text2.IndexOf(";");

if (num1 > 0)

{

while ((num1 = text2.IndexOf("charset", num1)) >= 0)

{

num1 += 7;

if ((text2[num1 - 8] == ';') (text2[num1 - 8] == ' '))

{

while ((num1 < text2.Length) && (text2[num1] == ' '))

{

num1++;

}

if ((num1 < (text2.Length - 1)) && (text2[num1] == '='))

{

num1++;

int num2 = text2.IndexOf(';', num1);

if (num2 > num1)

{

this.m_CharacterSet = text1.Substring(num1, num2).Trim();

break;

}

this.m_CharacterSet = text1.Substring(num1).Trim();

break;

}

}

}

}

}

return this.m_CharacterSet;

}

http://www.cnblogs.com/xuanfeng/archive/2007/01/21/626296.html

 
特别声明:以上内容(如有图片或视频亦包括在内)为网络用户发布,本站仅提供信息存储服务。
 
问题: 网爬工具中自动搜集页面信息时,有的页面出现了出现乱码现象 原因: 读取页面信息是使用了错误的编码类型。C#.NET从现在的类中获取得来的编码信息有时是错误的,本人认为对不是Asp.Net的应用程序,它读过来的编码信息都是错误的。 解决: 思路:必须先在运行时获取得该页面的编码,再去读取页面的内容,这样得来的页面内容才不会出现乱码现象。 方法: 1:使用ASCII编码去读取页面内容。 2:使用正则表达式从读取的页面内容中筛选出页面的编码信息。上个步骤获取的页面信息可能会有乱码。但Html标志是正确的,所有可以从HTML标志中得到编码的信息。 3.用正确的编码类型去读取页面信息。 假如哪位有更好的方法,请多赐教啊! 下面附上代码: 代码演示 using System; using System.Collections.Generic; using System.Text; using System.Net; using System.Web; using System.IO; using System.Text.RegularEXPressions; namespace charset { class Program { static void Main(string[] args) { string url = "http://www.gdqy.edu.cn"; GetCharset1(url); GetChartset2(url); Console.Read(); } // 通过HttpWebResponse直接获取页面编码 static void GetCharset1(string url) { try { WebRequest webRequest = WebRequest.Create(url); HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse(); string charset = webResponse.CharacterSet; string contentEncoding = webResponse.ContentEncoding; string contentType = webResponse.ContentType; Console.WriteLine("context type:{0}", contentType); Console.WriteLine("charset:{0}", charset); Console.WriteLine("content encoding:{0}", contentEncoding); //测试或取页面是否出现乱码 //Console.WriteLine(getHTML(url,charset)); } catch (UriFormatException ex) { Console.WriteLine(ex.Message); } catch(WebException ex) { Console.WriteLine(ex.Message); } } //使用正则表达式获取页面编码 static void GetChartset2(string url) { try { string html = getHTML(url,Encoding.ASCII.EncodingName); Regex reg_charset = new Regex(@"charset\b\s*=\s*(?<charset>[^""]*)"); string enconding = null; if (reg_charset.IsMatch(html)) { enconding = reg_charset.Match(html).Groups["charset"].Value; Console.WriteLine("charset:{0}",enconding); } else { enconding = Encoding.Default.EncodingName; } //测试或取页面是否出现乱码 //Console.WriteLine(getHTML(url,enconding)); } catch (UriFormatException ex) { Console.WriteLine(ex.Message); } catch(WebException ex) { Console.WriteLine(ex.Message); } } //读取页面内容方法 static string getHTML(string url,string encodingName) { try { WebRequest webRequest = WebRequest.Create(url); WebResponse webResponse = webRequest.GetResponse(); Stream stream = webResponse.GetResponseStream(); StreamReader sr = new StreamReader(stream, Encoding.GetEncoding(encodingName)); string html = sr.ReadToEnd(); return html; } catch (UriFormatException ex) { Console.WriteLine(ex.Message); return null; } catch (WebException ex) { Console.WriteLine(ex.Message); return null; } } } } http://www.gdqy.edu.cn页面的使用的编码格式是:gb2312 第一个方法显示的内容是: context type:text/html charset:ISO-8859-1 content encoding: 第二个方法显示的内容是: charset:gb2312 所以第一个方法获取的信息是错误的,第二个方法是对的。 为什么第一个方法获取的的编码格式是:ISO-8859-1呢? 我用Reflector反射工具获取了CharacterSet属性的源代码,从中不难看出其原因。假如能获取出ContentType属性的源代码就不以看出其出错的原因了,但是搞了许久都没找出,假如那位那补上,那就太感谢了。 下面我附上Reflector反射工具获取了CharacterSet属性的源代码,有爱好的朋友看一看。 CharacterSet源码 public string CharacterSet { get { this.CheckDisposed(); string text1 = this.m_HttpResponseHeaders.ContentType; if ((this.m_CharacterSet == null) && !ValidationHelper.IsBlankString(text1)) { this.m_CharacterSet = string.Empty; string text2 = text1.ToLower(CultureInfo.InvariantCulture); if (text2.Trim().StartsWith("text/")) { this.m_CharacterSet = "ISO-8859-1"; } int num1 = text2.IndexOf(";"); if (num1 > 0) { while ((num1 = text2.IndexOf("charset", num1)) >= 0) { num1 += 7; if ((text2[num1 - 8] == ';') (text2[num1 - 8] == ' ')) { while ((num1 < text2.Length) && (text2[num1] == ' ')) { num1++; } if ((num1 < (text2.Length - 1)) && (text2[num1] == '=')) { num1++; int num2 = text2.IndexOf(';', num1); if (num2 > num1) { this.m_CharacterSet = text1.Substring(num1, num2).Trim(); break; } this.m_CharacterSet = text1.Substring(num1).Trim(); break; } } } } } return this.m_CharacterSet; } http://www.cnblogs.com/xuanfeng/archive/2007/01/21/626296.html
󰈣󰈤
 
 
 
>>返回首页<<
 
 热帖排行
 
 
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
©2005- 王朝网络 版权所有