王朝网络
分享
 
 
 

让我的C++程序直接阅读网页(1) 规范化HTML文档

王朝html/css/js·作者佚名  2006-02-01
宽屏版  字体: |||超大  

1. 规范化HTML文档函数canonHTML

功能:

对HTML文档进行简单规范化(canonicalization)

原型:

void

canonHTML( string & htmltext )

参数:

htmltext [in, out]

输入原始文档,输出正规化(normalized)文档。

说明:

参照W3C XML标准对文档良好格式和正规化(normalization)的定义,对HTML文档作如下的处理,为进一步的内容解析提供方便

* 文档起始字符为左尖括号“<”

* tag对象名称为小写

* tag对象属性(attribute)格式 name=”value” , 属性之间用一个空格符(#0x20)分隔

* 保留注释的内容 <!— 注释内容 -->

* 替换换行符号(#0x0A)

* 去除或替换空白为空格符(#0x20)

函数处理流程采用有限状态机形式,进行一次全文扫描

HTML元素的各个部分

* CONTENT, 形式 <tag>CONTENT</tag>

* TAG_BEGIN, 左尖括号 <

* TAG_END, 右尖括号 >

* START_TAG, 形式 <tag>

* END_TAG, 形式 </tag>

代码:

void

canonHTML( string & htmltext )

{

enum Enum_ElemPart

{

CONTENT,

TAG_BEGIN,

TAG_END,

START_TAG,

END_TAG,

ATTRIBUTE_NAME,

ATTRIBUTE_VALUE,

};

if ( htmltext.empty() )

return;

//string whitespaces( "\t\n\v\f\r " );

UInt32 src_sz = htmltext.size();

char *p_obj = new char[2 * src_sz + 1];

::memset( p_obj, 0, 2 * src_sz + 1 );

char *p_o = p_obj;

char *p_src = const_cast<char *>(htmltext.c_str());

for ( UInt32 pos = 0; pos < src_sz; ++pos )

{

if ( p_src[pos] == '<' )

break;

}

if ( pos == src_sz )

{

htmltext.resize( 0 );

delete [] p_obj;

return;

}

*(p_o++) = p_src[pos++];

Enum_ElemPart elem_part = TAG_BEGIN;

bool b_quote = false;

UInt32 pos_1 = 0;

while ( pos < src_sz )

{

switch ( p_src[pos] )

{

case '<' :

switch ( elem_part )

{

case TAG_BEGIN :

++pos;

break;

case ATTRIBUTE_VALUE :

while ( *(p_o - 1) == 0x20 )

{

*(--p_o) = '\0';

}

*(p_o++) = '"';

case START_TAG :

if ( *(p_o - 1) == 0x20 )

*(--p_o) = '\0';

if ( *(p_o - 1) == '=' )

{

*(p_o++) = '"';

*(p_o++) = '"';

}

case TAG_END :

case END_TAG :

case ATTRIBUTE_NAME :

*(p_o++) = '>';

case CONTENT :

*(p_o++) = p_src[pos++];

elem_part = TAG_BEGIN;

break;

}

break;

case '>' :

switch ( elem_part )

{

case TAG_BEGIN :

*(--p_o) = '\0';

elem_part = CONTENT;

break;

case ATTRIBUTE_VALUE :

while ( *(p_o - 1) == 0x20 )

{

*(--p_o) = '\0';

}

*(p_o++) = '"';

case START_TAG :

if ( *(p_o - 1) == 0x20 )

*(--p_o) = '\0';

if ( *(p_o - 1) == '=' )

{

*(p_o++) = '"';

*(p_o++) = '"';

}

case TAG_END :

case END_TAG :

case ATTRIBUTE_NAME :

elem_part = CONTENT;

case CONTENT :

*(p_o++) = p_src[pos++];

break;

}

break;

case '/' :

switch ( elem_part )

{

case TAG_BEGIN :

*(p_o++) = p_src[pos++];

elem_part = END_TAG;

break;

case START_TAG :

case ATTRIBUTE_NAME :

*(p_o++) = p_src[pos++];

elem_part = TAG_END;

break;

case ATTRIBUTE_VALUE :

case CONTENT :

*(p_o++) = p_src[pos++];

break;

default :

++pos;

break;

}

break;

case '=' :

switch ( elem_part )

{

case ATTRIBUTE_NAME :

elem_part = START_TAG;

case START_TAG :

if ( *(p_o - 1) == 0x20 )

--p_o;

*(p_o++) = p_src[pos++];

break;

case ATTRIBUTE_VALUE :

case CONTENT :

*(p_o++) = p_src[pos++];

break;

default :

++pos;

break;

}

break;

case '"' :

switch ( elem_part )

{

case START_TAG :

if ( *(p_o - 1) == '=' )

{

*(p_o++) = p_src[pos];

elem_part = ATTRIBUTE_VALUE;

b_quote = true;

}

++pos;

break;

case ATTRIBUTE_VALUE :

elem_part = START_TAG;

case CONTENT :

*(p_o++) = p_src[pos++];

break;

default :

++pos;

break;

}

break;

case '!' :

*(p_o++) = p_src[pos++];

if ( elem_part != TAG_BEGIN )

break;

for ( pos_1 = pos; pos_1 < src_sz; ++pos_1 )

{

if ( !isspace( p_src[pos_1] ) )

break;

}

pos = pos_1;

if ( pos < src_sz )

{

if ( p_src[pos] == '-'

&& p_src[pos + 1] == '-' )

{

*(p_o++) = p_src[pos++];

*(p_o++) = p_src[pos++];

for ( pos_1 = pos; pos_1 < src_sz; ++pos_1 )

{

*(p_o++) = p_src[pos_1];

if ( p_src[pos_1] == '-'

&& p_src[pos_1 + 1] == '-' )

{

*(p_o++) = p_src[++pos_1];

++pos_1;

elem_part = START_TAG;

break;

}

}

pos = pos_1;

if ( pos >= src_sz )

{

*(p_o++) = '>';

elem_part = CONTENT;

}

}

}

else

{

*(p_o++) = '>';

elem_part = CONTENT;

}

break;

case '\r' :

case '\n' :

if ( elem_part == CONTENT )

{

*(p_o++) = '\n';

++pos;

break;

}

case '\t' :

case '\v' :

case '\f' :

case 0x20 :

switch ( elem_part )

{

case START_TAG :

if ( *(p_o - 1) != 0x20

&& *(p_o - 1) != '=' )

*(p_o++) = 0x20;

++pos;

break;

case ATTRIBUTE_VALUE :

if ( !b_quote )

{

*(p_o++) = '"';

elem_part = START_TAG;

}

*(p_o++) = 0x20;

++pos;

break;

case ATTRIBUTE_NAME :

elem_part = START_TAG;

case CONTENT :

*(p_o++) = 0x20;

default :

++pos;

break;

}

break;

default:

switch ( elem_part )

{

case TAG_BEGIN :

*(p_o++) = lower_if_upper( p_src[pos++] );

elem_part = START_TAG;

break;

case START_TAG :

if ( *(p_o - 1) == 0x20 )

{

*(p_o++) = lower_if_upper( p_src[pos++] );

elem_part = ATTRIBUTE_NAME;

}

else

{

if ( *(p_o - 1) == '=' )

{

*(p_o++) = '"';

*(p_o++) = p_src[pos++];

elem_part = ATTRIBUTE_VALUE;

b_quote = false;

}

else

*(p_o++) = lower_if_upper( p_src[pos++] );

}

break;

case END_TAG :

case ATTRIBUTE_NAME :

*(p_o++) = lower_if_upper( p_src[pos++] );

break;

case ATTRIBUTE_VALUE :

case CONTENT :

*(p_o++) = p_src[pos++];

break;

default :

++pos;

break;

}

break;

}

}

*p_o = '\0';

htmltext.assign( p_obj );

delete [] p_obj;

}

相关引用函数:

char

lower_if_upper( const char ch )

{

if ( ch >= 'A' && ch <= 'Z' )

return ( ch + 0x20 ); // ch - 'A' + 'a' ;

else

return ch;

}

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
>>返回首页<<
推荐阅读
 
 
频道精选
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有