Phanix
Phanix

Just writing

還是改用Regular expression好了

既然都有誤斬忠良的時候… 那 extract html text content 還是用 regular expression 好了,然後再特殊處理一下 <script> 和 <style>…

int i, j;
i = tb1.Text.ToLower().IndexOf("<script");
while (i >= 0)
{
    j = tb1.Text.ToLower().IndexOf("</script>", i);
    tb1.Text = tb1.Text.Substring(0, i) + tb1.Text.Substring(j + 9);
    i = tb1.Text.ToLower().IndexOf("<script");
}

i = tb1.Text.ToLower().IndexOf("<style");
while (i >= 0)
{
    j = tb1.Text.ToLower().IndexOf("</style>", i);
    tb1.Text = tb1.Text.Substring(0, i) + tb1.Text.Substring(j + 8);
    i = tb1.Text.ToLower().IndexOf("<style");
}
tb1.Text = Regex.Replace(tb1.Text, "<[^>]*>", " ");

CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论