总结
豆包 AI 助手文章总结

同时提取多条新闻中的文本一例

php中文网
发布: 2016-06-01 14:30:29
原创
1022人浏览过
本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
  这里以人民网中的“今日要闻”下的新闻为例.
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";    // 今日要闻
if(isset($url)&&$url!="")    {
  $str = implode("",file($url));
  $str_ary = explode("
    ",$str);
      $str_ary = explode("
  • ",trim($str_ary[1]));
      for ($i=0; $i    if (strlen(trim($str_ary[$i]))    continue;
       }
       echo "新闻".$i.":".$str_ary[$i];
       $str1=strstr("$str_ary[$i]",'    $len1=strlen("$str1");
       $len2=strlen("$str2");
       $len=$len1-$len2;
       $url=substr("$str1",10,$len-10);
       if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")    {
          $str = implode("",file($url));
          $str1=explode('
    ',$str);      //去掉文件没用的上半部分
          $str2 = explode('

     

    ',$str1[1]);
          //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
          $str3=explode('',$str2[0]);  //从整个有用部分取出文件标题和正文
          $str4=explode('
    ',$str2[0]);  //取出日期和时间
          $str5=explode('',$str3[1]);   //从标题和正文部分取出标题
          $title=str_replace("
    ","",$str5[0]);
          $str3=explode('

    ',$str2[0]);     //从整个有用部分取出文件正文
          $str3[1]=str_replace('

      ',"\n"."  ",$str3[1]);
          $str3[1]=str_replace(' ',"",$str3[1]);
          $str3=strip_tags($str3[1]);
          $pf=trim($title).".txt";
          $ppf=fopen(CONTENTS_DIR."$pf",'w');
          fputs($ppf,$title);
          fputs($ppf,"$str4[0]");
          fputs($ppf,$str3);
        }
       }
     }
    }
    ?> 

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
豆包 AI 助手文章总结
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号