您的位置:數字人首頁 » 正文
數字信息港文章采集系統使用說明
發布時間:2005-9-2 9:47:25     來源:www.rkfwrc.live

注意:如果采集內容涉及到版權問題一切責任由系統使用者承擔,與數字信息網系統無關!

一、使用指南-----項目管理 
1、添加項目: 

(1)基本設置

采集項目名稱  如:膠南信息網信息咨訊頻道采集 
采集網站名稱  采集時會以此為文章來源 
目標節點欄目  要入庫的自己網站的節點
采集對象頁   從一個網頁  指定范圍內 

從一個網頁  

如:http://www.xxx.com/news/index.htm

指定范圍內

如:http://www.xxx.com/news/index_1.htm
    http://www.xxx.com/news/index_2.htm
    http://www.xxx.com/news/index_3.htm
    http://www.xxx.com/news/index_4.htm
  
上面的列表可以這樣填寫:

指定范圍內:http://www.xxx.com/news/index_{分頁}.htm

從 1到 4的頁面范圍 可用數值標簽“{分頁}” 
    


(2)列表設置 


        列表: 


       書一般都有目錄吧?列表就像一本書的目錄,目錄可以有一頁,也可以有很多頁,列表也一樣。 


        列表索引頁面:你要開始采集的列表頁。 


        列表開始/結束標記: 


               平面上的兩點確定一條直線,學過幾何吧?用在這里是一樣的道理,開始/結束標記可以確定你要采集的新聞,有的這里沒有設置好結果采集到其它新聞去了。
               比如這是某一列表頁面的主要部分代碼:

                <table width="98%" border="0" cellspacing="0" cellpadding="3">
                  <tr> 
                       
<td align="left" valign="top"><br>
                           <a href="News.asp?id=1" target=_blank>新聞標題</a><br> 
                           <a href="News.asp?id=2" target=_blank>新聞標題</a><br>
                           ....省略
                           <a href="News.asp?id=50" target=_blank>新聞標題</a>
                       </td>
                 </tr>
              </table>
    
          
          上面部分就是我們要的列表,是不是把你想要的新聞夾在中間了?按照這樣的取法可以選擇好多對開始標記和結束標記,也就是說它們并不是唯一的。但是它們又是相對唯一的,這里的唯一是指,開始標記在第一條新聞以上的代碼中唯一,結束標記在開始標記到結束標記之間的是唯一的。 




(3)鏈接設置 


   鏈接開始/結束標記: 


   這里沒設置好采集過程中可能會路途停止 


   部分代碼 


                <table width="98%" border="0" cellspacing="0" cellpadding="3">
                  <tr> 
                       <td align="left" valign="top"><br>
                           <a href="List.asp?type=IT新聞">[IT新聞]</a><a href="New.asp?id=1" target=_blank>新聞標題</a> 
                           <a href="List.asp?type=Pc新聞">[Pc新聞]</a><a href="New.asp?id=2" target=_blank>新聞標題</a>
                           ....省略
                           <a href="List.asp?type=IT新聞">[IT新聞]</a><a href="New.asp?id=50" target=_blank>新聞標題</a>
                       </td>
                 </tr>
              </table>

   紅色部分為鏈接開始/結束標記,注意:如果新聞標題的前面有欄目鏈接(包括其它的鏈接,就像上面這個有IT新聞、Pc新聞一樣)的,開始標記必須往前延伸,我以前做的3.62版的錄像中開始標記是href=,這個只能用于新聞標題前面沒有欄目鏈接的情況。 


   鏈接的重新定位: 


   如果新聞的鏈接特殊,可使用本功能對新聞網址重新定位,比如有些代碼可能是這樣: 


          <a href="javascript:window.open(1’)" target=_blank>新聞標題</a><br> 
          <a href="javascript:window.open(’5’)" target=_blank>新聞標題</a><br>
          ....省略
          <a href="javascript:window.open(’50’)" target=_blank>新聞標題</a> 


   把開始/結束標記設置為紅色部分,點擊一條新聞看它的真實網頁地址,比如第一條新聞的地址是這樣,http://www.xx.net/news.asp?id=1,那么絕對鏈接就設置為http://www.xx.net/news.asp?id={分頁}就成了。 


(4)正文設置 


   標題、正文、作者、來源、關鍵字及正文分頁設置同上,不想重復,這里就不說了。 


(5)采樣測試 


   正確采樣后完成添加操作。    


   
 
二、使用指南-----過濾設置 
   過濾有簡單替換和高級過濾(相對簡單替換) 

(1)簡單替換

   把一段字符替換為另一段字符,比如

   想把所有的 (圖) 字符替換為 空

   內容:(圖)

   替換:留空

(2)高級過濾

      比如正文中有這樣的代碼:

   <iframe src="http://www.xx.com/if/top-new1.html" name="contentFRM" id="contentFRM" scrolling="no" width="326" height="350" 

marginwidth="0" marginheight="0" frameborder="0" align="left"></iframe>

   大家都知道這應該是廣告代碼吧,想把它過濾掉不要它了,可以這樣:

   開始標記:<iframe

   結束標記:</iframe>   

   注:像這種代碼也可以使用 過濾選項 中的 IFRAME選項 ,如果代碼復雜還是推薦使用上面的這各方法。

 
三、使用指南-----歷史記錄 
      歷史記錄,記錄的是所采集過的新聞網址,保留著該新聞的采集狀態,也是判斷一條新聞是否重復采集的重要依據。 


四、采集屬性: 


保存遠程圖片:選中的話,如果采集的新聞正文中有圖片,將會自動下載到本地。


標簽過濾選項:

這里是常見的要過濾的html標簽。


IFRAME:如--<IFRAME SRC="廣告地址">,比較常見的廣告代碼。 

OBJECT:如--<Object 代碼>代碼</Object>,注意--有些正文中有Flash動畫、又有這個廣告代碼,此時推薦使用過濾功能。

SCRIPT :如--<SCRIPT LANGUAGE="javascript1.1" SRC="廣告地址"></SCRIPT>,常見的廣告代碼。

FONT    :如--<font style="font-size:12px;line-height:150%;">,常用于去掉文字的大小、顏色等屬性。

A          :如--<a href="http://pic.xx.net">查看更多圖片</a>,常用于去掉文字、圖片上的鏈接,但不會去掉“查看更多圖片”。


 

琅琊榜APP 2011兰州站街女 广西十一选五 澳洲幸运10网 三级片免费下载地址最新公告 足彩比分直播球探网 辽宁11选5开奖记 澳洲体彩幸运5开奖 打麻将赌博害了我一生 甘肃快三 玩幸运飞艇有什么技巧 麻将软件代理 老时时彩 3d试机号走势图 科乐麻将官方下载 总进球 红中麻将代理费多少