即時應用（Twitter）

讓我們分析一個即時應用程式，以獲取最新的 Twitter 帖子及其話題標籤。之前，我們已經看到了 Storm 和 Spark 與 Kafka 的整合。在這兩種情況下，我們都建立了一個 Kafka 生產者（使用 cli）來向 Kafka 生態系統傳送訊息。然後，Storm 和 Spark 整合使用 Kafka 消費者讀取訊息，並分別將其注入到 Storm 和 Spark 生態系統中。因此，實際上我們需要建立一個 Kafka 生產者，它應該：

使用“Twitter Streaming API”讀取 Twitter 帖子，
處理帖子，
提取話題標籤，以及
將其傳送到 Kafka。

一旦 Kafka 接收到話題標籤，Storm/Spark 整合就會接收資訊並將其傳送到 Storm/Spark 生態系統。

Twitter Streaming API

“Twitter Streaming API”可以使用任何程式語言訪問。“twitter4j”是一個開源的、非官方的 Java 庫，它提供了一個基於 Java 的模組來輕鬆訪問“Twitter Streaming API”。“twitter4j”提供了一個基於監聽器的框架來訪問推文。要訪問“Twitter Streaming API”，我們需要註冊 Twitter 開發者帳戶，並獲取以下OAuth身份驗證詳細資訊。

客戶金鑰
客戶金鑰秘鑰
訪問令牌
訪問令牌秘鑰

建立開發者帳戶後，下載“twitter4j”jar 檔案並將其放在 Java 類路徑中。

完整的 Twitter Kafka 生產者程式碼（KafkaTwitterProducer.java）如下所示：

import java.util.Arrays;
import java.util.Properties;
import java.util.concurrent.LinkedBlockingQueue;

import twitter4j.*;
import twitter4j.conf.*;

import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;

public class KafkaTwitterProducer {
   public static void main(String[] args) throws Exception {
      LinkedBlockingQueue<Status> queue = new LinkedBlockingQueue<Sta-tus>(1000);
      
      if(args.length < 5){
         System.out.println(
            "Usage: KafkaTwitterProducer <twitter-consumer-key>
            <twitter-consumer-secret> <twitter-access-token>
            <twitter-access-token-secret>
            <topic-name> <twitter-search-keywords>");
         return;
      }
      
      String consumerKey = args[0].toString();
      String consumerSecret = args[1].toString();
      String accessToken = args[2].toString();
      String accessTokenSecret = args[3].toString();
      String topicName = args[4].toString();
      String[] arguments = args.clone();
      String[] keyWords = Arrays.copyOfRange(arguments, 5, arguments.length);

      ConfigurationBuilder cb = new ConfigurationBuilder();
      cb.setDebugEnabled(true)
         .setOAuthConsumerKey(consumerKey)
         .setOAuthConsumerSecret(consumerSecret)
         .setOAuthAccessToken(accessToken)
         .setOAuthAccessTokenSecret(accessTokenSecret);

      TwitterStream twitterStream = new TwitterStreamFactory(cb.build()).get-Instance();
      StatusListener listener = new StatusListener() {
        
         @Override
         public void onStatus(Status status) {      
            queue.offer(status);

            // System.out.println("@" + status.getUser().getScreenName() 
               + " - " + status.getText());
            // System.out.println("@" + status.getUser().getScreen-Name());

            /*for(URLEntity urle : status.getURLEntities()) {
               System.out.println(urle.getDisplayURL());
            }*/

            /*for(HashtagEntity hashtage : status.getHashtagEntities()) {
               System.out.println(hashtage.getText());
            }*/
         }
         
         @Override
         public void onDeletionNotice(StatusDeletionNotice statusDeletion-Notice) {
            // System.out.println("Got a status deletion notice id:" 
               + statusDeletionNotice.getStatusId());
         }
         
         @Override
         public void onTrackLimitationNotice(int numberOfLimitedStatuses) {
            // System.out.println("Got track limitation notice:" + 
               num-berOfLimitedStatuses);
         }

         @Override
         public void onScrubGeo(long userId, long upToStatusId) {
            // System.out.println("Got scrub_geo event userId:" + userId + 
            "upToStatusId:" + upToStatusId);
         }      
         
         @Override
         public void onStallWarning(StallWarning warning) {
            // System.out.println("Got stall warning:" + warning);
         }
         
         @Override
         public void onException(Exception ex) {
            ex.printStackTrace();
         }
      };
      twitterStream.addListener(listener);
      
      FilterQuery query = new FilterQuery().track(keyWords);
      twitterStream.filter(query);

      Thread.sleep(5000);
      
      //Add Kafka producer config settings
      Properties props = new Properties();
      props.put("bootstrap.servers", "localhost:9092");
      props.put("acks", "all");
      props.put("retries", 0);
      props.put("batch.size", 16384);
      props.put("linger.ms", 1);
      props.put("buffer.memory", 33554432);
      
      props.put("key.serializer", 
         "org.apache.kafka.common.serializa-tion.StringSerializer");
      props.put("value.serializer", 
         "org.apache.kafka.common.serializa-tion.StringSerializer");
      
      Producer<String, String> producer = new KafkaProducer<String, String>(props);
      int i = 0;
      int j = 0;
      
      while(i < 10) {
         Status ret = queue.poll();
         
         if (ret == null) {
            Thread.sleep(100);
            i++;
         }else {
            for(HashtagEntity hashtage : ret.getHashtagEntities()) {
               System.out.println("Hashtag: " + hashtage.getText());
               producer.send(new ProducerRecord<String, String>(
                  top-icName, Integer.toString(j++), hashtage.getText()));
            }
         }
      }
      producer.close();
      Thread.sleep(5000);
      twitterStream.shutdown();
   }
}

編譯

使用以下命令編譯應用程式：

javac -cp “/path/to/kafka/libs/*”:”/path/to/twitter4j/lib/*”:. KafkaTwitterProducer.java

執行

開啟兩個控制檯。在一個控制檯中，執行上面編譯好的應用程式，如下所示。

java -cp “/path/to/kafka/libs/*”:”/path/to/twitter4j/lib/*”:
. KafkaTwitterProducer <twitter-consumer-key>
<twitter-consumer-secret>
<twitter-access-token>
<twitter-ac-cess-token-secret>
my-first-topic food

在另一個視窗中執行上一章中解釋的任何一個 Spark/Storm 應用程式。需要注意的主要一點是，在這兩種情況下，使用的主題應該相同。在這裡，我們使用“my-first-topic”作為主題名稱。

輸出

此應用程式的輸出將取決於關鍵字和 Twitter 的當前帖子。下面指定了一個示例輸出（Storm 整合）。

. . .
food : 1
foodie : 2
burger : 1
. . .

列印頁面