Trích xuất dữ liệu Twitter bằng Python

Twitter là một trong những mạng xã hội nổi bật nhất trong thời đại ngày nay của chúng ta. Với mọi người, từ những người bình thường đến những nhân vật của công chúng sử dụng nó như một phương tiện để chia sẻ suy nghĩ và ý kiến ​​của họ, đó là một nguồn dữ liệu phong phú. API Twitter cho phép bạn “Phân tích, học hỏi và tương tác với cuộc trò chuyện trên Twitter theo chương trình”. Trong hướng dẫn này, chúng tôi sẽ đề cập đến cách bạn có thể sử dụng API Twitter trong Python để truy cập dữ liệu cho phân tích của riêng bạn

Ghi chú. Nếu bạn đang muốn lấy dữ liệu từ Twitter API v2, hãy xem hướng dẫn mới của chúng tôi. Tuy nhiên, nếu bạn quan tâm đến việc trích xuất dữ liệu từ Twitter API v1. 1 tiếp tục với hướng dẫn

1. Nhận quyền truy cập vào Twitter API

Để thực hiện bất kỳ yêu cầu nào đối với API Twitter (bằng python hoặc bất kỳ nơi nào khác), bạn cần có Khóa API và Mã thông báo truy cập. Đối với điều này, bạn cần đăng ký tài khoản nhà phát triển với Twitter và tài khoản của bạn đã được phê duyệt. Sau khi được phê duyệt, bạn có thể tạo một dự án và liên kết nó với một Ứng dụng mẫu. Ứng dụng này sẽ cung cấp cho bạn Khóa API và Mã thông báo truy cập mà bạn có thể sử dụng để xác thực và sử dụng API Twitter

1. 1 Đăng ký tài khoản nhà phát triển với Twitter

Để đăng ký tài khoản nhà phát triển với Twitter –

  • Điều hướng đến trang đăng ký truy cập của Twitter và đăng ký tài khoản nhà phát triển

Trích xuất dữ liệu Twitter bằng Python
Trích xuất dữ liệu Twitter bằng Python

  • Bạn sẽ được điều hướng để đăng nhập vào tài khoản Twitter của mình. đăng nhập vào tài khoản của bạn. Nếu bạn không có tài khoản Twitter, hãy đăng ký một tài khoản

Trích xuất dữ liệu Twitter bằng Python
Trích xuất dữ liệu Twitter bằng Python

  • Sau khi đăng nhập, bạn sẽ được điều hướng đến một bảng câu hỏi về lý do và cách bạn dự định sử dụng Twitter API. Điền nó theo trường hợp sử dụng của bạn. Nếu bạn là người có sở thích sử dụng nó để khám phá API, hãy chọn Khám phá API trong cột Sở thích

Trích xuất dữ liệu Twitter bằng Python
Trích xuất dữ liệu Twitter bằng Python

  • Trả lời tất cả các câu hỏi tiếp theo
  • Xem lại Thỏa thuận và chính sách dành cho nhà phát triển và gửi đơn đăng ký của bạn
  • Kiểm tra email của bạn và nhấp vào liên kết xác nhận để hoàn tất quy trình đăng ký

1. 2 Nhận Khóa API Twitter và Mã truy cập của bạn

Nói chung, nếu Twitter không tìm thấy điều gì bất thường với ứng dụng của bạn, thì bạn có thể truy cập vào tài khoản nhà phát triển của mình ngay sau khi hoàn tất quy trình đăng ký của mình. Bây giờ, để nhận Khóa API và Mã thông báo truy cập, hãy làm theo các bước –

  • Khi nhấp vào email xác nhận từ bước đăng ký ở trên, bạn sẽ được điều hướng đến Nền tảng dành cho nhà phát triển Twitter

Trích xuất dữ liệu Twitter bằng Python
Trích xuất dữ liệu Twitter bằng Python

  • Đặt tên cho Ứng dụng của bạn và nhấp vào
    # import tweepy
    import tweepy as tw
    
    # your Twitter API key and API secret
    my_api_key = "XXXXXXXXXXXXXXXXX"
    my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"
    
    # authenticate
    auth = tw.OAuthHandler(my_api_key, my_api_secret)
    api = tw.API(auth, wait_on_rate_limit=True)
    6
  • Bạn sẽ thấy khóa API và khóa bí mật API của mình. Sao chép và lưu chúng một cách an toàn. Bạn sẽ sử dụng chúng để truy cập Twitter API

Trích xuất dữ liệu Twitter bằng Python
Trích xuất dữ liệu Twitter bằng Python

Sau khi bảo mật khóa API Twitter và bí mật, bạn có thể chuyển sang IDE python mà bạn chọn để sử dụng nó để truy cập dữ liệu từ API Twitter

2. Lấy dữ liệu từ API Twitter bằng Python

Có một số cách để truy cập dữ liệu từ API Twitter bằng Python, đối với hướng dẫn này, chúng tôi sẽ sử dụng thư viện python

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
7 giúp dễ dàng kết nối và tìm nạp dữ liệu từ API Twitter. Trong hướng dẫn này, chúng tôi sẽ tìm nạp các tweet có thẻ bắt đầu bằng # cụ thể (
# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
8) từ API

2. 1 Cài đặt tweepy

Nếu bạn không có thư viện

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
7, bạn có thể cài đặt nó bằng lệnh

pip install tweepy

Điều này sẽ cài đặt thư viện Tweepy đi kèm với toàn bộ chức năng tìm nạp dữ liệu từ API Twitter. Lớp

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
0 của nó cung cấp quyền truy cập vào toàn bộ các phương thức Twitter RESTful API. Mỗi phương thức có thể chấp nhận các tham số khác nhau và trả về phản hồi

Để biết thêm, hãy tham khảo tài liệu của tweepy

2. 2 Xác thực bằng thông tin đăng nhập của bạn

Mở môi trường python ưa thích của bạn (ví dụ:. Jupyter Notebook, Spyder, v.v.) và sử dụng thông tin đăng nhập API Twitter của bạn để xác thực và kết nối với API

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)

Sử dụng khóa API Twitter và khóa bí mật của bạn làm giá trị cho các biến

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
1 và
# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
2 tương ứng. Sau đó, khởi tạo tweepy
# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
3 bằng khóa API và bí mật API và sử dụng nó để lấy phiên bản của lớp API tweepy mà bạn sẽ sử dụng để thực hiện các yêu cầu đối với API Twitter

2. 3 Thiết lập truy vấn tìm kiếm của bạn

Truy vấn tìm kiếm chỉ đơn giản là một chuỗi cho API Twitter biết loại tweet bạn muốn tìm kiếm. Hãy tưởng tượng sử dụng thanh tìm kiếm trên chính Twitter mà không cần API. Ví dụ: nếu bạn muốn tìm kiếm các tweet có

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
8, bạn chỉ cần nhập #covid19 vào thanh tìm kiếm của Twitter và nó sẽ hiển thị cho bạn các tweet đó

Về cơ bản, nếu chúng tôi đang sử dụng truy vấn tìm kiếm với API Twitter, thì nó thực sự trả về kết quả từ những gì bạn nhận được nếu bạn tìm kiếm trực tiếp trên Twitter

search_query = "#covid19 -filter:retweets"

Ở đây, chúng tôi đã thiết lập

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
5 của mình để tìm nạp các tweet bằng
# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
8 nhưng cũng lọc ra các tin nhắn lại. Bạn có thể tùy chỉnh truy vấn của mình dựa trên yêu cầu của bạn. Để biết thêm, hãy tham khảo hướng dẫn này

2. 4 Thu thập các Tweet

Chúng tôi sử dụng Tweepy

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
7 để lấy các tweet. Nó trả về một đối tượng có thể được lặp lại để nhận phản hồi API. Chúng tôi tìm nạp 50 tweet cho truy vấn tìm kiếm được chỉ định ở trên

# get tweets from the API
tweets = tw.Cursor(api.search,
              q=search_query,
              lang="en",
              since="2020-09-16").items(50)

# store the API responses in a list
tweets_copy = []
for tweet in tweets:
    tweets_copy.append(tweet)
    
print("Total Tweets fetched:", len(tweets_copy))

đầu ra

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
0

Ở đây, chúng tôi chuyển api làm đối số. đối tượng tìm kiếm, truy vấn tìm kiếm, ngôn ngữ của các tweet và ngày để tìm kiếm các tweet. Chúng tôi cũng giới hạn số lượng mặt hàng (i. e. tweet trong trường hợp này là 50). Các câu trả lời được lặp đi lặp lại và lưu vào danh sách

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
8

2. 5 Tạo tập dữ liệu

Bây giờ chúng tôi tạo một tập dữ liệu (khung dữ liệu gấu trúc) bằng cách sử dụng các thuộc tính của các tweet nhận được từ API

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
2

đầu ra

Trích xuất dữ liệu Twitter bằng Python
Trích xuất dữ liệu Twitter bằng Python

Ở đây, khung dữ liệu

# import tweepy
import tweepy as tw

# your Twitter API key and API secret
my_api_key = "XXXXXXXXXXXXXXXXX"
my_api_secret = "XXXXXXXXXXXXXXXXXXXXXXX"

# authenticate
auth = tw.OAuthHandler(my_api_key, my_api_secret)
api = tw.API(auth, wait_on_rate_limit=True)
9 được phổ biến với các thuộc tính khác nhau của Tweet như tên người dùng, vị trí của người dùng, mô tả của người dùng, thời gian của tweet, văn bản của tweet, thẻ bắt đầu bằng #, v.v.

Ngoài ra, lưu ý rằng đối với văn bản của tweet, chúng tôi không sử dụng

search_query = "#covid19 -filter:retweets"
0 mà chúng tôi đang gọi lại API bằng id tweet và tìm nạp toàn văn của nó. Điều này là do
search_query = "#covid19 -filter:retweets"
0 không chứa toàn bộ nội dung của Tweet

Có dữ liệu được lưu trữ dưới dạng khung dữ liệu khá hữu ích để phân tích và tham khảo thêm

Người giới thiệu

  • Covid-19 tweet
  • Bắt đầu với Twitter API


Đăng ký nhận bản tin của chúng tôi để biết thêm thông tin và hướng dẫn.
Chúng tôi không gửi thư rác và bạn có thể chọn không tham gia bất kỳ lúc nào.


Tác giả

  • Trích xuất dữ liệu Twitter bằng Python
    Trích xuất dữ liệu Twitter bằng Python

    Piyush Raj

    Piyush là một chuyên gia dữ liệu đam mê sử dụng dữ liệu để hiểu mọi thứ tốt hơn và đưa ra quyết định sáng suốt. Trước đây, anh ấy từng là Nhà khoa học dữ liệu cho ZS và có bằng kỹ sư của IIT Roorkee. Sở thích của anh ấy bao gồm xem cricket, đọc sách và làm việc trong các dự án phụ