今日のペースの速い世界では、論文を素早く読んだり、研究論文の重要なポイントを強調したりするために、長い形式のコンテンツを簡潔な要約に凝縮することが不可欠です。 Hugging Face は、テキスト要約のための強力なツールである BART モデルを提供します。この記事では、Hugging Face の事前トレーニング済みモデル、特に facebook/bart-large-cnn モデルを活用して、長い記事やテキストを要約する方法を検討します。
Hugging Face は、テキスト分類、翻訳、要約などの NLP タスク用のさまざまなモデルを提供します。要約用の最も人気のあるモデルの 1 つは BART (双方向および自己回帰トランスフォーマー) です。これは、大きなドキュメントから一貫した要約を生成するようにトレーニングされています。
Hugging Face モデルを開始するには、トランスフォーマー ライブラリをインストールする必要があります。これは pip を使用して行うことができます:
pip install transformers
ライブラリがインストールされたら、要約のために事前トレーニングされたモデルを簡単にロードできます。 Hugging Face のパイプライン API は、要約タスク用に微調整された facebook/bart-large-cnn などのモデルを使用するための高レベルのインターフェイスを提供します。
from transformers import pipeline # Load the summarization model summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
サマライザーの準備ができたので、長いテキストを入力して要約を生成できます。以下は、英国の有名な女優、デイム マギー スミスに関するサンプル記事を使用した例です。
ARTICLE = """ Dame Margaret Natalie Smith (28 December 1934 – 27 September 2024) was a British actress. Known for her wit in both comedic and dramatic roles, she had an extensive career on stage and screen for over seven decades and was one of Britain's most recognisable and prolific actresses. She received numerous accolades, including two Academy Awards, five BAFTA Awards, four Emmy Awards, three Golden Globe Awards and a Tony Award, as well as nominations for six Olivier Awards. Smith is one of the few performers to earn the Triple Crown of Acting. Smith began her stage career as a student, performing at the Oxford Playhouse in 1952, and made her professional debut on Broadway in New Faces of '56. Over the following decades Smith established herself alongside Judi Dench as one of the most significant British theatre performers, working for the National Theatre and the Royal Shakespeare Company. On Broadway, she received the Tony Award for Best Actress in a Play for Lettice and Lovage (1990). She was Tony-nominated for Noël Coward's Private Lives (1975) and Tom Stoppard's Night and Day (1979). Smith won Academy Awards for Best Actress for The Prime of Miss Jean Brodie (1969) and Best Supporting Actress for California Suite (1978). She was Oscar-nominated for Othello (1965), Travels with My Aunt (1972), A Room with a View (1985) and Gosford Park (2001). She portrayed Professor Minerva McGonagall in the Harry Potter film series (2001–2011). She also acted in Death on the Nile (1978), Hook (1991), Sister Act (1992), The Secret Garden (1993), The Best Exotic Marigold Hotel (2012), Quartet (2012) and The Lady in the Van (2015). Smith received newfound attention and international fame for her role as Violet Crawley in the British period drama Downton Abbey (2010–2015). The role earned her three Primetime Emmy Awards; she had previously won one for the HBO film My House in Umbria (2003). Over the course of her career she was the recipient of numerous honorary awards, including the British Film Institute Fellowship in 1993, the BAFTA Fellowship in 1996 and the Society of London Theatre Special Award in 2010. Smith was made a dame by Queen Elizabeth II in 1990. """ # Generate the summary summary = summarizer(ARTICLE, max_length=130, min_length=30, do_sample=False) # Print the summary print(summary)
[{'summary_text': 'Dame Margaret Natalie Smith (28 December 1934 – 27 September 2024) was a British actress. Known for her wit in both comedic and dramatic roles, she had an extensive career on stage and screen for over seven decades. She received numerous accolades, including two Academy Awards, five BAFTA Awards, four Emmy Awards, three Golden Globe Awards and a Tony Award.'}]
出力からわかるように、サマリーは記事の要点を短く読みやすい形式に凝縮し、彼女のキャリアの長さや賞賛などの重要な事実を強調しています。
使用例によっては、ハードコードされた文字列ではなくファイルからテキストを読み取りたい場合があります。以下は、テキスト ファイルから記事を読み取り、概要を生成する更新された Python スクリプトです。
from transformers import pipeline # Load the summarizer pipeline summarizer = pipeline("summarization", model="facebook/bart-large-cnn") # Function to read the article from a text file def read_article_from_file(file_path): with open(file_path, 'r') as file: return file.read() # Path to the text file containing the article file_path = 'article.txt' # Change this to your file path # Read the article from the file ARTICLE = read_article_from_file(file_path) # Get the summary summary = summarizer(ARTICLE, max_length=130, min_length=30, do_sample=False) # Print the summary print(summary)
この場合、記事をテキスト ファイル (この例ではarticle.txt) に保存する必要があります。スクリプトはコンテンツを読み取って要約します。
Hugging Face の BART モデルは、自動テキスト要約のための優れたツールです。長い記事、研究論文、または大量のテキストを処理する場合でも、このモデルは情報を抽出して簡潔な要約を作成するのに役立ちます。
この記事では、ハードコーディングされたテキストとファイル入力の両方を使用して、Hugging Face の事前トレーニング済み要約モデルをプロジェクトに統合する方法を説明しました。わずか数行のコードを書くだけで、Python プロジェクトで効率的な要約パイプラインを立ち上げて実行できます。
以上がハグフェイスの BART モデルを使用したテキストの要約の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。