Python と LLM を使用してスタートアップの求人を検索する
多くの企業 Web サイトでは、主流の求人サイトでは必ずしも見つけられない求人情報が掲載されています。たとえば、遠隔地のスタートアップ企業では求人サイトに掲載されていないこともあるため、仕事を見つけるのは難しい場合があります。これらの求人を見つけるには、次のものが必要です:
- 可能性のある企業を探しています
- キャリアページを検索
- 利用可能な求人情報を分析する
- ジョブの詳細を手動で記録する
これは非常に時間がかかりますが、自動化します。
準備
Parsera ライブラリを使用してジョブのスクレイピングを自動化します。 Parsera には 2 つの使用オプションがあります:
- ローカル モード: 選択した LLM を使用してマシン上でページを処理します。
- API モード: すべての処理は Parsera のサーバーで行われます。
まず、必要なパッケージをインストールします:
<code>pip install parsera playwright install</code>
<code>import os from parsera import Parsera os.environ["OPENAI_API_KEY"] = "<your_openai_api_key_here>" scraper = Parsera(model=llm) </your_openai_api_key_here></code>
ステップ 1: 最新のシリーズ A 資金調達スタートアップのリストを取得する
まず、興味のある企業とその Web サイトのリストを見つける必要があります。先月、シリーズAで資金調達したスタートアップ100社のリストを見つけた。成長企業や新たな資金調達ラウンドを行った企業は良い選択のようです。
これらの企業の国と Web サイトを取得してみましょう:
<code>url = "https://growthlist.co/series-a-startups/" elements = { "Website": "公司的网站", "Country": "公司的国家", } all_startups = await scraper.arun(url=url, elements=elements)</code>
<code>us_websites = [ item["Website"] for item in all_startups if item["Country"] == "United States" ]</code>
これで、米国のシリーズ A 資金調達スタートアップ Web サイトのリストができました。次のステップは、彼らのキャリアページを見つけることです。採用ページをホームページから直接取得します:
<code>from urllib.parse import urljoin # 定义我们的目标 careers_target = {"url": "职业页面网址"} careers_pages = [] for website in us_websites: website = "https://" + website result = await scraper.arun(url=website, elements=careers_target) if len(result) > 0: url = result[0]["url"] if url.startswith("/") or url.startswith("./"): url = urljoin(website, url) careers_pages.append(url)</code>
ステップ 3: 募集中の求人を取得する
最後のステップは、Web サイトのキャリア ページから募集中のポジションをすべてロードすることです。ソフトウェア エンジニアリングの仕事を探しているとします。次に、役職、所在地、リンク、およびソフトウェア エンジニアリングに関連しているかどうかを検索します。
<code>jobs_target = { "Title": "职位的名称", "Location": "职位的所在地", "Link": "职位发布的链接", "SE": "如果这是软件工程职位,则为True,否则为False", } jobs = [] for page in careers_pages: result = await scraper.arun(url=page, elements=jobs_target) if len(result) > 0: for row in result: row["url"] = page row["Link"] = urljoin(row["url"], row["Link"]) jobs.extend(result)</code>
<code>import csv engineering_jobs = [job for job in jobs if job["SE"] == "True"] with open("jobs.csv", "w") as f: write = csv.writer(f) write.writerow(engineering_jobs[0].keys()) for job in engineering_jobs: write.writerow(job.values()) </code>
职位名称 | 所在地 | 链接 | 软件工程职位 | 网址 |
---|---|---|---|---|
AI技术主管经理 | 班加罗尔 | https://job-boards.greenhouse.io/enterpret/jobs/6286095003 | True | https://boards.greenhouse.io/enterpret/ |
后端开发人员 | 特拉维夫 | https://www.upwind.io/careers/co/tel-aviv/BA.04A/backend-developer/all#jobs | True | https://www.upwind.io/careers |
... | ... | ... | ... | ... |
次に、同じプロセスを繰り返して、完全なジョブ リストからさらに多くの情報を抽出します。たとえば、技術スタックを取得したり、リモートのスタートアップでのジョブのフィルターを取得したりできます。これにより、すべてのページを手動で確認する時間を節約できます。リンク フィールドを自分で繰り返して、興味のある要素を抽出してみることができます。
この記事がお役に立てば幸いです。ご質問がございましたらお知らせください。
以上がPython と LLM を使用してスタートアップの求人を検索するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

10時間以内にコンピューター初心者プログラミングの基本を教える方法は?コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

Pythonasyncioについて...

Investing.comの反クラウリング戦略を理解する多くの人々は、Investing.com(https://cn.investing.com/news/latest-news)からのニュースデータをクロールしようとします。

Python 3.6のピクルスファイルの読み込みエラー:modulenotfounderror:nomodulenamed ...

SCAPYクローラーを使用するときにパイプラインファイルを作成できない理由についての議論は、SCAPYクローラーを学習して永続的なデータストレージに使用するときに、パイプラインファイルに遭遇する可能性があります...
