Add duplicate telegram messages filtering

2025-10-31 00:43:11 +03:00 · 2025-10-31 00:43:11 +03:00 · 8e9df066a9
commit 8e9df066a9
parent 9dceaaeccc
5 changed files with 60 additions and 30 deletions
--- a/vacancies/main/admin.py
+++ b/vacancies/main/admin.py
@ -1,11 +1,6 @@
 from django.contrib import admin
 from vacancies.main import models
@admin.register(models.Vacancy)
 class VacancyAdmin(admin.ModelAdmin):
    pass
@admin.register(models.Customer)
 class CustomerAdmin(admin.ModelAdmin):
    pass
--- a/vacancies/main/management/commands/collect_vacancies_from_telegram_messages.py
+++ b/vacancies/main/management/commands/collect_vacancies_from_telegram_messages.py
@ -1,5 +1,4 @@
 from django.core.management import BaseCommand
 from vacancies.main.models import Vacancy
 import clickhouse_connect
 from vacancies.main.vector_store import add_vectors, extract_features, client as qdrant
@ -46,15 +45,12 @@ class Command(BaseCommand):
            (id, chat_username, telegram_id, message, timestamp) = row
            link = f"https://t.me/{chat_username}/{telegram_id}"
-            print(f"Processing {index}/{result_rows_len} link: {link}")
+            print(f"Processing {index+1}/{result_rows_len} link: {link}")
            features = extract_features(message)
            vacancy, created = Vacancy.objects.get_or_create(
                link=link,
            )
            add_vectors(
                "vacancies",
-                vacancy.id,
+                id,
                features.model_dump(),
-                {'content': message, 'features_json': features.model_dump()},
+                {'content': message, 'features_json': features.model_dump(), "link": link, "timestamp": timestamp},
            )
--- a/vacancies/main/migrations/0007_remove_recommendedvacancy_vacancy_and_more.py
+++ b/vacancies/main/migrations/0007_remove_recommendedvacancy_vacancy_and_more.py
@ -0,0 +1,26 @@
 # Generated by Django 5.2.7 on 2025-10-30 21:43
 from django.db import migrations, models
 class Migration(migrations.Migration):
    dependencies = [
        ('main', '0006_remove_vacancy_features_json'),
    ]
    operations = [
        migrations.RemoveField(
            model_name='recommendedvacancy',
            name='vacancy',
        ),
        migrations.AddField(
            model_name='recommendedvacancy',
            name='vacancy_id',
            field=models.IntegerField(default=0),
            preserve_default=False,
        ),
        migrations.DeleteModel(
            name='Vacancy',
        ),
    ]
--- a/vacancies/main/models.py
+++ b/vacancies/main/models.py
@ -31,30 +31,15 @@ class CustomerCV(models.Model):
        db_table = "customer_vcs"
 class Vacancy(models.Model):
    content = models.TextField()
    link = models.URLField(unique=True)
    created_at = models.DateTimeField(auto_now_add=True)
    objects = models.Manager()
    def __str__(self):
        return self.content[:100]
    class Meta:
        verbose_name_plural = 'Vacancies'
        db_table = "vacancies"
 class RecommendedVacancy(models.Model):
    customer = models.ForeignKey(Customer, on_delete=models.CASCADE)
-    vacancy = models.ForeignKey(Vacancy, on_delete=models.CASCADE)
+    vacancy_id = models.IntegerField()
    created_at = models.DateTimeField(auto_now_add=True)
    objects = models.Manager()
    def __str__(self):
-        return f'{self.customer.username} -> {self.vacancy.content}'
+        return f'{self.customer.username} -> {self.vacancy_id}'
    class Meta:
        verbose_name_plural = 'Recommended Vacancies'
--- a/vacancies/main/vector_store.py
+++ b/vacancies/main/vector_store.py
@ -68,6 +68,32 @@ def add_vectors(collection_name: str, _id: int, features: dict, payload: dict):
        if text:
            vec = embedding.embed_query(text)
            vectors[name] = vec
    max_similarities = {}
    for name, vec in vectors.items():
        if any(v != 0 for v in vec):
            results = client.query_points(
                collection_name="vacancies",
                query=vec,
                using=name,
                limit=1000,
            )
            for res in results.points:
                vid = res.id
                sim = res.score
                if vid not in max_similarities:
                    max_similarities[vid] = {}
                max_similarities[vid][name] = sim
    scored = []
    for vid, feature_sims in max_similarities.items():
        total = sum(feature_sims[feature] * weights.get(feature, 1) for feature in feature_sims)
        scored.append({"id": vid, "score": total})
    scored.sort(key=lambda x: x["score"], reverse=True)
    if scored and scored[0]["score"] > 35: #treshold
        return
    client.upsert(
        collection_name=collection_name,
        points=[
@ -114,6 +140,8 @@ def search_similarities(query_filter: Filter, cv_id: int) -> list[dict]:
        scored.append({"id": vid, "score": total, "content": vacancies_content[vid]})
    scored.sort(key=lambda x: x["score"], reverse=True)
    for i in range(20):
        print(f"{scored[i]['content']} {scored[i]['score']}")
    return scored[0]["id"], scored[0]["content"]
@ -137,7 +165,7 @@ def extract_features(content: str) -> VacancyFeatures:
    Vacancy content:
    {content}
    """
-    openai_client = ChatOpenAI(model_name="gpt-5-mini", reasoning_effort="minimal")
+    openai_client = ChatOpenAI(model_name="gpt-5-mini", reasoning_effort="minimal", temperature=0, seed=42, top_p=1)
    structured_llm = openai_client.with_structured_output(VacancyFeatures)
    response = structured_llm.invoke(prompt)
    return response