init

2023-10-21 21:14:57 +08:00
commit 47ca0639da
11 changed files with 1541 additions and 0 deletions
--- a/.dockerignore
+++ b/.dockerignore
@@ -0,0 +1,4 @@
 __pycache__
 /venv
 /.env
 .git
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,4 @@
 __pycache__
 /venv
 /.env
 .git
--- a/19
+++ b/19
@@ -0,0 +1,19 @@
 FROM python:3.11-slim-buster
 # Update the system
 RUN apt-get update -y
 # Install LibreOffice, Firefox ESR and pip
 RUN apt-get install -y libreoffice firefox-esr
 # Set the working directory in the container to /app
 WORKDIR /app
 COPY ./requirements_version.txt /app/requirements_version.txt
 RUN pip3 install --no-cache-dir -r requirements_version.txt
 # cache tiktoken dict
 RUN python3 -c 'import tiktoken; enc = tiktoken.get_encoding("cl100k_base")'
 # Add the current directory contents into the container at /app
 COPY . /app
--- a/bot.py
+++ b/bot.py
@@ -0,0 +1,315 @@
 import dotenv
 dotenv.load_dotenv()
 import os
 import traceback
 from functools import wraps
 from nio import AsyncClient, MatrixRoom, RoomMessageText, SyncError, InviteEvent
 import tiktoken
 import databases
 import builtins
 import sys
 def print(*args, **kwargs):
    kwargs["file"] = sys.stderr
    builtins.print(*args, **kwargs)
 class Bot(AsyncClient):
    def __init__(self, homeserver: str, user: str, device_id: str, access_token: str):
        super().__init__(homeserver)
        self.access_token = access_token
        self.user_id = self.user = user
        self.device_id = device_id
        self.welcome_message = ""
        self._joined_rooms = []
        self.db = databases.Database(os.environ["MATRIX_CHAIN_DB"])
        self.enc = tiktoken.encoding_for_model("gpt-4")
        # auto join
        self.add_event_callback(self.auto_join, InviteEvent)
    async def init_db(self):
        db = self.db
        await db.execute("CREATE EXTENSION IF NOT EXISTS vector")
        await db.execute(
            """
        CREATE TABLE IF NOT EXISTS documents
        (
            md5 character(32) NOT NULL PRIMARY KEY,
            content text,
            token integer,
            url text
        )
        """
        )
        await db.execute(
            """
        CREATE TABLE IF NOT EXISTS embeddings
        (
            document_md5 character(32) NOT NULL,
            md5 character(32) NOT NULL,
            content text NOT NULL,
            token integer NOT NULL,
            embedding vector(1536) NOT NULL,
            PRIMARY KEY (document_md5, md5),
            FOREIGN KEY (document_md5) REFERENCES documents(md5)
        );
        """
        )
        await db.execute(
            """
        CREATE TABLE IF NOT EXISTS event_document
        (
            event text NOT NULL PRIMARY KEY,
            document_md5 character(32) NOT NULL,
            FOREIGN KEY (document_md5)
                REFERENCES documents (md5)
        );
        """
        )
        await db.execute(
            """
        CREATE TABLE IF NOT EXISTS memories
        (
            id SERIAL PRIMARY KEY,
            root text NOT NULL,
            role integer NOT NULL,
            content text NOT NULL,
            token integer NOT NULL
        )
            """
        )
        await db.execute(
            """
        CREATE TABLE IF NOT EXISTS room_configs
        (
            room text NOT NULL PRIMARY KEY,
            model_name text,
            temperature float NOT NULL DEFAULT 0,
            system text,
            embedding boolean NOT NULL DEFAULT false,
            examples TEXT[] NOT NULL DEFAULT '{}'
        )
        """
        )
        await db.execute(
            """
        CREATE TABLE IF NOT EXISTS room_document (
            room text NOT NULL,
            document_md5 character(32) NOT NULL,
            PRIMARY KEY (room, document_md5)
        );
            """
        )
    def get_token_length(self, text: str) -> int:
        return len(self.enc.encode(text))
    async def sync_forever(self):
        # init
        print("connecting to db")
        await self.db.connect()
        # init db hook
        print("init db hook")
        await self.init_db()
        # remote callback to perform initial sync
        callbacks = self.event_callbacks
        self.event_callbacks = []
        # skip intial sync
        print("Perform initial sync")
        resp = await self.sync(timeout=30000)
        if isinstance(resp, SyncError):
            raise BaseException(SyncError)
        self.event_callbacks = callbacks
        # set online
        print("Set online status")
        await self.set_presence("online")
        # sync
        print("Start forever sync")
        return await super().sync_forever(300000, since=resp.next_batch)
    async def auto_join(self, room: MatrixRoom, event: InviteEvent):
        print("join", event.sender, room.room_id)
        if room.room_id in self._joined_rooms:
            return
        await self.join(room.room_id)
        self._joined_rooms.append(room.room_id)
        if self.welcome_message:
            await self.room_send(
                room.room_id,
                "m.room.message",
                {
                    "body": self.welcome_message,
                    "msgtype": "m.text",
                    "nogpt": True,
                },
            )
    def ignore_self_message(self, func):
        @wraps(func)
        async def ret(room: MatrixRoom, event: RoomMessageText):
            if event.sender == self.user:
                return
            return await func(room, event)
        return ret
    def log_message(self, func):
        @wraps(func)
        async def ret(room: MatrixRoom, event: RoomMessageText):
            print(room.room_id, event.sender, event.body)
            return await func(room, event)
        return ret
    def with_typing(self, func):
        @wraps(func)
        async def ret(room, *args, **kargs):
            await self.room_typing(room.room_id, True, 60000 * 3)
            resp = await func(room, *args, **kargs)
            await self.room_typing(room.room_id, False)
            return resp
        return ret
    def change_event_id_to_root_id(self, func):
        @wraps(func)
        async def ret(room, event, *args, **kargs):
            root = event.event_id
            if event.flattened().get("content.m.relates_to.rel_type") == "m.thread":
                root = event.source["content"]["m.relates_to"]["event_id"]
            event.event_id = root
            return await func(room, event, *args, **kargs)
        return ret
    def ignore_not_mentioned(self, func):
        @wraps(func)
        async def ret(room, event, *args, **kargs):
            flattened = event.flattened()
            if not self.user in flattened.get(
                "content.body", ""
            ) and not self.user in flattened.get("content.formatted_body", ""):
                return
            return await func(room, event, *args, **kargs)
        return ret
    def replace_command_mark(self, func):
        @wraps(func)
        async def ret(room, event, *args, **kargs):
            if event.body.startswith("！"):
                event.body = "!" + event.body[1:]
            return await func(room, event, *args, **kargs)
        return ret
    def handel_no_gpt(self, func):
        @wraps(func)
        async def ret(room, event, *args, **kargs):
            if not event.flattened().get("content.nogpt") is None:
                return
            return await func(room, event, *args, **kargs)
        return ret
    def replace_reply_file_with_content(self, func):
        @wraps(func)
        async def ret(room, event, *args, **kargs):
            flattened = event.flattened()
            formatted_body = flattened.get("content.formatted_body", "")
            if (
                formatted_body.startswith("<mx-reply>")
                and "</mx-reply>" in formatted_body
            ):
                print("replacing file content")
                formatted_body = formatted_body[
                    formatted_body.index("</mx-reply>") + len("</mx-reply>") :
                ]
                document_event_id = flattened.get(
                    "content.m.relates_to.m.in_reply_to.event_id", ""
                )
                fetch = await self.db.fetch_all(
                    query="""select d.content, d.token
                    from documents d
                    join event_document ed on d.md5 = ed.document_md5
                    where ed.event = :event_id""",
                    values={"event_id": document_event_id},
                )
                if len(fetch) > 0 and fetch[0][1] < 8192 + 4096:
                    content = fetch[0][0]
                    print(content)
                    print("-----------")
                    event.body = content + "\n\n---\n\n" + formatted_body
                else:
                    print("document not found or too large", event.event_id)
            return await func(room, event, *args, **kargs)
        return ret
    def ignore_link(self, func):
        @wraps(func)
        async def ret(room, event, *args, **kargs):
            if event.body.startswith("https://") or event.body.startswith("http://"):
                return
            return await func(room, event, *args, **kargs)
        return ret
    def safe_try(self, func):
        @wraps(func)
        async def ret(room, event, *args, **kargs):
            try:
                return await func(room, event, *args, **kargs)
            except Exception as e:
                print("--------------")
                print("error:")
                print(traceback.format_exc())
                print("--------------")
                await self.room_send(
                    room.room_id,
                    "m.reaction",
                    {
                        "m.relates_to": {
                            "event_id": event.event_id,
                            "key": "😵",
                            "rel_type": "m.annotation",
                        }
                    },
                )
        return ret
    def message_callback_common_wrapper(self, func):
        @wraps(func)
        @self.ignore_self_message
        @self.handel_no_gpt
        @self.log_message
        @self.with_typing
        @self.replace_reply_file_with_content
        @self.change_event_id_to_root_id
        @self.replace_command_mark
        @self.safe_try
        async def ret(*args, **kargs):
            return await func(*args, **kargs)
        return ret
    async def react_ok(self, room_id: str, event_id: str):
        await self.room_send(
            room_id,
            "m.reaction",
            {
                "m.relates_to": {
                    "event_id": event_id,
                    "key": "😘",
                    "rel_type": "m.annotation",
                }
            },
        )
--- a/bot_chatgpt.py
+++ b/bot_chatgpt.py
@@ -0,0 +1,401 @@
 import os
 import dotenv
 dotenv.load_dotenv()
 import asyncio
 import jinja2
 import requests
 import datetime
 from langchain.schema import AIMessage, BaseMessage, HumanMessage, SystemMessage
 from nio import MatrixRoom, RoomMessageFile, RoomMessageText
 from langchain.chat_models import ChatOpenAI
 import json
 from langchain import LLMChain
 from langchain.prompts import ChatPromptTemplate
 from bot import Bot, print
 from langchain.embeddings import OpenAIEmbeddings, awa
 embeddings_model = OpenAIEmbeddings(
    openai_api_key=os.environ["OPENAI_API_KEY"],
    openai_api_base=os.environ["OPENAI_API_BASE"],
    show_progress_bar=True,
 )
 client = Bot(
    os.environ["BOT_CHATGPT_HOMESERVER"],
    os.environ["BOT_CHATGPT_USER"],
    os.environ["MATRIX_CHAIN_DEVICE"],
    os.environ["BOT_CHATGPT_ACCESS_TOKEN"],
 )
 client.welcome_message = """你好👋，我是 matrix chain 中的大语言模型插件
 ## 使用方式：
 - 直接在房间内发送消息，GPT 会在消息列中进行回复。GPT 会单独记住每个消息列中的所有内容，每个消息列单独存在互不干扰
 ## 配置方式：
 - 发送 "!system + 系统消息" 配置大语言模型的角色，例如发送 "!system 你是一个专业英语翻译，你要把我说的话翻译成英语。你可以调整语序结构和用词让翻译更加通顺。"
 """
 class SilentUndefined(jinja2.Undefined):
    def _fail_with_undefined_error(self, *args, **kwargs):
        print(f'jinja2.Undefined: "{self._undefined_name}" is undefined')
        return ""
 def render(template: str, **kargs) -> str:
    env = jinja2.Environment(undefined=SilentUndefined)
    temp = env.from_string(template)
    def now() -> str:
        return datetime.datetime.now().strftime("%Y-%m-%d")
    temp.globals["now"] = now
    return temp.render(**kargs)
 async def get_reply_file_content(event):
    """When user reply to a event, retrive the file content (document) of event
    Return with the file content and token length
    """
    flattened = event.flattened()
    formatted_body = flattened.get("content.formatted_body", "")
    if not (
        formatted_body.startswith("<mx-reply>") and "</mx-reply>" in formatted_body
    ):
        return "", 0
    print("replacing file content")
    formatted_body = formatted_body[
        formatted_body.index("</mx-reply>") + len("</mx-reply>") :
    ]
    document_event_id = flattened.get("content.m.relates_to.m.in_reply_to.event_id", "")
    fetch = await client.db.fetch_one(
        query="""select d.content, d.token
        from documents d
        join event_document ed on d.md5 = ed.document_md5
        where ed.event = :document_event_id""",
        values={
            "document_event_id": document_event_id,
        },
    )
    if fetch and fetch[1] < 8192 + 4096:
        content = fetch[0]
        token = fetch[1]
        print(content)
        print(token)
        print("-----------")
        return content, token
    print("document not found or too large", event.event_id)
    return "", 0
@client.ignore_link
@client.message_callback_common_wrapper
 async def message_callback(room: MatrixRoom, event: RoomMessageText) -> None:
    # handle set system message
    if event.body.startswith("!"):
        if event.body.startswith("!system"):
            systemMessageContent = event.body.lstrip("!system").strip()
            # save to db
            await client.db.execute(
                query="""
                insert into room_configs (room, system, examples)
                values (:room_id, :systemMessageContent, '{}')
                on conflict (room)
                do update set system = excluded.system, examples = '{}'
                """,
                values={
                    "room_id": room.room_id,
                    "systemMessageContent": systemMessageContent,
                },
            )
            await client.react_ok(room.room_id, event.event_id)
            return
        if event.body.startswith("!model"):
            model_name = event.body.lstrip("!model").strip()
            # save to db
            await client.db.execute(
                query="""
                insert into room_configs (room, model_name)
                values (:room_id, :model_name)
                on conflict (room)
                do update set model_name = excluded.model_name
                """,
                values={"room_id": room.room_id, "model_name": model_name},
            )
            await client.react_ok(room.room_id, event.event_id)
            return
        if event.body.startswith("!temp"):
            temperature = float(event.body.lstrip("!temp").strip())
            # save to db
            await client.db.execute(
                query="""
                insert into room_configs (room, temperature)
                values (:room_id, :temperature)
                on conflict (room)
                do update set temperature = excluded.temperature
                """,
                values={"room_id": room.room_id, "temperature": temperature},
            )
            await client.react_ok(room.room_id, event.event_id)
            return
        return
    messages: list[BaseMessage] = []
    # query prompt from db
    db_result = await client.db.fetch_one(
        query="""
        select system, examples, model_name, temperature
        from room_configs
        where room = :room_id
        limit 1
        """,
        values={"room_id": room.room_id},
    )
    model_name: str = db_result[2] if db_result else ""
    temperature: float = db_result[3] if db_result else 0
    systemMessageContent: str = db_result[0] if db_result else ""
    systemMessageContent = systemMessageContent or ""
    if systemMessageContent:
        messages.append(SystemMessage(content=systemMessageContent))
    examples = db_result[1] if db_result else []
    for i, m in enumerate(examples):
        if not m:
            print("Warning: message is empty", m)
            continue
        if i % 2 == 0:
            messages.append(HumanMessage(content=m["content"], example=True))
        else:
            messages.append(AIMessage(content=m["content"], example=True))
    exampleTokens = 0
    exampleTokens += sum(client.get_token_length(m) for m in examples if m)
    # get embedding
    embedding_query = await client.db.fetch_all(
        query="""
        select content, distance, total_token from (
            select
                content,
                document_md5,
                distance,
                sum(token) over (partition by room order by distance) as total_token
            from (
                select
                    content,
                    rd.room,
                    e.document_md5,
                    e.embedding <#> :embedding as distance,
                    token
                from embeddings e
                join room_document rd on rd.document_md5 = e.document_md5
                join room_configs rc on rc.room = rd.room
                where rd.room = :room_id and rc.embedding
                order by distance
                limit 16
            ) as sub
        ) as sub2
        where total_token < 6144
        ;""",
        values={
            "embedding": str(await embeddings_model.aembed_query(event.body)),
            "room_id": room.room_id,
        },
    )
    print("emebdding_query", embedding_query)
    embedding_token = 0
    embedding_text = ""
    if len(embedding_query) > 0:
        embedding_query.reverse()
        embedding_text = "\n\n".join([i[0] for i in embedding_query])
        embedding_token = client.get_token_length(embedding_text)
    filecontent, filetoken = await get_reply_file_content(event)
    # query memory from db
    max_token = 4096 * 4
    token_margin = 4096
    system_token = client.get_token_length(systemMessageContent) + exampleTokens
    memory_token = max_token - token_margin - system_token - embedding_token - filetoken
    print(
        "system_token",
        system_token,
        "emebdding_token",
        embedding_token,
        "filetoken",
        filetoken,
    )
    rows = await client.db.fetch_all(
        query="""select role, content from (
            select role, content, sum(token) over (partition by root order by id desc) as total_token
            from memories
            where root = :root
            order by id
        ) as sub
        where total_token < :token
        ;""",
        values={"root": event.event_id, "token": memory_token},
    )
    for role, content in rows:
        if role == 1:
            messages.append(HumanMessage(content=content))
        elif role == 2:
            messages.append(AIMessage(content=content))
        else:
            print("Unknown message role", role, content)
    temp = "{{input}}"
    if filecontent and embedding_text:
        temp = """## Reference information:
 {{embedding}}
 ---
 ## Query document:
 {{filecontent}}
 ---
 {{input}}"""
    elif embedding_text:
        temp = """## Reference information:
 {{embedding}}
 ---
 {{input}}"""
    elif filecontent:
        temp = """ ## Query document:
 {{filecontent}}
 ---
 {{input}}"""
    temp = render(
        temp, input=event.body, embedding=embedding_text, filecontent=filecontent
    )
    messages.append(HumanMessage(content=temp))
    total_token = (
        sum(client.get_token_length(m.content) for m in messages) + len(messages) * 6
    )
    if not model_name:
        model_name = "gpt-3.5-turbo" if total_token < 3939 else "gpt-3.5-turbo-16k"
    print("messages", messages)
    chat_model = ChatOpenAI(
        openai_api_base=os.environ["OPENAI_API_BASE"],
        openai_api_key=os.environ["OPENAI_API_KEY"],
        model=model_name,
        temperature=temperature,
    )
    chain = LLMChain(llm=chat_model, prompt=ChatPromptTemplate.from_messages(messages))
    result = await chain.arun(
        {
            "input": event.body,
            "embedding": embedding_text,
            "filecontent": filecontent,
        }
    )
    print(result)
    await client.room_send(
        room.room_id,
        "m.room.message",
        {
            "body": result,
            "msgtype": "m.text",
            "m.relates_to": {
                "rel_type": "m.thread",
                "event_id": event.event_id,
            },
        },
    )
    # record query and result
    await client.db.execute_many(
        query="insert into memories(root, role, content, token) values (:root, :role, :content, :token)",
        values=[
            {
                "root": event.event_id,
                "role": 1,
                "content": event.body,
                "token": client.get_token_length(event.body),
            },
            {
                "root": event.event_id,
                "role": 2,
                "content": result,
                "token": client.get_token_length(result),
            },
        ],
    )
 client.add_event_callback(message_callback, RoomMessageText)
@client.ignore_self_message
@client.handel_no_gpt
@client.log_message
@client.with_typing
@client.replace_command_mark
@client.safe_try
 async def message_file(room: MatrixRoom, event: RoomMessageFile):
    if not event.flattened().get("content.info.mimetype") == "application/json":
        print("not application/json")
        return
    size = event.flattened().get("content.info.size", 1024 * 1024 + 1)
    if size > 1024 * 1024:
        print("json file too large")
        return
    print("event url", event.url)
    j = requests.get(
        f'https://yongyuancv.cn/_matrix/media/r0/download/yongyuancv.cn/{event.url.rsplit("/", 1)[-1]}'
    ).json()
    if j.get("chatgpt_api_web_version") is None:
        print("not chatgpt-api-web chatstore export file")
        return
    if j["chatgpt_api_web_version"] < "v1.5.0":
        raise ValueError(j["chatgpt_api_web_version"])
    examples = [m["content"] for m in j["history"] if m["example"]]
    await client.db.execute(
        query="""
            insert into room_configs (room, system, examples)
            values (:room_id, :system, :examples)
            on conflict (room) do update set system = excluded.system, examples = excluded.examples
        """,
        values={
            "room_id": room.room_id,
            "system": j["systemMessageContent"],
            "examples": str(examples),
        },
    )
    await client.room_send(
        room.room_id,
        "m.reaction",
        {
            "m.relates_to": {
                "event_id": event.event_id,
                "key": "😘",
                "rel_type": "m.annotation",
            }
        },
    )
 client.add_event_callback(message_file, RoomMessageFile)
 asyncio.run(client.sync_forever())
--- a/bot_db.py
+++ b/bot_db.py
@@ -0,0 +1,444 @@
 import PyPDF2
 import html2text
 import re
 import hashlib
 from nio import (
    DownloadError,
    MatrixRoom,
    RoomMessageAudio,
    RoomMessageFile,
    RoomMessageText,
 )
 from langchain.text_splitter import MarkdownTextSplitter
 from bot import Bot, print
 import asyncio
 import io
 import yt_dlp
 import os
 import subprocess
 from langchain.embeddings import OpenAIEmbeddings
 from selenium import webdriver
 print("lanuching driver")
 options = webdriver.FirefoxOptions()
 options.add_argument("-headless")
 driver = webdriver.Firefox(options=options)
 async def get_html(url: str) -> str:
    driver.get(url)
    await asyncio.sleep(3)
    return driver.page_source or ""
 import openai
 embeddings_model = OpenAIEmbeddings(
    openai_api_key=os.environ["OPENAI_API_KEY"],
    openai_api_base=os.environ["OPENAI_API_BASE"],
    show_progress_bar=True,
 )
 client = Bot(
    os.environ["BOT_DB_HOMESERVER"],
    os.environ["BOT_DB_USER"],
    os.environ["MATRIX_CHAIN_DEVICE"],
    os.environ["BOT_DB_ACCESS_TOKEN"],
 )
 client.welcome_message = """欢迎使用 matrix chain db 插件，我能将房间中的所有文件添加进embedding数据库，并为gpt提供支持
 ## 使用方式
 - 发送文件或视频链接
  目前支持文件格式：txt / pdf / md / doc / docx / ppt / pptx
  目前支持视频链接：Bilibili / Youtube
 ## 配置选项
 - !clean 或 !clear 清除该房间中所有的embedding信息
 - !embedding on 或 !embedding off 开启或关闭房间内embedding功能 （默认关闭）"""
 spliter = MarkdownTextSplitter(
    chunk_size=400,
    chunk_overlap=100,
    length_function=client.get_token_length,
 )
 offices_mimetypes = [
    "application/wps-office.docx",
    "application/wps-office.doc",
    "application/wps-office.pptx",
    "application/wps-office.ppt",
    "application/msword",
    "application/vnd.openxmlformats-officedocument.wordprocessingml.document",
    "application/vnd.openxmlformats-officedocument.wordprocessingml.template",
    "application/vnd.ms-powerpoint",
    "application/vnd.openxmlformats-officedocument.presentationml.presentation",
    "application/vnd.oasis.opendocument.text",
    "application/vnd.oasis.opendocument.presentation",
 ]
 mimetypes = [
    "text/plain",
    "application/pdf",
    "text/markdown",
    "text/html",
 ] + offices_mimetypes
 def allowed_file(mimetype: str):
    return mimetype.lower() in mimetypes
 async def create_embedding(room, event, md5, content, url):
    transaction = await client.db.transaction()
    await client.db.execute(
        query="""insert into documents (md5, content, token, url)
        values (:md5, :content, :token, :url)
        on conflict (md5) do nothing
        ;""",
        values={
            "md5": md5,
            "content": content,
            "token": client.get_token_length(content),
            "url": url,
        },
    )
    rows = await client.db.fetch_all(
        query="select document_md5 from room_document where room = :room and document_md5 = :md5 limit 1;",
        values={"room": room.room_id, "md5": md5},
    )
    if len(rows) > 0:
        await transaction.rollback()
        print("document alreadly insert in room", md5, room.room_id)
        await client.room_send(
            room.room_id,
            "m.reaction",
            {
                "m.relates_to": {
                    "event_id": event.event_id,
                    "key": "👍",
                    "rel_type": "m.annotation",
                }
            },
        )
        return
    await client.db.execute(
        query="""
            insert into room_document (room, document_md5)
            values (:room_id, :md5)
            on conflict (room, document_md5) do nothing
        ;""",
        values={"room_id": room.room_id, "md5": md5},
    )
    # start embedding
    chunks = spliter.split_text(content)
    print("chunks", len(chunks))
    embeddings = await embeddings_model.aembed_documents(chunks, chunk_size=1600)
    print("embedding finished", len(embeddings))
    if len(chunks) != len(embeddings):
        raise ValueError("asdf")
    insert_data: list[dict] = []
    for chunk, embedding in zip(chunks, embeddings):
        insert_data.append(
            {
                "document_md5": md5,
                "md5": hashlib.md5(chunk.encode()).hexdigest(),
                "content": chunk,
                "token": client.get_token_length(chunk),
                "embedding": str(embedding),
            }
        )
    await client.db.execute_many(
        query="""insert into embeddings (document_md5, md5, content, token, embedding)
        values (:document_md5, :md5, :content, :token, :embedding)
        on conflict (document_md5, md5) do nothing
        ;""",
        values=insert_data,
    )
    print("insert", len(insert_data), "embedding data")
    await client.db.execute(
        query="""
            insert into event_document (event, document_md5)
            values (:event_id, :md5)
            on conflict (event) do nothing
        ;""",
        values={"event_id": event.event_id, "md5": md5},
    )
    await transaction.commit()
    await client.room_send(
        room.room_id,
        "m.reaction",
        {
            "m.relates_to": {
                "event_id": event.event_id,
                "key": "😘",
                "rel_type": "m.annotation",
            }
        },
    )
 def clean_html(html: str) -> str:
    h2t = html2text.HTML2Text()
    h2t.ignore_emphasis = True
    h2t.ignore_images = True
    h2t.ignore_links = True
    h2t.body_width = 0
    content = h2t.handle(html)
    return content
 def clean_content(content: str, mimetype: str, document_md5: str) -> str:
    # clean 0x00
    content = content.replace("\x00", "")
    # clean links
    content = re.sub(r"\[.*?\]\(.*?\)", "", content)
    content = re.sub(r"!\[.*?\]\(.*?\)", "", content)
    # clean lines
    lines = [i.strip() for i in content.split("\n\n")]
    while "" in lines:
        lines.remove("")
    content = "\n\n".join(lines)
    content = "\n".join([i.strip() for i in content.split("\n")])
    return content
 def pdf_to_text(f) -> str:
    pdf_reader = PyPDF2.PdfReader(f)
    num_pages = len(pdf_reader.pages)
    content = ""
    for page_number in range(num_pages):
        page = pdf_reader.pages[page_number]
        content += page.extract_text()
    return content
@client.ignore_self_message
@client.handel_no_gpt
@client.log_message
@client.with_typing
@client.replace_command_mark
@client.safe_try
 async def message_file(room: MatrixRoom, event: RoomMessageFile):
    print("received file")
    mimetype = event.flattened().get("content.info.mimetype", "")
    if not allowed_file(mimetype):
        print("not allowed file", event.body)
        raise ValueError("not allowed file")
    resp = await client.download(event.url)
    if isinstance(resp, DownloadError):
        raise ValueError("file donwload error")
    assert isinstance(resp.body, bytes)
    md5 = hashlib.md5(resp.body).hexdigest()
    document_fetch_result = await client.db.execute(
        query="select content from documents where md5 = :md5;", values={"md5": md5}
    )
    document_alreadly_exists = len(document_fetch_result) == 0
    # get content
    content = ""
    # document not exists
    if not document_alreadly_exists:
        print("document", md5, "alreadly exists")
        content = document_fetch_result[0][0]
    else:
        if mimetype == "text/plain" or mimetype == "text/markdown":
            content = resp.body.decode()
        elif mimetype == "text/html":
            content = clean_html(resp.body.decode())
        elif mimetype == "application/pdf":
            f = io.BytesIO(resp.body)
            content = pdf_to_text(f)
        elif mimetype in offices_mimetypes:
            # save file to temp dir
            base = event.body.rsplit(".", 1)[0]
            ext = event.body.rsplit(".", 1)[1]
            print("base", base)
            source_filepath = os.path.join("./cache/office", event.body)
            txt_filename = base + ".txt"
            txt_filepath = os.path.join("./cache/office", txt_filename)
            print("source_filepath", source_filepath)
            with open(source_filepath, "wb") as f:
                f.write(resp.body)
            if ext in ["doc", "docx", "odt"]:
                process = subprocess.Popen(
                    [
                        "soffice",
                        "--headless",
                        "--convert-to",
                        "txt:Text",
                        "--outdir",
                        "./cache/office",
                        source_filepath,
                    ]
                )
                process.wait()
                with open(txt_filepath, "r") as f:
                    content = f.read()
            elif ext in ["ppt", "pptx", "odp"]:
                pdf_filename = base + ".pdf"
                pdf_filepath = os.path.join("./cache/office", pdf_filename)
                process = subprocess.Popen(
                    [
                        "soffice",
                        "--headless",
                        "--convert-to",
                        "pdf",
                        "--outdir",
                        "./cache/office",
                        source_filepath,
                    ]
                )
                process.wait()
                with open(pdf_filepath, "rb") as f:
                    content = pdf_to_text(f)
            else:
                raise ValueError("unknown ext: ", ext)
            print("converted txt", content)
        else:
            raise ValueError("unknown mimetype", mimetype)
    content = clean_content(content, mimetype, md5)
    print("content length", len(content))
    await create_embedding(room, event, md5, content, event.url)
 client.add_event_callback(message_file, RoomMessageFile)
 yt_dlp_support = ["b23.tv/", "www.bilibili.com/video/", "youtube.com/"]
 def allow_yt_dlp(link: str) -> bool:
    if not link.startswith("http://") and not link.startswith("https://"):
        return False
    allow = False
    for u in yt_dlp_support:
        if u in link:
            allow = True
            break
    return allow
 def allow_web(link: str) -> bool:
    print("checking web url", link)
    if not link.startswith("http://") and not link.startswith("https://"):
        return False
    return True
@client.message_callback_common_wrapper
 async def message_text(room: MatrixRoom, event: RoomMessageText) -> None:
    if event.body.startswith("!"):
        should_react = True
        if event.body.startswith("!clear") or event.body.startswith("!clean"):
            # save to db
            async with client.db.transaction():
                await client.db.execute(
                    query="""
                        delete from embeddings e
                        using room_document rd
                        where e.document_md5 = rd.document_md5 and
                            rd.room = :room_id;
                    """,
                    values={"room_id": room.room_id},
                )
                await client.db.execute(
                    query="delete from room_document where room = :room_id;",
                    values={"room_id": room.room_id},
                )
        elif event.body.startswith("!embedding"):
            sp = event.body.split()
            if len(sp) < 2:
                return
            if not sp[1].lower() in ["on", "off"]:
                return
            status = sp[1].lower() == "on"
            await client.db.execute(
                query="""
                insert into room_configs (room, embedding)
                values (:room_id, :status)
                on conflict (room) do update set embedding = excluded.embedding
            ;""",
                values={"room_id": room.room_id, "status": status},
            )
        else:
            should_react = False
        if should_react:
            await client.room_send(
                room.room_id,
                "m.reaction",
                {
                    "m.relates_to": {
                        "event_id": event.event_id,
                        "key": "😘",
                        "rel_type": "m.annotation",
                    }
                },
            )
        return
    if allow_yt_dlp(event.body.split()[0]):
        # handle yt-dlp
        ydl_opts = {
            "format": "wa*",
            # ℹ️ See help(yt_dlp.postprocessor) for a list of available Postprocessors and their arguments
            "postprocessors": [
                {  # Extract audio using ffmpeg
                    "key": "FFmpegExtractAudio",
                    #'preferredcodec': 'opus',
                    #'preferredquality': 64,
                }
            ],
        }
        url = event.body.split()[0]
        info = None
        with yt_dlp.YoutubeDL(ydl_opts) as ydl:
            info = ydl.extract_info(url, download=True)
        filepath = info["requested_downloads"][0]["filepath"]
        filename = info["requested_downloads"][0]["filename"]
        title = info["title"]
        realfilepath = os.path.join("./cache/yt-dlp", filename)
        os.rename(filepath, realfilepath)
        result = openai.Audio.transcribe(
            file=open(realfilepath, "rb"),
            model="large-v2",
            prompt=title,
        )
        result = "\n".join([i.text for i in result["segments"]])
        print(event.sender, result)
        md5 = hashlib.md5(result.encode()).hexdigest()
        await create_embedding(room, event, md5, result, url)
        return
    if allow_web(event.body.split()[0]):
        url = event.body.split()[0]
        print("downloading", url)
        html = await get_html(url)
        md5 = hashlib.md5(html.encode()).hexdigest()
        content = clean_html(html)
        content = clean_content(content, "text/markdown", md5)
        if not content:
            raise ValueError("Empty content")
        print(content)
        await create_embedding(room, event, md5, content, url)
        return
 client.add_event_callback(message_text, RoomMessageText)
 asyncio.run(client.sync_forever())
--- a/bot_tts.py
+++ b/bot_tts.py
@@ -0,0 +1,75 @@
 import asyncio
 import os
 import aiohttp
 import json
 import base64
 from langdetect import detect
 from bot import Bot, print
 from nio import MatrixRoom, RoomMessageText
 from io import BytesIO
 url = f"https://texttospeech.googleapis.com/v1/text:synthesize?key={os.environ['GOOGLE_TTS_API_KEY']}"
 client = Bot(
    os.environ["BOT_TTS_HOMESERVER"],
    os.environ["BOT_TTS_USER"],
    os.environ["MATRIX_CHAIN_DEVICE"],
    os.environ["BOT_TTS_ACCESS_TOKEN"],
 )
 async def tts(text: str):
    lang = detect(text)
    langMap = {
        "zh-cn": {
            "languageCode": "cmn-cn",
            "name": "cmn-CN-Wavenet-B",
        },
        "en": {"languageCode": "en-US", "name": "en-US-Neural2-F"},
        "ja": {"languageCode": "ja-JP", "name": "ja-JP-Neural2-B"},
    }
    voice = langMap.get(lang, langMap["en"])
    async with aiohttp.ClientSession() as session:
        payload = {
            "input": {"text": text},
            "voice": voice,
            "audioConfig": {"audioEncoding": "OGG_OPUS", "speakingRate": 1.39},
        }
        headers = {"content-type": "application/json"}
        async with session.post(url, data=json.dumps(payload), headers=headers) as resp:
            data = await resp.json()
            audio_content = data.get("audioContent")
            decoded = base64.b64decode(audio_content)
            return decoded
@client.ignore_self_message
@client.handel_no_gpt
@client.log_message
@client.with_typing
@client.change_event_id_to_root_id
@client.replace_command_mark
@client.safe_try
 async def message_callback(room: MatrixRoom, event: RoomMessageText) -> None:
    if not event.sender.startswith("@chatgpt-bot"):
        return
    audio = await tts(event.body)
    # convert
    resp, upload = await client.upload(BytesIO(audio), "audio/ogg", filesize=len(audio))
    content = {
        "msgtype": "m.audio",
        "body": event.body if len(event.body) < 20 else event.body[16] + "...",
        "info": {"mimetype": "audio/ogg", "size": len(audio)},
        "url": resp.content_uri,
        "m.relates_to": {
            "rel_type": "m.thread",
            "event_id": event.event_id,
        },
    }
    await client.room_send(room.room_id, message_type="m.room.message", content=content)
 client.add_event_callback(message_callback, RoomMessageText)
 asyncio.run(client.sync_forever())
--- a/bot_whisper.py
+++ b/bot_whisper.py
@@ -0,0 +1,169 @@
 import os
 from nio import DownloadError, MatrixRoom, RoomMessageAudio, RoomMessageFile
 import asyncio
 import openai
 import io
 from bot import Bot, print
 client = Bot(
    os.environ["BOT_WHISPER_HOMESERVER"],
    os.environ["BOT_WHISPER_USER"],
    os.environ["MATRIX_CHAIN_DEVICE"],
    os.environ["BOT_WHISPER_ACCESS_TOKEN"],
 )
 client.welcome_message = (
    """欢迎使用 matrix chain whisper 插件，我能将房间中的语音消息转换成文字发出，如果语音过长，我会用文件形式发出"""
 )
@client.message_callback_common_wrapper
 async def message_callback(room: MatrixRoom, event: RoomMessageAudio):
    print("received message")
    print(event.flattened())
    if event.flattened().get("content.info.duration", 0) > 1000 * 60 * 5:
        return await message_file(room, event)
    if event.source.get("content", {}).get("org.matrix.msc1767.audio") is None:
        # handle audio file
        return await message_file(room, event)
    resp = await client.download(event.url)
    if isinstance(resp, DownloadError):
        return
    filelikeobj = io.BytesIO(resp.body)
    filelikeobj.name = "matrixaudio.ogg"
    # get prompt
    rows = await client.db.execute(
        query="""select content from (
        select role, content, sum(token) over (partition by root order by id desc) as total_token
        from memories
        where root = :event_id
        order by id
    ) as sub
    where total_token < 3039
    ;""",
        values={"event_id": event.event_id},
    )
    prompt = "".join([i[0] for i in rows])
    # no memory
    if not prompt:
        db_result = await client.db.fetch_all(
            query="select system, examples from room_configs where room = :room_id;",
            values={"room_id": room.room_id},
        )
        if len(db_result) > 0:
            systemMessageContent = db_result[0][0]
            examples = [
                m.get("content", "") for m in db_result[0][1] if m.get("example")
            ]
            while "" in examples:
                examples.remove("")
            if systemMessageContent:
                prompt += systemMessageContent + "\n\n"
            if len(examples) > 0:
                prompt += "\n\n".join(examples)
    print("initial_prompt", prompt)
    result = openai.Audio.transcribe(file=filelikeobj, model="large-v2", prompt=prompt)
    result = "\n".join([i.text for i in result["segments"]])
    print(event.sender, result)
    await client.room_send(
        room.room_id,
        "m.room.message",
        {
            "body": result,
            "msgtype": "m.text",
            "m.relates_to": {
                "rel_type": "m.thread",
                "event_id": event.event_id,
            },
        },
    )
 client.add_event_callback(message_callback, RoomMessageAudio)
 ALLOWED_EXTENSIONS = {
    "mp3",
    "mp4",
    "mpeg",
    "mpga",
    "m4a",
    "wav",
    "webm",
    "3gp",
    "flac",
    "ogg",
    "mkv",
 }
 def allowed_file(mimetype):
    return "/" in mimetype and mimetype.rsplit("/", 1)[1].lower() in ALLOWED_EXTENSIONS
 def get_txt_filename(filename):
    return filename + ".txt"
 async def message_file(room: MatrixRoom, event: RoomMessageFile):
    print("received file")
    if not allowed_file(event.flattened().get("content.info.mimetype")):
        print("not allowed file", event.body)
        raise Exception("not allowed file")
    resp = await client.download(event.url)
    if isinstance(resp, DownloadError):
        return
    filelikeobj = io.BytesIO(resp.body)
    filelikeobj.name = event.body
    # get prompt
    rows = await client.db.execute(
        query="""
            select content from (
                select role, content, sum(token) over (partition by root order by id desc) as total_token
                from memories
                where root = :event_id
                order by id
            ) as sub
            where total_token < 3039
            ;""",
        values={"event_id": event.event_id},
    )
    prompt = "".join([i[0] for i in rows])
    print("initial_prompt", prompt)
    result = openai.Audio.transcribe(file=filelikeobj, model="large-v2", prompt=prompt)
    result = "\n".join([i.text for i in result["segments"]])
    print(event.sender, result)
    resultfilelike = io.BytesIO(result.encode())
    resultfilelike.name = get_txt_filename(event.body)
    resultfileSize = len(result.encode())
    uploadResp, _ = await client.upload(
        resultfilelike, content_type="text/plain", filesize=resultfileSize
    )
    print("uri", uploadResp.content_uri)
    await client.room_send(
        room.room_id,
        "m.room.message",
        {
            "body": resultfilelike.name,
            "filename": resultfilelike.name,
            "msgtype": "m.file",
            "info": {
                "mimetype": "text/plain",
                "size": resultfileSize,
            },
            "m.relates_to": {
                "rel_type": "m.thread",
                "event_id": event.event_id,
            },
            "url": uploadResp.content_uri,
        },
    )
 asyncio.run(client.sync_forever())
--- a/docker-compose.yaml
+++ b/docker-compose.yaml
@@ -0,0 +1,25 @@
 version: '3'
 services:
  bot-chatgpt:
    image: matrix-chain
    env_file:
      - ./.env
    command: python3 bot_chatgpt.py
  bot-db:
    image: matrix-chain
    env_file:
      - ./.env
    command: python3 bot_db.py
  bot-whisper:
    image: matrix-chain
    env_file:
      - ./.env
    command: python3 bot_whisper.py
  bot-tts:
    image: matrix-chain
    env_file:
      - ./.env
    command: python3 bot_tts.py
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1,13 @@
 databases
 aiopg
 matrix-nio
 langchain
 python-dotenv
 tiktoken
 PyPDF2
 html2text
 yt_dlp
 selenium
 openai
 langdetect
 jinja2
--- a/requirements_version.txt
+++ b/requirements_version.txt
@@ -0,0 +1,72 @@
 aiofiles==23.2.1
 aiohttp==3.8.6
 aiohttp-socks==0.7.1
 aiopg==1.4.0
 aiosignal==1.3.1
 annotated-types==0.6.0
 anyio==3.7.1
 async-timeout==4.0.3
 attrs==23.1.0
 Brotli==1.1.0
 certifi==2023.7.22
 charset-normalizer==3.3.0
 databases==0.8.0
 dataclasses-json==0.6.1
 frozenlist==1.4.0
 greenlet==3.0.0
 h11==0.14.0
 h2==4.1.0
 hpack==4.0.0
 html2text==2020.1.16
 hyperframe==6.0.1
 idna==3.4
 Jinja2==3.1.2
 jsonpatch==1.33
 jsonpointer==2.4
 jsonschema==4.19.1
 jsonschema-specifications==2023.7.1
 langchain==0.0.319
 langdetect==1.0.9
 langsmith==0.0.49
 MarkupSafe==2.1.3
 marshmallow==3.20.1
 matrix-nio==0.22.1
 multidict==6.0.4
 mutagen==1.47.0
 mypy-extensions==1.0.0
 numpy==1.26.1
 openai==0.28.1
 outcome==1.3.0
 packaging==23.2
 psycopg2-binary==2.9.9
 pycryptodome==3.19.0
 pycryptodomex==3.19.0
 pydantic==2.4.2
 pydantic_core==2.10.1
 PyPDF2==3.0.1
 PySocks==1.7.1
 python-dotenv==1.0.0
 python-socks==2.4.3
 PyYAML==6.0.1
 referencing==0.30.2
 regex==2023.10.3
 requests==2.31.0
 rpds-py==0.10.6
 selenium==4.14.0
 six==1.16.0
 sniffio==1.3.0
 sortedcontainers==2.4.0
 SQLAlchemy==1.4.49
 tenacity==8.2.3
 tiktoken==0.5.1
 tqdm==4.66.1
 trio==0.22.2
 trio-websocket==0.11.1
 typing-inspect==0.9.0
 typing_extensions==4.8.0
 unpaddedbase64==2.1.0
 urllib3==2.0.7
 websockets==11.0.3
 wsproto==1.2.0
 yarl==1.9.2
 yt-dlp==2023.10.13