Moin
Dann hast Du damit vermutlich sogar mehr Erfahrungen als ich. 
Solche “Bastellösungen” gibt es schon, aber letztendlich ist es ja auch immer eine Frage was der jeweilige User dann am Ende will und womit er dies dann umsetzt.
Ich nutze hier privat jetzt seit über 20 Jahren IP Kameras und hatte auch beruflich ein wenig damit zu tun, sodass ich da schon über ein gewisses Wissen verfüge und klar könnte ich da auch irgendwelche und eine Art von Tutorial Lösung erstellen, aber jede User hat am Ende seine ganz eigenen Vorstellen davon wie und womit er was umsetzen möchte. Dem einen reicht schon irgendeine Bastellösung mit irgendwelchen ESPs, ein anderer möchte einfach nur eine Video-Doorbell, wieder ein anderer möchte dann auch noch einen Türöffner und/oder Einlasskontrolle mit dazu, usw. usw.
Du machst Dir über so eine Lösung
ja jetzt auch schon Gedanken, aber ein anderer User ist dann vielleicht der Meinung das ihm irgendein Tuya Tastenfeld nicht ins Haus kommt und er will lieber eine All-In-On-Fertiglösung haben. Alles hat am Ende Vor- und Nachteile und die Integration in und Nutzung mit HA macht es eben noch komplizierter, sodass man immer wieder irgendwelche Abstriche machen muss, eben weil
Was ich an Deiner Stelle machen würde hatte ich ja bereits geschrieben, sprich ich würde mich mit den Hikvision und/oder Dahua Intercom Integrationen beschäftigen die es für HA gibt und dann versuchen heraus zu bekommen was dann damit geht und was nicht und ob man am Ende ggf. eine Lösung findet die einem ggf. reicht.
Anm.: Ich habe auch schon Axis und Hikvision IP Kameras im Einsatz gehabt, aber seit ca. 10 Jahren nutze ich ausschließlich Dahua Produkte und kann daher zu Hikvision nur noch wenig und zu Axis kaum noch etwas sagen. D.h. ich würde logischerweise zuerst bei Dahua nach einer Intercom-Anlage schauen, aber ob jetzt Hikvision oder Dahua spielt eigentlich keine Rolle, denn da gibt es nicht wirklich große Unterschiede. Entscheidender ist da eher welche der beiden für HA verfügbaren Integrationen da ggf. mehr bietet und/oder ggf. besser supportet und weiterentwicklet wird. Das kann ich aber nicht beurteilen. Ich kann Dir bzgl. Dahua nur sagen, weil Du über die Dahua Integration des User rroller ggf. auch stolpern wirst, dass diese Integration quasi “tot” ist und rroller diese so gut wie gar nicht mehr pflegt und auch nicht mehr weiterentwickelt. Diese Dahua Integration von rroller ist zwar nicht für Dahua Intercom-Anlagen gedacht, aber einige Dahua Intercom Nutzer haben/hatten die Integration von rroller noch zusätzlich im Einsatz.
Edit: Weil ich das eben im HA-Forum gelesen habe. Es gibt auch dann und wann mal User die sich - unabhängig von den üblichen Lösung - etwas für sich selber umsetzen. In dem Fall mit einer Dahua VTO2201F-P Intercom
die man bei Ali aktuell schon für rund € 150 bekommt. Gut das ist jetzt nur ein Modell mit Kamera + Klingel + Gegensprecheinrichtung + Türöffner und nicht auch noch mit z.B. einem Tastenfeld usw., aber dafür ist die halt auch sehr günstig.
Leider hat der User dort dann nicht beschrieben welche Version er von der Dahua VTO2201F-P benutzt hat, weil es davon inzwischen bereits mit der VTO2201F-P-S2 ein Nachfolgemodell gibt. Bei Dahua ist das mit den ganzen unzähligen Modellen eh immer ein Problem, weil es je nach Region auf der Welt dann auch noch unterschiedliche Modelle gibt. Der User ist am Ende seines Artikels unter “Final note on Dahua issues” darauf ja auch noch ein wenig eingegangen.
Was ich damit sagen will: Wenn man bereit ist sich etwas intensiver mit dem Thema zu befassen und nicht die “eierlegende Wollmilchsau” braucht,
dann kann man ggf. auch mit durchaus günstigen Lösungen zum Ziel kommen, ohne gleich vierstellige Summen auf den Tisch legen zu müssen, die dann vielleicht hübsch aussehen, aber am Ende ggf. auch wieder nicht die “eierlegende Wollmilchsau” sind. Siehe Deine Erfahrung mit Metzler. 
Wenn es um Dahua Intercom und die OEM-Modelle davon geht, kannst Du z.B. auch mal dort lesen:
VG Jim